Biblioteka pandy sprawia, że nauka o danych oparta na Pythonie jest łatwa. Jest to popularna biblioteka Pythona do czytania, łączenia, sortowania, czyszczenia danych i nie tylko. Chociaż pandas jest łatwy w użyciu i zastosowaniu w zestawach danych, ma wiele funkcji manipulacji danymi, których można się nauczyć.
Możesz używać pand, ale istnieje duża szansa, że nie wykorzystujesz ich zbyt często do rozwiązywania problemów związanych z danymi. Oto nasza lista cennych funkcji pand manipulujących danymi, które powinien znać każdy analityk danych.
Zainstaluj pandy w swoim środowisku wirtualnym
Zanim przejdziemy dalej, upewnij się, że instalujesz pandy w swoim środowisku wirtualnym za pomocą pip:
pip zainstaluj pandy
Po zainstalowaniu zaimportuj pandy u góry skryptu i przejdźmy dalej.
1. pandy. Ramka danych
Używasz pandy. Ramka danych() stworzyć DataFrame w pandach. Istnieją dwa sposoby korzystania z tej funkcji.
Możesz utworzyć DataFrame kolumnowo, przekazując słownik do pandy. Ramka danych() funkcjonować. Tutaj każdy klucz jest kolumną, a wartościami są wiersze:
importuj pandy
DataFrame = pandy. DataFrame({"A": [1, 3, 4], "B": [5, 9, 12]})
drukuj (DataFrame)
Drugą metodą jest utworzenie DataFrame w wierszach. Ale tutaj oddzielisz wartości (pozycje wierszy) od kolumn. Liczba danych na każdej liście (dane wierszowe) musi również zgadzać się z liczbą kolumn.
importuj pandy
DataFrame = pandy. DataFrame([[1, 4, 5], [7, 19, 13]], kolumny= ["J", "K", "L"])
drukuj (DataFrame)
2. Czytaj z i pisz do Excela lub CSV w pandach
Możesz czytać lub pisać do plików Excel lub CSV za pomocą pand.
Czytanie plików Excel lub CSV
Aby przeczytać plik Excel:
#Zastąp plik example.xlsx ścieżką do pliku Excel
DataFrame = DataFrame.read_excel("przykład.xlsx")
Oto jak odczytać plik CSV:
#Zastąp plik example.csv ścieżką do pliku CSV
DataFrame = DataFrame.read_csv("przykład.csv")
Pisanie do Excela lub CSV
Pisanie do Excela lub CSV to dobrze znana operacja pand. Przydaje się też do zapisywania nowo obliczonych tabel w oddzielnych arkuszach danych.
Aby pisać do arkusza Excel:
DataFrame.to_excel("pełna_ścieżka_folderu_docelowego/nazwa pliku.xlsx")
Jeśli chcesz napisać do CSV:
DataFrame.to_csv("pełna_ścieżka_folderu_docelowego/nazwa pliku.csv")
Możesz również obliczyć główne tendencje każdej kolumny w DataFrame za pomocą pand.
Oto jak uzyskać średnią wartość każdej kolumny:
DataFrame.średnia()
Dla wartości mediany lub trybu zamień oznaczać() z mediana() lub tryb().
4. DataFrame.transform
pandy DataFrame.transform() modyfikuje wartości DataFrame. Przyjmuje funkcję jako argument.
Na przykład poniższy kod mnoży każdą wartość w DataFrame przez trzy, używając Funkcja lambda Pythona:
DataFrame = DataFrame.transform (lambda y: y*3)
drukuj (DataFrame)
5. DataFrame.isnull
Ta funkcja zwraca wartość logiczną i oznacza wszystkie wiersze zawierające wartości null jako Prawdziwe:
DataFrame.isnull()
Wynik powyższego kodu może być trudny do odczytania w przypadku większych zestawów danych. Więc możesz użyć isnull().sum() funkcja zamiast. Zwraca to podsumowanie wszystkich braków danych dla każdej kolumny:
DataFrame.isnull().sum()
6. Dataframe.info
ten informacja() funkcja jest niezbędna obsługa pand. Zamiast tego zwraca podsumowanie niebrakujących wartości dla każdej kolumny:
DataFrame.info()
7. DataFrame.opisz
ten opisać() funkcja daje podsumowanie statystyk DataFrame:
DataFrame.describe()
8. DataFrame.replace
Używając DataFrame.replace() w pandach można zastąpić wybrane wiersze innymi wartościami.
Na przykład, aby zamienić nieprawidłowe wiersze z Nan:
# Upewnij się, że pip install numpy, aby to zadziałało
importuj numer
importuj pandy
# Dodanie słowa kluczowego inplace i ustawienie go na True powoduje, że zmiany są trwałe:
DataFrame.replace([invalid_1, invalid_2], numpy.nan, inplace=true)
drukuj (DataFrame)
9. DataFrame.fillna
Ta funkcja pozwala wypełnić puste wiersze określoną wartością. Możesz wypełnić wszystko Nan wiersze w zbiorze danych z wartością średnią, na przykład:
DataFrame.fillna (df.mean(), inplace = True)
drukuj (DataFrame)
Możesz także być specyficzny dla kolumny:
DataFrame['nazwa_kolumny'].fillna (df[nazwa_kolumny].mean(), inplace = True)
drukuj (DataFrame)
10. DataFrame.dropna
ten dropna() metoda usuwa wszystkie wiersze zawierające wartości null:
DataFrame.dropna (w miejscu = Prawda)
drukuj (DataFrame)
11. DataFrame.insert
Możesz użyć pand wstawić() funkcja, aby dodać nową kolumnę do DataFrame. Przyjmuje trzy słowa kluczowe, Nazwa kolumny, lista jego danych i jego Lokalizacja, który jest indeksem kolumn.
Oto jak to działa:
DataFrame.insert (kolumna = 'C', wartość = [3, 4, 6, 7], loc=0)
drukuj (DataFrame)
Powyższy kod wstawia nową kolumnę pod indeksem kolumny zerowej (staje się pierwszą kolumną).
12. DataFrame.loc
Możesz użyć lok aby znaleźć elementy w określonym indeksie. Aby wyświetlić wszystkie pozycje w trzecim rzędzie, na przykład:
DataFrame.loc[2]
13. DataFrame.pop
Ta funkcja umożliwia usunięcie określonej kolumny z ramki DataFrame pandy.
Akceptuje i przedmiot słowo kluczowe, zwraca wyrwaną kolumnę i oddziela ją od reszty DataFrame:
DataFrame.pop (item= 'nazwa_kolumny')
drukuj (DataFrame)
14. DataFrame.max, min
Uzyskanie maksymalnych i minimalnych wartości za pomocą pand jest łatwe:
DataFrame.min()
Powyższy kod zwraca minimalną wartość dla każdej kolumny. Aby uzyskać maksimum, wymień min z maks.
15. DataFrame.join
ten Przystąp() funkcja pand pozwala łączyć DataFrames z różnymi nazwami kolumn. Możesz użyć sprzężenia lewego, prawego, wewnętrznego lub zewnętrznego. Aby połączyć DataFrame z lewą stroną z dwoma innymi:
#Połącz w lewo dłuższe kolumny z krótszymi
newDataFrame = df1.join([df_shorter2, df_shorter3], how='left')
drukuj (nowa ramka danych)
Aby połączyć DataFrames z podobnymi nazwami kolumn, możesz je rozróżnić, dodając sufiks z lewej lub prawej strony. Zrób to, dołączając lsuffix lub rosuffix słowo kluczowe:
newDataFrame = df1.join([df2, rsuffix='_', how='outer')
drukuj (nowa ramka danych)
16. DataFrame.combine
ten łączyć() funkcja przydaje się do łączenia dwóch DataFrames zawierających podobne nazwy kolumn w oparciu o ustawione kryteria. Akceptuje funkcjonować słowo kluczowe.
Na przykład, aby połączyć dwie ramki DataFrame z podobnymi nazwami kolumn tylko na podstawie maksymalnych wartości:
newDataFrame = df.combine (df2, numpy.minimum)
drukuj (nowa ramka danych)
Notatka: Możesz także zdefiniować niestandardową funkcję wyboru i wstawić numpy.minimum.
17. DataFrame.astype
ten astyp() funkcja zmienia typ danych konkretnej kolumny lub DataFrame.
Aby zmienić wszystkie wartości w DataFrame na ciąg, na przykład:
DataFrame.astype (str)
18. DataFrame.sum
ten suma() funkcja w pandach zwraca sumę wartości w każdej kolumnie:
DataFrame.sum()
Możesz również znaleźć skumulowaną sumę wszystkich przedmiotów za pomocą cumsum():
DataFrame.cumsum()
19. DataFrame.drop
pandy upuszczać() funkcja usuwa określone wiersze lub kolumny w DataFrame. Musisz podać nazwy kolumn lub indeks wiersza i oś, aby z nich skorzystać.
Aby usunąć określone kolumny, na przykład:
df.drop (kolumny=['kolumna1', 'kolumna2'], oś=0)
Aby upuścić wiersze o indeksach 1, 3 i 4, na przykład:
df.drop([1, 3, 4], oś=0)
20. DataFrame.corr
Chcesz znaleźć korelację między kolumnami liczb całkowitych i zmiennoprzecinkowych? pandy mogą ci w tym pomóc, używając corr() funkcjonować:
DataFrame.corr()
Powyższy kod zwraca nową ramkę DataFrame zawierającą sekwencję korelacji między wszystkimi kolumnami liczb całkowitych lub zmiennoprzecinkowych.
21. DataFrame.add
ten Dodaj() funkcja pozwala dodać określoną liczbę do każdej wartości w DataFrame. Działa poprzez iterację przez ramkę DataFrame i operowanie na każdym elemencie.
Związane z:Jak używać pętli for w Pythonie
Aby dodać 20 do każdej wartości w określonej kolumnie zawierającej liczby całkowite lub zmiennoprzecinkowe, na przykład:
DataFrame['interger_column'].add (20)
22. DataFrame.sub
Podobnie jak w przypadku funkcji dodawania, możesz również odjąć liczbę od każdej wartości w DataFrame lub określonej kolumnie:
DataFrame['kolumna_interger'].sub (10)
23. DataFrame.mul
To jest wersja mnożenia funkcji dodawania pand:
DataFrame['interger_column'].mul (20)
24. DataFrame.div
Podobnie możesz podzielić każdy punkt danych w kolumnie lub DataFrame przez określoną liczbę:
DataFrame['interger_column'].div (20)
25. DataFrame.std
Używając std() pandas pozwala również obliczyć odchylenie standardowe dla każdej kolumny w DataFrame. Działa poprzez iterację przez każdą kolumnę w zestawie danych i obliczanie odchylenia standardowego dla każdej z nich:
DataFrame.std()
26. DataFrame.sort_values
Możesz także sortować wartości rosnąco lub malejąco na podstawie określonej kolumny. Aby posortować DataFrame w kolejności malejącej, na przykład:
newDataFrame = DataFrame.sort_values (by = "nazwa_kolumny", malejąco = True)
27. DataFrame.melt
ten topnieć() funkcja w pandach odwraca kolumny w DataFrame do poszczególnych wierszy. To jak eksponowanie anatomii ramki DataFrame. Dzięki temu możesz zobaczyć wartość przypisaną do każdej kolumny w sposób jawny.
newDataFrame = DataFrame.melt()
28. DataFrame.count
Ta funkcja zwraca całkowitą liczbę elementów w każdej kolumnie:
DataFrame.count()
29. DataFrame.zapytanie
pandy zapytanie() umożliwia wywoływanie pozycji przy użyciu ich numeru indeksu. Aby uzyskać pozycje w trzecim rzędzie, na przykład:
DataFrame.query('4') # Wywołaj zapytanie w czwartym indeksie
30. DataFrame.gdzie
ten gdzie() funkcja to zapytanie pandy, które akceptuje warunek uzyskania określonych wartości w kolumnie. Na przykład, aby uzyskać wszystkie osoby w wieku poniżej 30 lat od Wiek kolumna:
DataFrame.where (DataFrame['Wiek'] < 30)
Powyższy kod wyświetla ramkę DataFrame zawierającą wszystkie grupy wiekowe poniżej 30 lat, ale przypisuje Nan do wierszy, które nie spełniają warunku.
Traktuj dane jak profesjonalista z pandami
pandas to skarbnica funkcji i metod do obsługi małych i dużych zbiorów danych w Pythonie. Biblioteka przydaje się również do czyszczenia, walidacji i przygotowywania danych do analizy lub uczenia maszynowego.
Poświęcenie czasu na opanowanie tego zdecydowanie ułatwia życie naukowcom danych i jest to warte wysiłku. Nie krępuj się więc wybierać wszystkie funkcje, z którymi możesz sobie poradzić.
Biblioteka standardowa Pythona zawiera wiele funkcji ułatwiających wykonywanie zadań programistycznych. Dowiedz się o najbardziej przydatnych i stwórz bardziej niezawodny kod.
Czytaj dalej
- Programowanie
- Pyton
- Programowanie
- Baza danych
Idowu pasjonuje się każdą inteligentną technologią i produktywnością. W wolnych chwilach bawi się kodowaniem, a gdy się nudzi, przechodzi na szachownicę, ale od czasu do czasu uwielbia też oderwać się od rutyny. Jego pasja do pokazywania ludziom drogi do nowoczesnych technologii motywuje go do pisania więcej.
Zapisz się do naszego newslettera
Dołącz do naszego newslettera, aby otrzymywać porady techniczne, recenzje, bezpłatne e-booki i ekskluzywne oferty!
Kliknij tutaj, aby zasubskrybować