Biblioteka pandy sprawia, że ​​nauka o danych oparta na Pythonie jest łatwa. Jest to popularna biblioteka Pythona do czytania, łączenia, sortowania, czyszczenia danych i nie tylko. Chociaż pandas jest łatwy w użyciu i zastosowaniu w zestawach danych, ma wiele funkcji manipulacji danymi, których można się nauczyć.

Możesz używać pand, ale istnieje duża szansa, że ​​nie wykorzystujesz ich zbyt często do rozwiązywania problemów związanych z danymi. Oto nasza lista cennych funkcji pand manipulujących danymi, które powinien znać każdy analityk danych.

Zainstaluj pandy w swoim środowisku wirtualnym

Zanim przejdziemy dalej, upewnij się, że instalujesz pandy w swoim środowisku wirtualnym za pomocą pip:

pip zainstaluj pandy

Po zainstalowaniu zaimportuj pandy u góry skryptu i przejdźmy dalej.

1. pandy. Ramka danych

Używasz pandy. Ramka danych() stworzyć DataFrame w pandach. Istnieją dwa sposoby korzystania z tej funkcji.

Możesz utworzyć DataFrame kolumnowo, przekazując słownik do pandy. Ramka danych() funkcjonować. Tutaj każdy klucz jest kolumną, a wartościami są wiersze:

instagram viewer
importuj pandy
DataFrame = pandy. DataFrame({"A": [1, 3, 4], "B": [5, 9, 12]})
drukuj (DataFrame)

Drugą metodą jest utworzenie DataFrame w wierszach. Ale tutaj oddzielisz wartości (pozycje wierszy) od kolumn. Liczba danych na każdej liście (dane wierszowe) musi również zgadzać się z liczbą kolumn.

importuj pandy
DataFrame = pandy. DataFrame([[1, 4, 5], [7, 19, 13]], kolumny= ["J", "K", "L"])
drukuj (DataFrame)

2. Czytaj z i pisz do Excela lub CSV w pandach

Możesz czytać lub pisać do plików Excel lub CSV za pomocą pand.

Czytanie plików Excel lub CSV

Aby przeczytać plik Excel:

#Zastąp plik example.xlsx ścieżką do pliku Excel
DataFrame = DataFrame.read_excel("przykład.xlsx")

Oto jak odczytać plik CSV:

#Zastąp plik example.csv ścieżką do pliku CSV
DataFrame = DataFrame.read_csv("przykład.csv")

Pisanie do Excela lub CSV

Pisanie do Excela lub CSV to dobrze znana operacja pand. Przydaje się też do zapisywania nowo obliczonych tabel w oddzielnych arkuszach danych.

Aby pisać do arkusza Excel:

DataFrame.to_excel("pełna_ścieżka_folderu_docelowego/nazwa pliku.xlsx")

Jeśli chcesz napisać do CSV:

DataFrame.to_csv("pełna_ścieżka_folderu_docelowego/nazwa pliku.csv")

Możesz również obliczyć główne tendencje każdej kolumny w DataFrame za pomocą pand.

Oto jak uzyskać średnią wartość każdej kolumny:

DataFrame.średnia()

Dla wartości mediany lub trybu zamień oznaczać() z mediana() lub tryb().

4. DataFrame.transform

pandy DataFrame.transform() modyfikuje wartości DataFrame. Przyjmuje funkcję jako argument.

Na przykład poniższy kod mnoży każdą wartość w DataFrame przez trzy, używając Funkcja lambda Pythona:

DataFrame = DataFrame.transform (lambda y: y*3)
drukuj (DataFrame)

5. DataFrame.isnull

Ta funkcja zwraca wartość logiczną i oznacza wszystkie wiersze zawierające wartości null jako Prawdziwe:

DataFrame.isnull()

Wynik powyższego kodu może być trudny do odczytania w przypadku większych zestawów danych. Więc możesz użyć isnull().sum() funkcja zamiast. Zwraca to podsumowanie wszystkich braków danych dla każdej kolumny:

DataFrame.isnull().sum()

6. Dataframe.info

ten informacja() funkcja jest niezbędna obsługa pand. Zamiast tego zwraca podsumowanie niebrakujących wartości dla każdej kolumny:

DataFrame.info()

7. DataFrame.opisz

ten opisać() funkcja daje podsumowanie statystyk DataFrame:

DataFrame.describe()

8. DataFrame.replace

Używając DataFrame.replace() w pandach można zastąpić wybrane wiersze innymi wartościami.

Na przykład, aby zamienić nieprawidłowe wiersze z Nan:

# Upewnij się, że pip install numpy, aby to zadziałało
importuj numer
importuj pandy
# Dodanie słowa kluczowego inplace i ustawienie go na True powoduje, że zmiany są trwałe:
DataFrame.replace([invalid_1, invalid_2], numpy.nan, inplace=true)
drukuj (DataFrame)

9. DataFrame.fillna

Ta funkcja pozwala wypełnić puste wiersze określoną wartością. Możesz wypełnić wszystko Nan wiersze w zbiorze danych z wartością średnią, na przykład:

DataFrame.fillna (df.mean(), inplace = True)
drukuj (DataFrame)

Możesz także być specyficzny dla kolumny:

DataFrame['nazwa_kolumny'].fillna (df[nazwa_kolumny].mean(), inplace = True)
drukuj (DataFrame)

10. DataFrame.dropna

ten dropna() metoda usuwa wszystkie wiersze zawierające wartości null:

DataFrame.dropna (w miejscu = Prawda)
drukuj (DataFrame)

11. DataFrame.insert

Możesz użyć pand wstawić() funkcja, aby dodać nową kolumnę do DataFrame. Przyjmuje trzy słowa kluczowe, Nazwa kolumny, lista jego danych i jego Lokalizacja, który jest indeksem kolumn.

Oto jak to działa:

DataFrame.insert (kolumna = 'C', wartość = [3, 4, 6, 7], loc=0)
drukuj (DataFrame)

Powyższy kod wstawia nową kolumnę pod indeksem kolumny zerowej (staje się pierwszą kolumną).

12. DataFrame.loc

Możesz użyć lok aby znaleźć elementy w określonym indeksie. Aby wyświetlić wszystkie pozycje w trzecim rzędzie, na przykład:

DataFrame.loc[2]

13. DataFrame.pop

Ta funkcja umożliwia usunięcie określonej kolumny z ramki DataFrame pandy.

Akceptuje i przedmiot słowo kluczowe, zwraca wyrwaną kolumnę i oddziela ją od reszty DataFrame:

DataFrame.pop (item= 'nazwa_kolumny')
drukuj (DataFrame)

14. DataFrame.max, min

Uzyskanie maksymalnych i minimalnych wartości za pomocą pand jest łatwe:

DataFrame.min()

Powyższy kod zwraca minimalną wartość dla każdej kolumny. Aby uzyskać maksimum, wymień min z maks.

15. DataFrame.join

ten Przystąp() funkcja pand pozwala łączyć DataFrames z różnymi nazwami kolumn. Możesz użyć sprzężenia lewego, prawego, wewnętrznego lub zewnętrznego. Aby połączyć DataFrame z lewą stroną z dwoma innymi:

#Połącz w lewo dłuższe kolumny z krótszymi
newDataFrame = df1.join([df_shorter2, df_shorter3], how='left')
drukuj (nowa ramka danych)

Aby połączyć DataFrames z podobnymi nazwami kolumn, możesz je rozróżnić, dodając sufiks z lewej lub prawej strony. Zrób to, dołączając lsuffix lub rosuffix słowo kluczowe:

newDataFrame = df1.join([df2, rsuffix='_', how='outer') 
drukuj (nowa ramka danych)

16. DataFrame.combine

ten łączyć() funkcja przydaje się do łączenia dwóch DataFrames zawierających podobne nazwy kolumn w oparciu o ustawione kryteria. Akceptuje funkcjonować słowo kluczowe.

Na przykład, aby połączyć dwie ramki DataFrame z podobnymi nazwami kolumn tylko na podstawie maksymalnych wartości:

newDataFrame = df.combine (df2, numpy.minimum)
drukuj (nowa ramka danych)

Notatka: Możesz także zdefiniować niestandardową funkcję wyboru i wstawić numpy.minimum.

17. DataFrame.astype

ten astyp() funkcja zmienia typ danych konkretnej kolumny lub DataFrame.

Aby zmienić wszystkie wartości w DataFrame na ciąg, na przykład:

DataFrame.astype (str)

18. DataFrame.sum

ten suma() funkcja w pandach zwraca sumę wartości w każdej kolumnie:

DataFrame.sum()

Możesz również znaleźć skumulowaną sumę wszystkich przedmiotów za pomocą cumsum():

DataFrame.cumsum()

19. DataFrame.drop

pandy upuszczać() funkcja usuwa określone wiersze lub kolumny w DataFrame. Musisz podać nazwy kolumn lub indeks wiersza i oś, aby z nich skorzystać.

Aby usunąć określone kolumny, na przykład:

df.drop (kolumny=['kolumna1', 'kolumna2'], oś=0)

Aby upuścić wiersze o indeksach 1, 3 i 4, na przykład:

df.drop([1, 3, 4], oś=0)

20. DataFrame.corr

Chcesz znaleźć korelację między kolumnami liczb całkowitych i zmiennoprzecinkowych? pandy mogą ci w tym pomóc, używając corr() funkcjonować:

DataFrame.corr()

Powyższy kod zwraca nową ramkę DataFrame zawierającą sekwencję korelacji między wszystkimi kolumnami liczb całkowitych lub zmiennoprzecinkowych.

21. DataFrame.add

ten Dodaj() funkcja pozwala dodać określoną liczbę do każdej wartości w DataFrame. Działa poprzez iterację przez ramkę DataFrame i operowanie na każdym elemencie.

Związane z:Jak używać pętli for w Pythonie

Aby dodać 20 do każdej wartości w określonej kolumnie zawierającej liczby całkowite lub zmiennoprzecinkowe, na przykład:

DataFrame['interger_column'].add (20)

22. DataFrame.sub

Podobnie jak w przypadku funkcji dodawania, możesz również odjąć liczbę od każdej wartości w DataFrame lub określonej kolumnie:

DataFrame['kolumna_interger'].sub (10)

23. DataFrame.mul

To jest wersja mnożenia funkcji dodawania pand:

DataFrame['interger_column'].mul (20)

24. DataFrame.div

Podobnie możesz podzielić każdy punkt danych w kolumnie lub DataFrame przez określoną liczbę:

DataFrame['interger_column'].div (20)

25. DataFrame.std

Używając std() pandas pozwala również obliczyć odchylenie standardowe dla każdej kolumny w DataFrame. Działa poprzez iterację przez każdą kolumnę w zestawie danych i obliczanie odchylenia standardowego dla każdej z nich:

DataFrame.std()

26. DataFrame.sort_values

Możesz także sortować wartości rosnąco lub malejąco na podstawie określonej kolumny. Aby posortować DataFrame w kolejności malejącej, na przykład:

newDataFrame = DataFrame.sort_values ​​(by = "nazwa_kolumny", malejąco = True)

27. DataFrame.melt

ten topnieć() funkcja w pandach odwraca kolumny w DataFrame do poszczególnych wierszy. To jak eksponowanie anatomii ramki DataFrame. Dzięki temu możesz zobaczyć wartość przypisaną do każdej kolumny w sposób jawny.

newDataFrame = DataFrame.melt()

28. DataFrame.count

Ta funkcja zwraca całkowitą liczbę elementów w każdej kolumnie:

DataFrame.count()

29. DataFrame.zapytanie

pandy zapytanie() umożliwia wywoływanie pozycji przy użyciu ich numeru indeksu. Aby uzyskać pozycje w trzecim rzędzie, na przykład:

DataFrame.query('4') # Wywołaj zapytanie w czwartym indeksie

30. DataFrame.gdzie

ten gdzie() funkcja to zapytanie pandy, które akceptuje warunek uzyskania określonych wartości w kolumnie. Na przykład, aby uzyskać wszystkie osoby w wieku poniżej 30 lat od Wiek kolumna:

DataFrame.where (DataFrame['Wiek'] < 30)

Powyższy kod wyświetla ramkę DataFrame zawierającą wszystkie grupy wiekowe poniżej 30 lat, ale przypisuje Nan do wierszy, które nie spełniają warunku.

Traktuj dane jak profesjonalista z pandami

pandas to skarbnica funkcji i metod do obsługi małych i dużych zbiorów danych w Pythonie. Biblioteka przydaje się również do czyszczenia, walidacji i przygotowywania danych do analizy lub uczenia maszynowego.

Poświęcenie czasu na opanowanie tego zdecydowanie ułatwia życie naukowcom danych i jest to warte wysiłku. Nie krępuj się więc wybierać wszystkie funkcje, z którymi możesz sobie poradzić.

20 funkcji Pythona, które powinieneś znać

Biblioteka standardowa Pythona zawiera wiele funkcji ułatwiających wykonywanie zadań programistycznych. Dowiedz się o najbardziej przydatnych i stwórz bardziej niezawodny kod.

Czytaj dalej

UdziałĆwierkaćE-mail
Powiązane tematy
  • Programowanie
  • Pyton
  • Programowanie
  • Baza danych
O autorze
Idowu Omisola (123 opublikowane artykuły)

Idowu pasjonuje się każdą inteligentną technologią i produktywnością. W wolnych chwilach bawi się kodowaniem, a gdy się nudzi, przechodzi na szachownicę, ale od czasu do czasu uwielbia też oderwać się od rutyny. Jego pasja do pokazywania ludziom drogi do nowoczesnych technologii motywuje go do pisania więcej.

Więcej od Idowu Omisola

Zapisz się do naszego newslettera

Dołącz do naszego newslettera, aby otrzymywać porady techniczne, recenzje, bezpłatne e-booki i ekskluzywne oferty!

Kliknij tutaj, aby zasubskrybować