Skorzystaj z biblioteki PandasAI Python, aby wykorzystać moc sztucznej inteligencji i duże modele językowe do wykonywania zadań związanych z analizą danych.

Pandas jest najbardziej dominującą biblioteką do manipulowania zestawami danych i ramkami danych. To od dawna norma. Jednak wraz z postępem sztucznej inteligencji opracowano nową bibliotekę open source o nazwie PandasAI, która dodaje generatywne możliwości sztucznej inteligencji do Pandas.

PandasAI nie zastępuje Pand. Zamiast tego daje swoje możliwości generatywnej sztucznej inteligencji. W ten sposób możesz przeprowadzić analizę danych, rozmawiając z PandasAI. Następnie wyodrębnia to, co dzieje się w tle, i udostępnia dane wyjściowe zapytania.

Instalowanie PandasAI

Pandy AI jest dostępny przez PyPI (Python Package Index). Utwórz nowe środowisko wirtualne jeśli używasz lokalnego IDE. Następnie użyj menedżera pakietów pip aby go zainstalować.

pip zainstaluj pandasai

Jeśli korzystasz z Google Colab, możesz napotkać błąd konfliktu zależności podobny do pokazanego poniżej.

instagram viewer

Nie obniżaj wersji IPython. Po prostu zrestartuj środowisko wykonawcze i ponownie uruchom blok kodu. To rozwiąże problem.

Pełny kod źródłowy jest dostępny w formacie Repozytorium GitHub.

Zrozumienie przykładowego zestawu danych

Przykładowy zestaw danych, którym będziesz manipulować za pomocą PandasAI, to zestaw danych California Housing Prices z Kaggle. Ten zestaw danych zawiera informacje o mieszkaniach ze spisu ludności Kalifornii z 1990 roku. Ma dziesięć kolumn, które zawierają statystyki dotyczące tych domów. Karta danych, która pomoże Ci dowiedzieć się więcej o tym zbiorze danych, jest dostępna na stronie Kaggle. Poniżej znajduje się pierwszych pięć wierszy zestawu danych.

Każda kolumna reprezentuje pojedynczą statystykę domu.

Łączenie PandasAI z modelem dużego języka

Aby połączyć PandasAI z duży model językowy (LLM) podobnie jak OpenAI, potrzebujesz dostępu do jego klucza API. Aby go uzyskać, przejdź do Platforma OpenAI. Następnie zaloguj się na swoje konto. Wybierać API pod stroną opcji, która pojawi się obok.

Następnie kliknij swój profil i wybierz Wyświetl klucze API opcja. Na stronie, która pojawi się obok kliknij Utwórz nowy tajny klucz przycisk. Na koniec nazwij swój klucz API.

OpenAI wygeneruje Twój klucz API. Skopiuj go, ponieważ będzie potrzebny podczas łączenia PandasAI z OpenAI. Pamiętaj, aby zachować klucz w tajemnicy, ponieważ każdy, kto ma do niego dostęp, może dzwonić do OpenAI w Twoim imieniu. Następnie OpenAI obciąży Twoje konto za połączenia.

Teraz, gdy masz klucz API, utwórz nowy skrypt Pythona i wklej poniższy kod. Nie będziesz musiał zmieniać tego kodu, ponieważ przez większość czasu będziesz na nim budować.

import pandy Jak pd
z pandasai import Pandy AI

# Zastąp swoim zestawem danych lub ramką danych
df = pd.odczyt_csv("/content/housing.csv")

# Utwórz instancję LLM
z pandasai.llm.openai import OpenAI
llm = OpenAI(api_token=„Twój token API”)

pandas_ai = PandasAI(llm)

Powyższy kod importuje zarówno PandasAI, jak i Pandas. Następnie odczytuje zestaw danych. Na koniec tworzy instancję OpenAI LLM.

Możesz teraz rozmawiać ze swoimi danymi.

Wykonywanie prostych zadań za pomocą PandasAI

Aby zapytać o dane, przekaż ramkę danych i monit do instancji klasy PandasAI. Zacznij od wydrukowania pierwszych pięciu wierszy swojego zestawu danych.

pandas_ai (df, zachęta =„Jakie są pierwsze pięć wierszy zestawu danych?”)

Dane wyjściowe powyższego monitu są następujące:

Te dane wyjściowe są identyczne jak w przypadku wcześniejszego przeglądu zestawu danych. To pokazuje, że PandasAI daje poprawne wyniki i jest rzetelny.

Następnie sprawdź liczbę kolumn obecnych w zbiorze danych.

pandas_ai (df, zachęta =„Ile kolumn znajduje się w zbiorze danych? ')

Zwraca 10, co jest poprawną liczbą kolumn w zbiorze danych California Housing.

Sprawdzanie, czy w zbiorze danych nie ma braków danych.

pandas_ai (df, zachęta =„Czy w zbiorze danych brakuje jakichś wartości?”)

PandasAI zwraca, że łącznie_sypialnie kolumna ma 207 brakujących wartości, co znowu jest poprawne.

Istnieje wiele prostych zadań, które możesz wykonać za pomocą PandasAI, nie jesteś ograniczony do powyższych.

Wykonywanie złożonych zapytań przy użyciu PandasAI

PandasAI obsługuje nie tylko proste zadania. Można go również używać do przeprowadzania złożonych zapytań na zbiorze danych. Na przykład w zbiorze danych mieszkaniowych, jeśli chcesz określić liczbę domów, które znajdują się na wyspę, mają wartość większą niż 100 000 dolarów i mają więcej niż 10 pokoi, możesz użyć monitu poniżej.

pandas_ai (df, zachęta = „Ile domów ma wartość większą niż 100000”
" są na wyspie i łącznie jest więcej niż 10 sypialni?")

Prawidłowe wyjście to pięć. Jest to ten sam wynik, który generuje PandasAI.

Pisanie i debugowanie złożonych zapytań może zająć analitykowi danych trochę czasu. Powyższy monit zajmuje tylko dwie linie języka naturalnego, aby wykonać to samo zadanie. Musisz tylko mieć na uwadze dokładnie to, co chcesz osiągnąć, a PandasAI zajmie się resztą.

Rysowanie wykresów za pomocą PandasAI

Wykresy są istotną częścią każdego procesu analizy danych. Pomaga analitykom danych wizualizować dane w sposób przyjazny dla człowieka. PandasAI ma również funkcję rysowania wykresów. Musisz tylko przekazać ramkę danych i instrukcję.

Zacznij od utworzenia histogramu dla każdej kolumny w zbiorze danych. Pomoże Ci to zwizualizować rozkład zmiennych.

pandas_ai (df, zachęta = „Wykreśl histogram dla każdej kolumny w zbiorze danych”)

Dane wyjściowe są następujące:

PandasAI był w stanie narysować histogram wszystkich kolumn bez konieczności podawania ich nazw w monicie.

PandasAI może również kreślić wykresy bez wyraźnego wskazania, którego wykresu użyć. Na przykład możesz chcieć znaleźć korelację danych w zbiorze danych mieszkaniowych. Aby to osiągnąć, możesz przekazać monit w następujący sposób:

pandas_ai (df, zachęta = „Wykreśl korelację w zbiorze danych”)

PandasAI wykreśla macierz korelacji, jak pokazano poniżej:

Biblioteka wybiera mapę cieplną i wykreśla macierz korelacji.

Przekazywanie wielu ramek danych do instancji PandasAI

Praca z wieloma ramkami danych może być trudna. Szczególnie dla osoby, która jest nowicjuszem w analizie danych. PandasAI wypełnia tę lukę, ponieważ wszystko, co musisz zrobić, to przekazać obie ramki danych i zacząć używać monitów do manipulowania danymi.

Utwórz dwie ramki danych za pomocą Pand.

dane_pracowników = {
'Dowód pracownika': [1, 2, 3, 4, 5],
'Nazwa': ['Jan', „Emma”, „Liama”, „Oliwia”, „William”],
'Dział': [„HR”, 'Obroty', 'TO', „Marketing”, 'Finanse']
}

dane_wynagrodzeń = {
'Dowód pracownika': [1, 2, 3, 4, 5],
'Wynagrodzenie': [5000, 6000, 4500, 7000, 5500]
}

pracownicy_df = pd. DataFrame (pracownicy_dane)
pensje_df = pd. DataFrame (pensje_dane)

Możesz zadać PandasAI pytanie, które dotyczy obu ramek danych. Musisz tylko przekazać obie ramki danych do instancji PandasAI.

pandas_ai([pracownicy_df, pensje_df], „Który pracownik ma największą pensję?”)

powraca Oliwia co jest znowu poprawną odpowiedzią.

Przeprowadzanie analizy danych nigdy nie było łatwiejsze, PandasAI pozwala rozmawiać z danymi i z łatwością je analizować.

Zrozumienie technologii, która napędza PandasAI

PandasAI upraszcza proces analizy danych, oszczędzając tym samym dużo czasu analitykom danych. Ale abstrahuje to, co dzieje się w tle. Musisz zapoznać się z generatywną sztuczną inteligencją, aby mieć wgląd w to, jak PandasAI działa pod maską. Pomoże Ci to również być na bieżąco z najnowszymi innowacjami w dziedzinie generatywnej sztucznej inteligencji.