Aby przeanalizować zbiór danych, musisz najpierw zrozumieć dane. Czasami możesz nie mieć wiedzy z wyprzedzeniem na temat zestawu danych, co uniemożliwia Ci jak najlepsze wykorzystanie go. Jako analityk danych możesz użyć eksploracyjnej analizy danych (EDA), aby uzyskać wiedzę o swoim zbiorze danych przed dogłębną analizą.

Eksploracyjna analiza danych (EDA) bada zbiór danych w celu uzyskania znaczących informacji. Proces wykonywania EDA polega na zapytaniu o informacje o strukturze i zawartości zbioru danych.

Instalowanie pakietu Gota

Pakiet Gota cieszy się największą popularnością analiza danych w Go; to jest jak Pakiet Python Pandy ale dla Go. Pakiet Gota zawiera wiele metod analizy zbiorów danych i odczytywania formatów JSON, CSV i HTML.

Uruchom to polecenie na swoim terminalu w katalogu, w którym zainicjalizowałeś plik modułu Go:

iść pobierz -u github.com/iść-gota/gota

Polecenie zainstaluje Gotę w katalogu lokalnym, gotowym do zaimportowania pakietu, aby go użyć.

Podobnie jak Pandy, Gota obsługuje operacje na seriach i dataframes. W pakiecie Gota znajdują się dwa podpakiety: seria i pakiet dataframe. Możesz zaimportować jeden lub oba, w zależności od potrzeb.

instagram viewer

import (
"github.com/iść-gota/gota/seria”
"github.com/iść-gota/gota/ramka danych"
)

Odczytywanie zbioru danych za pomocą pakietu Gota

Możesz użyć dowolnego pliku CSV, ale poniższe przykłady pokazują wyniki z zbiór danych Kaggle, zawierający dane o cenach laptopów.

Gota umożliwia odczytywanie formatów plików CSV, JSON i HTML w celu tworzenia ramek danych za pomocą CzytajCSV, CzytajJSON, oraz CzytajHTML metody. Oto jak załadować plik CSV do obiektu dataframe:

plik, błąd := os. Otwórz("/ścieżka/do/pliku-csv.csv")

jeśli błąd != zero {
fmt. Println("błąd otwierania pliku")
}

ramka danych := ramka danych. CzytajCSV(plik)
fmt. Println (dataFrame)

Możesz użyć otwarty metoda os pakiet, aby otworzyć plik CSV. Metoda ReadCSV odczytuje obiekt pliku i zwraca obiekt ramki danych.

Podczas drukowania tego obiektu dane wyjściowe są w formacie tabelarycznym. Możesz dalej manipulować obiektem dataframe przy użyciu różnych metod udostępnianych przez Gota.

Obiekt wydrukuje tylko niektóre kolumny, jeśli zestaw danych ma więcej niż ustaloną wartość.

Pobieranie wymiaru zbioru danych

Wymiary ramki danych to liczba wierszy i kolumn, które zawiera. Możesz pobrać te wymiary za pomocą Ściemnia metoda obiektu dataframe.

var wiersze, kolumny = ramka danych. Dim()

Zastąp jedną ze zmiennych podkreśleniem, aby pobrać tylko drugi wymiar. Możesz również zapytać o liczbę wierszy i kolumn pojedynczo, używając Nrow oraz Ncol metody.

var wiersze = ramka danych. Nowy()
var kolumny = ramka danych. Ncol()

Pobieranie typów danych kolumn

Aby przeprowadzić analizę, musisz znać złożone typy danych w kolumnach zestawu danych. Możesz je pobrać za pomocą Rodzaje metoda twojego obiektu dataframe:

var typy = ramka danych. Typy()
fmt. Println (rodzaje)

Metoda Types zwraca wycinek zawierający typy danych kolumny:

Pobieranie nazw kolumn

Będziesz potrzebować nazw kolumn, aby wybrać określone kolumny do operacji. Możesz użyć Nazwy metoda ich pobierania.

var Nazwykolumn := ramka danych. Nazwy()
fmt. Println (nazwy kolumn)

Metoda Names zwraca wycinek nazw kolumn.

Sprawdzanie brakujących wartości

Możesz mieć zestaw danych, który zawiera wartości null lub wartości nieliczbowe. Możesz sprawdzić takie wartości za pomocą HasNaN oraz IsNaN metody obiektu szeregowego:

aCol := ramka danych. Kol("rozmiar_wyświetlany")
var hasNull = aCol. HasNaN()
var isNotNumber = aCol. IsNaN()

HasNan sprawdza, czy kolumna zawiera elementy o wartości null. IsNaN zwraca wycinek wartości logicznych reprezentujący, czy każda wartość w kolumnie jest liczbą.

Wykonywanie opisowej analizy statystycznej

Opisowa analiza statystyczna pomaga zrozumieć rozkład kolumn liczbowych. Używając Opisać metody, możesz wygenerować opisową analizę statystyczną swojego zbioru danych:

opis := ramka danych. Opisać()
fmt. Println (opis)

Metoda Opisz zwraca metryki, takie jak średnia, odchylenie standardowe i maksymalne wartości kolumn w zestawie danych. Podsumowuje je w formie tabelarycznej.

Możesz także być konkretny i skoncentrować się na kolumnach i metrykach, wybierając konkretną kolumnę, a następnie wyszukując żądane metryki. Najpierw należy pobrać serię reprezentującą konkretną kolumnę, a następnie użyć jej metod w następujący sposób:

aCol := ramka danych. Kol("rozmiar_wyświetlany")
var średnia = kol. Oznaczać()
var mediana = kol. Mediana()
var minimum = kol. Min()
var odchylenie standardowe = aCol. Odch.st.()
var maksimum = kol. Maks.()
var kwantyle25 = aCol. Kwantyl (25.0)

Metody te odzwierciedlają wyniki z opisowej analizy statystycznej wykonywanej przez opis.

Pobieranie elementów w kolumnie

Jednym z ostatnich zadań, które będziesz chciał wykonać, jest sprawdzenie wartości w kolumnie w celu uzyskania ogólnego przeglądu. Możesz użyć Dokumentacja metoda, aby wyświetlić wartości kolumny.

aCol := ramka danych. Kol("marka")
fmt. Println (aCol. Dokumentacja())

Ta metoda zwraca wycinek ciągów zawierających wartości w wybranej kolumnie:

Eksportowanie gota Dataframe do pliku

Jeśli zdecydujesz się pójść dalej i użyć pakietu Gota do pełnej analizy danych, będziesz musiał zapisać dane w plikach. Możesz użyć ZapiszCSV oraz NapiszJSON metody dataframe do eksportu plików. Metody przyjmują plik, który utworzysz za pomocą os pakiet Tworzyć metoda.

Oto jak możesz wyeksportować ramkę danych za pomocą pakietu Gota.

ramka danych := ramka danych. CzytajCSV(plik)
plikwyjściowy, błąd := os. Utwórz("wyjście.csv")

jeśli błąd != zero {
dziennik. Śmiertelny (błąd)
}

błąd = ramka danych. ZapiszCSV (plik wyjściowy)

jeśli błąd != zero {
dziennik. Fatalln("Wystąpił błąd podczas zapisywania zawartości ramki danych do pliku")
}

The ramka danych zmienna jest reprezentacją ramki danych. Kiedy używasz Tworzyć metoda os pakiet, tworzy nowy, pusty plik o określonej nazwie i zwraca plik. Metoda WriteCSV pobiera instancję pliku i zwraca błąd lub zero jeśli nie ma błędu.

Eksploracyjna analiza danych jest ważna

Zrozumienie danych i zestawów danych jest niezbędne dla analityków danych i specjalistów od uczenia maszynowego. Jest to operacja krytyczna w ich cyklu pracy, a eksploracyjna analiza danych jest jedną z technik, które wykorzystują, aby to osiągnąć.

Pakiet Gota to coś więcej. Możesz go używać do różnych funkcji przetwarzania danych w taki sam sposób, w jaki używasz biblioteki Python Pandas do analizy danych. Jednak Gota nie obsługuje tak dużej funkcjonalności jak Pandy.