Niewystarczające dane są często jednym z głównych niepowodzeń w większości projektów związanych z nauką o danych. Jednak wiedza o tym, jak zbierać dane do dowolnego projektu, w którym chcesz się rozpocząć, jest ważną umiejętnością, którą musisz zdobyć jako naukowiec danych.

Naukowcy zajmujący się danymi i inżynierowie zajmujący się uczeniem maszynowym używają teraz nowoczesnych technik gromadzenia danych, aby pozyskiwać więcej danych do uczenia algorytmów. Jeśli planujesz rozpocząć swój pierwszy projekt data science lub uczenia maszynowego, również musisz mieć możliwość pobierania danych.

Jak możesz ułatwić sobie ten proces? Przyjrzyjmy się niektórym nowoczesnym technikom, których możesz użyć do zbierania danych.

Dlaczego potrzebujesz więcej danych do swojego projektu nauki o danych

Algorytmy uczenia maszynowego polegają na danych, aby stały się dokładniejsze, precyzyjniejsze i bardziej przewidywalne. Te algorytmy są uczone przy użyciu zestawów danych. Proces szkolenia przypomina trochę nauczenie malucha nazwy obiektu po raz pierwszy, a następnie pozwolenie mu na samodzielne zidentyfikowanie go, gdy następnym razem go zobaczy.

instagram viewer

Istotom ludzkim wystarczy kilka przykładów, aby rozpoznać nowy obiekt. Nie dotyczy to maszyny, ponieważ aby zapoznać się z obiektem, potrzeba setek lub tysięcy podobnych przykładów.

Te przykłady lub obiekty szkoleniowe muszą mieć postać danych. Następnie dedykowany algorytm uczenia maszynowego przechodzi przez zbiór danych zwany zbiorem uczącym - i dowiaduje się o nim więcej, aby stać się dokładniejszym.

Oznacza to, że jeśli nie dostarczysz wystarczającej ilości danych do wytrenowania algorytmu, możesz nie uzyskać właściwego wyniku pod koniec projektu, ponieważ maszyna nie ma wystarczających danych, aby się z nich uczyć.

Dlatego konieczne jest uzyskanie odpowiednich danych, aby poprawić dokładność wyniku. Zobaczmy poniżej kilka nowoczesnych strategii, których możesz użyć, aby to osiągnąć.

1. Pobieranie danych bezpośrednio ze strony internetowej

Skrobanie sieci to zautomatyzowany sposób pobierania danych z sieci. W swojej najbardziej podstawowej formie skrobanie stron internetowych może obejmować kopiowanie i wklejanie elementów witryny internetowej do pliku lokalnego.

Jednak skrobanie stron internetowych obejmuje również pisanie specjalnych skryptów lub używanie dedykowanych narzędzi do bezpośredniego pobierania danych ze strony internetowej. Może również obejmować bardziej szczegółowe gromadzenie danych za pomocą Interfejsy programowania aplikacji (API), takie jak Serpstack.

Rysuj przydatne dane z wyników wyszukiwania za pomocą interfejsu API Serpstack

Dzięki API serpstack możesz łatwo zbierać informacje ze stron wyników Google i innych wyszukiwarek.

Chociaż niektórzy uważają, że skrobanie sieci może prowadzić do utraty własności intelektualnej, może się to zdarzyć tylko wtedy, gdy ludzie zrobią to złośliwie. Skrobanie stron internetowych jest legalne i pomaga firmom podejmować lepsze decyzje poprzez gromadzenie publicznych informacji o ich klientach i konkurentach.

Związane z: Co to jest skrobanie sieci? Jak zbierać dane z witryn internetowych

Na przykład możesz napisać skrypt do zbierania danych ze sklepów internetowych w celu porównania cen i dostępności. Chociaż może to być nieco bardziej techniczne, możesz również gromadzić nieprzetworzone multimedia, takie jak pliki audio i obrazy, również w Internecie.

Spójrz na przykładowy kod poniżej, aby rzucić okiem na skrobanie sieci za pomocą Pythona beautifulsoup4 Biblioteka parsera HTML.

z importu bs4 BeautifulSoup
z urllib.request import urlopen
url = "Wprowadź tutaj pełny adres URL docelowej strony internetowej"
targetPage = urlopen (url)
htmlReader = targetPage.read (). decode ("utf-8")
webData = BeautifulSoup (htmlReader, "html.parser")
print (webData.get_text ())

Przed uruchomieniem przykładowego kodu musisz zainstalować bibliotekę. Stwórz wirtualne środowisko z wiersza poleceń i zainstaluj bibliotekę, uruchamiając pip zainstaluj beautifulsoup4.

2. Za pośrednictwem formularzy internetowych

Możesz także wykorzystać formularze online do gromadzenia danych. Jest to najbardziej przydatne, gdy masz grupę docelową osób, od których chcesz zbierać dane.

Wadą wysyłania formularzy internetowych jest to, że możesz nie zbierać tak dużo danych, jak chcesz. Jest to bardzo przydatne w przypadku małych projektów lub samouczków związanych z nauką o danych, ale możesz napotkać ograniczenia, próbując dotrzeć do dużej liczby anonimowych osób.

Chociaż istnieją płatne usługi gromadzenia danych online, nie są one zalecane dla osób fizycznych, ponieważ są przeważnie zbyt drogie - chyba że nie masz nic przeciwko wydaniu pieniędzy na projekt.

Istnieją różne formularze internetowe służące do zbierania danych od osób. Jednym z nich są Formularze Google, do których można uzyskać dostęp, przechodząc do forms.google.com. Możesz używać Formularzy Google do zbierania informacji kontaktowych, dane demograficzne i inne dane osobowe.

Po utworzeniu formularza wystarczy, że wyślesz link do swojej grupy docelowej pocztą, SMS-em lub w inny dostępny sposób.

Jednak Formularze Google to tylko jeden z przykładów popularnych formularzy internetowych. Istnieje wiele alternatyw, które również świetnie sprawdzają się w zbieraniu danych.

Możesz również zbierać dane za pośrednictwem mediów społecznościowych, takich jak Facebook, LinkedIn, Instagram i Twitter. Pobieranie danych z mediów społecznościowych jest nieco bardziej techniczne niż jakakolwiek inna metoda. Jest całkowicie zautomatyzowany i wymaga użycia różnych narzędzi API.

Media społecznościowe mogą być trudne do wyodrębnienia danych, ponieważ są stosunkowo niezorganizowane i jest ich ogromna ilość. Właściwie zorganizowany zbiór danych tego typu może być przydatny w projektach data science obejmujących analizę nastrojów online, analizę trendów rynkowych i budowanie marki online.

Na przykład Twitter jest przykładem źródła danych w mediach społecznościowych, w którym można zebrać dużą ilość zbiorów danych tweepy Pakiet interfejsu API języka Python, który można zainstalować za pomocą pakietu pip install tweepy Komenda.

Na przykład blok kodu do wyodrębniania tweetów na stronie głównej Twittera wygląda następująco:

import tweepy
import re
myAuth = tweepy. OAuthHandler (tutaj wklej klucz konsumenta, w tym miejscu klucz Consumer_secret)
auth.set_access_token (wklej access_token tutaj, wklej access_token_secret tutaj)
autenticate = tweepy. API (myAuth)
target_tweet = api.home_timeline ()
dla celów w target_tweet:
print (target.text)

Możesz odwiedzić docs.tweepy.org strona internetowa, aby uzyskać dostęp do tweepy dokumentacja, aby uzyskać więcej informacji o tym, jak go używać. Aby korzystać z API Twittera, musisz złożyć wniosek o konto programisty, przechodząc do developer.twitter.com stronie internetowej.

Facebook to kolejna potężna platforma mediów społecznościowych do gromadzenia danych. Używa specjalnego punktu końcowego API o nazwie Facebook Graph API. To API umożliwia programistom zbieranie danych o zachowaniach określonych użytkowników na platformie Facebook. Możesz uzyskać dostęp do dokumentacji Facebook Graph API pod adresem developers.facebook.com aby dowiedzieć się więcej na ten temat.

Szczegółowe wyjaśnienie zbierania danych w mediach społecznościowych za pomocą API wykracza poza zakres tego artykułu. Jeśli chcesz dowiedzieć się więcej, zapoznaj się z dokumentacją każdej platformy, aby uzyskać dogłębną wiedzę na ich temat.

Oprócz pisania skryptów do łączenia się z punktem końcowym API, dane z mediów społecznościowych zbierające narzędzia innych firm, takie jak Ekspert w skrobaniu i wiele innych jest również dostępnych. Jednak większość z tych narzędzi internetowych ma swoją cenę.

4. Zbieranie istniejących wcześniej zbiorów danych z oficjalnych źródeł

Możesz również zbierać istniejące wcześniej zbiory danych z wiarygodnych źródeł. Ta metoda polega na odwiedzaniu oficjalnych banków danych i pobieraniu z nich zweryfikowanych zbiorów danych. W przeciwieństwie do skrobania stron internetowych i innych opcji, ta opcja jest szybsza i nie wymaga żadnej wiedzy technicznej.

Zestawy danych w tego typu źródłach są zwykle dostępne w formatach CSV, JSON, HTML lub Excel. Oto kilka przykładów autorytatywnych źródeł danych Bank Światowy, UNdatai kilka innych.

Niektóre źródła danych mogą uczynić bieżące dane prywatnymi, aby uniemożliwić dostęp do nich opinii publicznej. Jednak ich archiwa są często dostępne do pobrania.

Więcej oficjalnych źródeł zestawów danych dla projektu uczenia maszynowego

Ta lista powinna stanowić dobry punkt wyjścia do uzyskiwania różnych typów danych do pracy w projektach.

  • Portal Otwartych Danych UE
  • Kaggle Datasets
  • Wyszukiwanie zbioru danych Google
  • Centrum danych
  • Rejestr Otwartych Danych na AWS
  • Europejska Agencja Rządowa - dane i mapy
  • Microsoft Research Open Data
  • Niesamowite publiczne repozytorium zbiorów danych w serwisie GitHub
  • Dane. Gov: siedziba otwartych danych rządu USA

Jest o wiele więcej źródeł niż to, a staranne wyszukiwanie nagrodzi Cię danymi idealnymi do twoich własnych projektów nauki o danych.

Połącz te nowoczesne techniki, aby uzyskać lepsze wyniki

Gromadzenie danych może być żmudne, gdy dostępne narzędzia do tego zadania są ograniczone lub trudne do zrozumienia. Chociaż starsze i konwencjonalne metody nadal działają dobrze i są nieuniknione w niektórych przypadkach, nowoczesne metody są szybsze i bardziej niezawodne.

Jednak zamiast polegać na jednej metodzie, połączenie tych nowoczesnych sposobów gromadzenia danych może przynieść lepsze wyniki.

E-mail
5 narzędzi oprogramowania do analizy danych, których można się szybko nauczyć

Chcesz zająć się analizą danych? Oto kilka narzędzi, których powinieneś się nauczyć.

Powiązane tematy
  • Programowanie
  • Pyton
  • Big Data
  • Nauczanie maszynowe
  • Gromadzenie danych
  • Analiza danych
O autorze
Idowu Omisola (45 opublikowanych artykułów)

Idowu jest pasjonatem wszystkiego, co inteligentne technologie i produktywność. W wolnym czasie bawi się kodowaniem, nudzi się szachownicą, ale uwielbia też od czasu do czasu oderwać się od rutyny. Jego pasja do wskazywania ludziom drogi wokół nowoczesnych technologii motywuje go do pisania więcej.

Więcej od dostawcy Idowu Omisola

Zapisz się do naszego newslettera

Dołącz do naszego biuletynu, aby otrzymywać wskazówki techniczne, recenzje, bezpłatne e-booki i ekskluzywne oferty!

Jeszcze jeden krok…!

Potwierdź swój adres e-mail w wiadomości e-mail, którą właśnie wysłaliśmy.

.