Reklama
Jeśli chodzi o internetowe bazy danych i informacje, które można znaleźć w tym, co jest powszechnie znane jako „niewidzialna sieć 12 najlepszych wyszukiwarek do odkrywania niewidzialnej sieciGoogle lub Bing nie mogą wyszukać wszystkiego. Aby zbadać niewidzialną sieć, musisz skorzystać z tych specjalnych wyszukiwarek. Czytaj więcej „, nie jestem typowym użytkownikiem. Jasne, trochę za dużo czasu spędzam na przeszukiwaniu internetowych baz danych w miejscach takich jak Archiwum Narodowe i czytanie CIA FOIA pokój, ale muszę powiedzieć, że nic nie sprawia, że jestem bardziej podekscytowany, niż gdy znajduję tabelę opartą na HTML wypełnioną tomami pozornie skomplikowanych i niepowiązanych dane.
Faktem jest, że tabele danych to kopalnia ważnych prawd. Dane często są gromadzone przez armie trepów zbierających dane z butami na ziemi. Masz ludzi ze spisu powszechnego USA, którzy podróżują po całym kraju w celu uzyskania informacji o gospodarstwie domowym i rodzinie. Masz organizacje non-profit zajmujące się ochroną środowiska, które zbierają różnego rodzaju interesujące informacje na temat środowiska, zanieczyszczenia, globalnego ocieplenia i nie tylko. A jeśli interesujesz się zjawiskami paranormalnymi lub ufologią, istnieją również stale aktualizowane tabele informacji o obserwacjach dziwnych obiektów na niebie nad nami.
Jak na ironię, można by pomyśleć, że każdy rząd na świecie byłby zainteresowany tym, jakiego rodzaju zagraniczne statki są dostrzegane na niebie nad każdym krajem, ale najwyraźniej nie – przynajmniej nie w USA. w każdym razie. W Ameryce zbiór niezwykłych obserwacji rzemiosła został przekazany zespołom hobbystów-amatorów, którzy gromadzą się na nowych obserwacjach UFO jak ćmy do płomienia. Moje zainteresowanie tymi obserwacjami w rzeczywistości nie wynika z fascynacji kosmitami czy rzemiosłem z innych planet, ale z naukowej fascynacji wzorcami – gdzie i dlaczego więcej ludzi widzi rzeczy na niebie i czy te obserwacje mogą odzwierciedlać coś bardzo rzeczywistego i znacznie bardziej przyziemnego na.
Aby zbadać ilość danych gromadzonych przez zespoły hobbystów UFO, opracowałem sposób importowania dużych tabel HTML zawierających dane do arkusza kalkulacyjnego Google, a następnie manipuluj i analizuj te dane, aby wyodrębnić i odkryć sensowne i ważne Informacja. W tym artykule zamierzam pokazać, jak zrobić to samo.
Ważne dane HTML w arkuszu kalkulacyjnym Google
W tym przykładzie pokażę, jak zaimportować do arkusza kalkulacyjnego Google wszelkie dane, które mogą być przechowywane w tabeli w dowolnej witrynie internetowej. Pomyśl o ogromnej ilości danych, które są obecnie dostępne w Internecie w postaci tabel HTML. Sama Wikipedia zawiera dane w tabelach na tematy takie jak globalne ocieplenie, US Census Bureau ma mnóstwo zbiory danych o populacji, a odrobina Googlingu da ci znacznie więcej.
W moim przykładzie zaczynam od bazy danych w National UFO Reporting Center, która w rzeczywistości wygląda na bazę danych typu deep-web w stylu zapytania, ale jeśli zaobserwujesz Strukturyzacja adresów URL, jest to w rzeczywistości półzłożony internetowy system raportowania składający się ze statycznych stron internetowych i statycznych tabel HTML – dokładnie tego, czego potrzebujemy, szukając danych do import.
NUForc.org jest jedną z tych organizacji, która służy jako jedno z największych ośrodków zgłaszania obserwacji UFO. Nie jest jedyny, ale jest wystarczająco duży, aby co miesiąc znajdować nowe zbiory danych z aktualnymi obserwacjami. Wybierasz wyświetlanie danych posortowanych według kryteriów, takich jak Stan lub Data, a każde z nich jest dostarczane w formie statycznej strony. Jeśli posortujesz według daty, a następnie klikniesz najnowszą datę, zobaczysz, że podana tam tabela jest statyczną stroną internetową o nazwie zgodnej z formatem daty.
Tak więc mamy teraz wzorzec do regularnego wydobywania najnowszych informacji o obserwacjach z tej bazy danych opartej na HTML. Wszystko, co musisz zrobić, to zaimportować pierwszą tabelę, użyć najnowszego wpisu (górnego), aby zidentyfikować najnowszą aktualizację, a następnie użyj daty tego ogłoszenia, aby utworzyć link URL, w którym znajduje się najnowsza tabela danych HTML istnieje. Wykonanie tego będzie wymagało po prostu kilku wystąpień funkcji ImportHTML, a następnie kilku kreatywnych zastosowań funkcji manipulacji tekstem. Kiedy skończysz, będziesz mieć jeden z najfajniejszych, samodzielnie aktualizujących się arkuszy kalkulacyjnych. Zacznijmy.
Importowanie tabel i manipulowanie danymi
Pierwszym krokiem jest oczywiście utworzenie nowego arkusza kalkulacyjnego.
Jak więc importować tabele HTML? Wszystko, czego potrzebujesz, to adres URL, w którym przechowywana jest tabela, oraz numer tabeli na stronie – zwykle pierwsza na liście to 1, druga to 2 i tak dalej. Ponieważ znam adres URL pierwszej tabeli zawierającej daty i liczby obserwacji, możliwe jest zaimportowanie, wpisując następującą funkcję w komórce A1.
=importhtml(„ http://www.nuforc.org/webreports/ndxpost.html?”&H2,”table”,1)
H2 pełni funkcję „=godzina (teraz())„, więc tabela będzie aktualizowana co godzinę. Jest to prawdopodobnie ekstremalne w przypadku danych, które rzadko aktualizują to, więc prawdopodobnie mógłbym to robić codziennie. W każdym razie powyższa funkcja ImportHTML wprowadza do tabeli, jak pokazano poniżej.
Będziesz musiał trochę manipulować danymi na tej stronie, zanim będziesz mógł połączyć adres URL drugiej tabeli ze wszystkimi obserwacjami UFO. Ale śmiało utwórz drugi arkusz w skoroszycie.
Zanim spróbujesz zbudować drugi arkusz, nadszedł czas, aby wyodrębnić datę publikacji z pierwszej tabeli, aby zbudować link do drugiej tabeli. Problem polega na tym, że data jest wprowadzana jako format daty, a nie ciąg. Dlatego najpierw musisz użyć funkcji TEKST, aby przekonwertować datę publikacji raportu na ciąg znaków:
=tekst (A2,”mm/dd/rr”)
W następnej komórce po prawej musisz użyć funkcji SPLIT z ogranicznikiem „/”, aby rozbić datę na miesiąc, dzień i rok.
=podział (D2,”/”)
Wygląda dobrze! Jednak każdy numer musi być zmuszony do dwóch cyfr. Robisz to w komórkach tuż pod nimi, używając ponownie polecenia TEKST.
=tekst (E2,”00″)
Format „00” (to są zera) wymusza dwie cyfry lub „0” jako symbol zastępczy.
Teraz możesz przebudować cały adres URL do najnowszej tabeli HTML nowych obserwacji. Możesz to zrobić, używając funkcji CONCATENATE i łącząc wszystkie fragmenty informacji, które właśnie wyodrębniłeś z pierwszej tabeli.
=konkatenacja(" http://www.nuforc.org/webreports/ndxp”,G3,E3,F3,”.html”)
Teraz na nowym arkuszu, który utworzyłeś powyżej (pustym arkuszu), zamierzasz wykonać nową funkcję „importhtml”, ale tym razem po raz pierwszy Parametr linku URL, więc wrócisz do pierwszego arkusza kalkulacyjnego i klikniesz komórkę z właśnie utworzonym linkiem URL.
Drugim parametrem jest „tabela”, a ostatnim „1” (ponieważ tabela obserwacji jest pierwszą i jedyną na stronie). Naciśnij Enter, a teraz właśnie zaimportowałeś całą liczbę obserwacji, które zostały opublikowane w tym konkretnym dniu.
Więc prawdopodobnie myślisz, że to fajna nowość i wszystko – w końcu to, co zrobiłeś, zostało wyodrębnione istniejące informacje z tabeli w Internecie i przeniesione do innej tabeli, choć prywatnej w Twoich Dokumentach Google konto. Tak to prawda. Jednak teraz, gdy znajduje się na Twoim prywatnym koncie Dokumentów Google, masz na wyciągnięcie ręki narzędzia i funkcje, aby lepiej analizować te dane i zacząć odkrywać niesamowite połączenia.
Używanie raportów przestawnych do analizy importowanych danych
Niedawno napisałem artykuł o używaniu Raporty przestawne w arkuszu kalkulacyjnym Google Zostań ekspertem ds. analityki danych w ciągu jednej nocy za pomocą narzędzi Google do raportowania w arkuszach kalkulacyjnychCzy wiesz, że jednym z najlepszych narzędzi do analizy danych jest w rzeczywistości Arkusz kalkulacyjny Google? Powodem tego jest nie tylko to, że może zrobić prawie wszystko, czego możesz chcieć... Czytaj więcej do wykonywania wszelkiego rodzaju fajnych czynności związanych z analizą danych. Cóż, możesz wykonać te same niesamowite akrobacje analizy danych na danych, które zaimportowałeś z Internetu – dające możliwość odkrycia ciekawych połączeń, których prawdopodobnie nikt inny wcześniej nie odkrył ty.
Na przykład z tabeli obserwacji końcowych mogę zdecydować się na skorzystanie z raportu przestawnego, aby przyjrzeć się liczbie różne unikalne kształty zgłaszane w każdym stanie, w porównaniu do ogólnej liczby obserwacji w tym konkretnym przypadku stan. Na koniec, odfiltrowuję również wszelkie wzmianki o „obcych” w sekcji komentarzy, aby, miejmy nadzieję, wyeliminować niektóre z bardziej wingnutowych wpisów.
To faktycznie ujawnia kilka całkiem interesujących rzeczy od samego początku, takich jak fakt, że Kalifornia ma wyraźnie najwyższy poziom liczba zgłoszonych obserwacji dowolnego innego państwa, wraz z rozróżnieniem zgłaszania największej liczby kształtów statków w kraju kraj. Pokazuje również, że Massachusetts, Floryda i Illinois są również wielkimi hitami w dziale obserwacji UFO (przynajmniej w najnowszych danych).
Kolejną fajną rzeczą w Arkuszu kalkulacyjnym Google jest szeroka gama dostępnych wykresów, w tym mapa geograficzna, która pozwala rozmieszczaj „gorące punkty” danych w formacie graficznym, który naprawdę się wyróżnia i sprawia, że te połączenia w danych są dość oczywiste.
Jeśli się nad tym zastanowić, to tak naprawdę to tylko wierzchołek góry lodowej. Jeśli możesz teraz importować dane z tabel danych na dowolnej stronie w Internecie, pomyśl tylko o możliwościach. Uzyskaj najnowsze numery giełdowe lub 10 najnowszych książek i autorów z listy bestsellerów New York Times lub najlepiej sprzedające się samochody na świecie. Istnieją tabele HTML na prawie każdy temat, jaki możesz sobie wyobrazić, aw wielu przypadkach tabele te są często aktualizowane.
ImportHtml umożliwia podłączenie arkusza kalkulacyjnego Google do Internetu i czerpanie z istniejących tam danych. Może stać się Twoim osobistym centrum informacji, którego możesz używać do manipulowania i przekształcania w format, z którym możesz faktycznie pracować. To jeszcze jedna bardzo fajna rzecz, którą można pokochać w Arkuszu kalkulacyjnym Google.
Czy kiedykolwiek importowałeś dane do swoich arkuszy kalkulacyjnych? Jakie interesujące rzeczy odkryłeś w tych danych? Jak wykorzystałeś dane? Podziel się swoimi doświadczeniami i pomysłami w sekcji komentarzy poniżej!
Kredyty obrazkowe: Wykres biznesowy
Ryan ma tytuł licencjata w dziedzinie elektrotechniki. Pracował 13 lat w inżynierii automatyzacji, 5 lat w IT, a teraz jest inżynierem aplikacji. Były redaktor zarządzający MakeUseOf, przemawiał na krajowych konferencjach poświęconych wizualizacji danych i występował w krajowej telewizji i radiu.