Reklama
Co byś powiedział, gdybym ci powiedział, że masz do dyspozycji narzędzia do przełomowych badań, które wstrząsają Ziemią? Cóż, a ty pokażę ci, jak to zrobić.
Rządy, instytucje akademickie i organizacje badawcze non-profit publikują tabele pełne danych w domenie publicznej. Bez nikogo korzystającego z tych informacji ich prawdziwa wartość nigdy nie będzie znana. Niestety niewiele osób ma wgląd, umiejętności lub narzędzia do pobierania danych i tworzenia interesujących korelacji między pozornie niepowiązanymi informacjami.
tło
Wiele badań, które przeprowadzam dla własnego bloga, polega na przekopaniu się przez tak zwane niewidzialna sieć 12 najlepszych wyszukiwarek do odkrywania niewidzialnej sieciGoogle ani Bing nie mogą wyszukiwać wszystkiego. Aby eksplorować niewidzialną sieć, musisz użyć tych specjalnych wyszukiwarek. Czytaj więcej , aby odkryć dane, które zostały udostępnione publicznie, ale przed którymi są ukryte Wyszukiwarki 5 najbardziej zaawansowanych wyszukiwarek w sieci Czytaj więcej
w bazie danych online. To jest głęboka sieć TorSearch ma być Google dla głębokiej sieciTor to ukryta usługa i część Deep Web. TorSearch to nowa anonimowa wyszukiwarka, której założyciel Chris MacNaughton chce stworzyć „Google of Tor”. Czytaj więcej i zawiera wiele cennych danych. Bardzo często spotykam strony internetowe wypełnione niektórymi z najcenniejszych danych na tematy poruszające całą gamę - od spisów powszechnych po badania epidemiologiczne dotyczące rzadkich chorób. Ciągle mam nowe pomysły, jak próbować skorelować te różne źródła danych przy użyciu różnych narzędzia - a jednym z najcenniejszych narzędzi, jakie znalazłem, jest zapytanie internetowe w Microsoft Przewyższać.Znajdowanie interesujących korelacji danych
To, co dzisiaj pokażę, to przykład tego, jak korzystać z zapytań Excel Web, aby pobierać dane różnych witryn internetowych i porównuj je ze sobą, aby wyszukać potencjalne korelacje między nimi dane.
Sposób na rozpoczęcie takiego ćwiczenia polega na sformułowaniu ciekawej hipotezy. Na przykład - aby zachować interesującą sytuację - zamierzam losowo postulować gwałtowny wzrost liczby autyzmów w Stanach Zjednoczonych są spowodowane zaszczepieniem szczepionką lub rosnącą obecnością pól elektromagnetycznych u dzieci i wokół nich, takich jak komórki telefony. To szalona hipoteza, którą znajdziesz na większości stron z teorią spiskową, ale to sprawia, że jest to zabawne. Więc zacznijmy, prawda?
Najpierw otwórz program Excel, przejdź do elementu menu danych i znajdź ikonę „Z sieci” na wstążce menu.

Tego właśnie używasz do importowania różnych tabel danych z wielu witryn, które je opublikowały.
Importowanie danych internetowych do Excela
Tak więc w dawnych czasach trzeba było próbować skopiować dane z tej tabeli na stronie internetowej, wkleić je do programu Excel, a następnie rozwiązać wszystkie zwariowane problemy związane z formatowaniem. Całkowity problem i często nie jest to warte bólu głowy. Cóż, dzięki Excel Web Queries te dni minęły. Oczywiście, zanim będzie można zaimportować dane, musisz znaleźć w sieci Google, aby znaleźć potrzebne dane w formacie tabeli. W moim przypadku znalazłem stronę internetową, która opublikowała statystyki Departamentu Edukacji dotyczące liczby uczniów szkół publicznych w USA, którzy zostali zidentyfikowani jako mający autyzm. Niezły stolik podał tam liczby od 1994 roku aż do 2006 roku.
Wystarczy kliknąć „Z sieci”, wkleić adres URL strony w polu adresu zapytania, a następnie przewinąć stronę w dół, aż zobaczysz żółtą strzałkę obok tabeli z danymi, które chcesz zaimportować.

Kliknij strzałkę, aby stała się zielonym znacznikiem wyboru.

Na koniec powiedz Excelowi, do którego pola chcesz wkleić dane tabeli do nowego arkusza kalkulacyjnego.

Więc - Voila! Dane automatycznie przepływają bezpośrednio do Twojego arkusza kalkulacyjnego.
Tak więc, biorąc pod uwagę trend autyzmu w szkołach publicznych w latach 1996-2006, nadszedł czas, aby poszukać trendów w zakresie szczepień i używania telefonów komórkowych.
Na szczęście szybko znalazłem trendy dla abonentów telefonów komórkowych w Stanach Zjednoczonych w latach 1985-2012. Doskonałe dane do tego konkretnego badania. Ponownie użyłem narzędzia Excel Web Query do zaimportowania tej tabeli.

Zaimportowałem ten stół do czystego, nowego arkusza. Następnie odkryłem trendy szczepień dla odsetka dzieci w wieku szkolnym zaszczepionych z powodu różnych chorób. Zaimportowałem tę tabelę za pomocą narzędzia Web Query do trzeciego arkusza. Wreszcie miałem trzy arkusze z trzema tabelami wypełnionymi pozornie niepowiązanymi danymi, które odkryłem w sieci.

Następnym krokiem jest użycie Excela do analizy danych i próby zidentyfikowania korelacji. Właśnie wtedy wchodzi w grę jedno z moich ulubionych narzędzi do analizy danych - Tabela przestawna.
Analiza danych w programie Excel za pomocą tabeli przestawnej
Najlepiej jest utworzyć tabelę przestawną w zupełnie nowym, pustym arkuszu. Chcesz użyć kreatora do tego, co masz zamiar zrobić. Aby włączyć kreatora tabeli przestawnej w programie Excel, musisz nacisnąć klawisze Alt-D w tym samym czasie, aż pojawi się okno powiadomienia. Następnie puść te przyciski i naciśnij klawisz „P”. Następnie zobaczysz wyskakującego kreatora.

W pierwszym oknie kreatora wybierz „Wiele zakresów konsolidacji”, co pozwala wybrać dane ze wszystkich zaimportowanych arkuszy. W ten sposób możesz skonsolidować wszystkie pozornie niepowiązane dane w jeden, potężny element przestawny. W niektórych przypadkach może być konieczne masowanie niektórych danych. Na przykład musiałem naprawić pole „Rok” w tabeli autyzmu, aby wyświetlało „1994” zamiast „1994–95” - dzięki czemu lepiej układa się na stolikach na innych arkuszach, które również miały pierwszy rok pole.

To wspólne pole między danymi jest tym, czego potrzebujesz, aby spróbować skorelować informacje, więc miej to na uwadze, gdy szukasz danych w sieci.
Po zakończeniu tabeli przestawnej i wyświetleniu wszystkich różnych wartości danych w jednej tabeli nadszedł czas na wizualną analizę, aby sprawdzić, czy istnieje jakieś oczywiste połączenie, które na ciebie wyskoczy.
Wizualizacja danych jest kluczem
Posiadanie wielu liczb w tabeli jest świetne, jeśli jesteś ekonomistą, ale jest to najszybszy i najłatwiejszy sposób to „aha!” moment, w którym próbujesz znaleźć połączenia jak igła w stogu siana, odbywa się za pomocą wykresów i wykresy. Po ustawieniu wykresu przestawnego na wszystkich zebranych zestawach danych czas utworzyć wykres. Zwykle najlepiej sprawdza się wykres liniowy, ale zależy to od danych. Czasami wykres słupkowy działa znacznie lepiej. Spróbuj zrozumieć, jakie dane przeglądasz i jakie porównania formularzy działają najlepiej.
W tym przypadku patrzę na dane w czasie, więc wykres liniowy jest naprawdę najlepszym sposobem, aby zobaczyć trendy na przestrzeni lat. Wyznaczanie wskaźników autyzmu (zielony) w stosunku do zmniejszonych wskaźników szczepień (ciemnoniebieski), szczepionki przeciw ospie wietrznej (jasnoniebieski) i korzystanie z telefonu komórkowego (fioletowy), nagle pojawiła się dziwna korelacja w tym przykładowym zestawie danych, które odtwarzałem z.

Co dziwne, trend używania telefonów komórkowych w latach 1994-2006 niemal idealnie pasował do wzrostu liczby autyzmów w tym samym okresie. Chociaż wzorzec był zupełnie nieoczekiwany, jest to doskonały przykład tego, jak powiązanie interesujących danych może ujawnić fascynujące informacje o potencjalnych klientach - zapewniając ci lepszy wgląd i motywację do dalszego pchania do przodu i szukania większej ilości danych, które mogą jeszcze bardziej wzmocnić twoją hipoteza.
Jedna taka korelacja powyżej niczego nie dowodzi. Z biegiem czasu powstaje wiele trendów - wzór może być zbiegiem okoliczności, ale może być również ważną wskazówką w twoich ciągłych poszukiwaniach większej ilości danych w Internecie. Na szczęście masz potężne narzędzie o nazwie Excel Web Queries, które sprawi, że to zadanie będzie trochę łatwiejsze.
Kredyt zdjęciowy: Kevin Dooley przez fotopinacc
Ryan ma tytuł licencjata z inżynierii elektrycznej. Pracował 13 lat w inżynierii automatyki, 5 lat w IT, a teraz jest inżynierem aplikacji. Były redaktor naczelny MakeUseOf, przemawiał na krajowych konferencjach dotyczących wizualizacji danych i był prezentowany w krajowej telewizji i radiu.