Web scraping polega na zbieraniu informacji w postaci danych ze stron internetowych lub stron. Chociaż może nie być świadomym aktem, w ten czy inny sposób również przeszukiwałeś sieć podczas zbierania informacji. Ale to zwykle subtelne.

Skrobanie stron internetowych lub ekranów jest na ogół celowym działaniem, a profesjonaliści automatyzują projektowanie w celu uzyskania ogromnych danych. Czy to poprzez ręczne kopiowanie tekstów ze strony internetowej, za pomocą dedykowanych narzędzi, czy pisanie skryptów do skrobania stron internetowych, skrobaki internetowe czasami mocno uderzają w witrynę, wysyłając wiele żądań jednocześnie.

Ale chociaż wiele firm wykorzystuje obecnie skrobanie stron internetowych w celu uzyskania przewagi konkurencyjnej, czy jest to faktycznie legalne?

Które strony internetowe powinny, a których nie należy zeskrobać?

Internet to zbiór informacji, zapewniający ludziom dostęp do starych i aktualizowanych w czasie rzeczywistym danych. Skrobanie z sieci lub z ekranu istnieje już od jakiegoś czasu. Ale ile powinieneś go używać i które strony internetowe możesz zeskrobać?

instagram viewer

Niektóre witryny wymagają stosowania robotów indeksujących lub skrobaków ekranu i całkowicie je blokują. Jest więc rażąco oczywiste, że nie powinieneś zeskrobać takich stron. Ale ludzie nadal to robią.

Niestety, takie strony nie mogą zrobić nic innego, jak tylko załatać swoje luki.

Przed zeskrobaniem strony internetowej najlepiej byłoby sprawdzić, czy umożliwia ona indeksowanie, czy nie. Zwykle można się tego dowiedzieć, sprawdzając plik robots.txt witryny. Możesz to zrobić, wpisując „[URL witryny] /robots.txt”.

Plik robots.txt zazwyczaj określa reguły dla różnych robotów indeksujących lub klientów użytkownika. Jednak zasady te różnią się w zależności od zaangażowanej witryny internetowej. Podczas gdy niektóre witryny zezwalają na indeksowanie wszystkich stron, niektóre określają strony, które robot może indeksować, a niektóre całkowicie blokują roboty indeksujące.

Witryna internetowa, która blokuje wszystkim agentom użytkownika możliwość indeksowania wszystkich stron, zazwyczaj ustanawia następujące zasady:

agent użytkownika: *
Disallow: /

Plik robots.txt, który blokuje wszystkim robotom możliwość indeksowania określonych katalogów lub stron, zazwyczaj wygląda następująco:

agent użytkownika: *
Disallow: / URL do strony 1
Disallow: / URL do strony 2

Jeśli plik robots.txt nie blokuje strony, którą chcesz zaindeksować, prawdopodobnie możesz ją zeskrobać. W przeciwnym razie powinieneś się wycofać lub poprosić administratora o zgodę. Mogą przyznać Ci dostęp.

Ponadto niektóre witryny w swoich warunkach użytkowania wyraźnie określają, czy zezwalają na indeksowanie, czy nie. Niektórzy twierdzą to nawet u góry pliku robots.txt. Zawsze to też sprawdź, aby mieć pewność, że postępujesz właściwie.

Jak jest nadużywane skrobanie stron internetowych

Więc jeśli otrzymałeś wiadomości e-mail ze spamem lub SMS-y ze stron internetowych lub osób, którym nigdy nie podałeś swoich danych osobowych, prawdopodobnie gdzieś zostałeś wyrzucony. Głównie odbywa się to za pośrednictwem jednego z uchwytów mediów społecznościowych.

To powiedziawszy, skrobanie sieci czasami jest czymś więcej niż tylko zbieraniem danych, które są renderowane na początku. Jeśli zostanie użyty w złośliwy sposób, może spowodować wyciek danych osobowych i informacji niejawnych.

Podczas gdy większość platform mediów społecznościowych marszczy brwi, roboty indeksujące nadal uzyskują dostęp do profili osób, a ich dane kontaktowe są wyciekane i usuwane.

Na przykład Facebook ma luki w zabezpieczeniach, które w przeszłości wyciekły z danych kontaktowych użytkowników, mimo że użytkownicy utrzymują je w tajemnicy.

Podobnie LinkedIn ostatnio doświadczył naruszenia bezpieczeństwa, które spowodowało wyciek danych osobowych należący do ponad 500 milionów rachunków. W konsekwencji luka ta skutkowała udostępnieniem wielu adresów e-mail i numerów telefonów bez zgody właścicieli profili.

Czy zdrapywanie witryny internetowej jest nielegalne?

Nigdy nie wyciągnięto wniosków co do legalności skrobania sieci. Zamiast tego skupiamy się na tym, jak robot indeksujący działa w poszczególnych przypadkach i do czego wykorzystuje zebrane dane.

Więc zamiast wyciągać wnioski na temat jego legalności, skrobanie, jeśli jest wykonywane w złej intencji, jest nielegalne. Ale jeśli zostanie to zrobione rozsądnie, nie jest to nielegalne.

Jednak zgodnie z oczekiwaniami wydaje się, że istnieje bardziej rygorystyczna polityka dotycząca pobierania i wykorzystywania danych z mediów społecznościowych, ponieważ prywatność użytkowników jest tak ważna. Jednak wszystko to nadal sprowadza się do tego, jak ludzie zbierają dane.

Plik Blog dotyczący prawa internetowego i mediów społecznościowych przeanalizował przypadek hiQ Labs, firmy zajmującej się zbieraniem danych, która wygrała proces przeciwko LinkedIn w 2019 roku po tym, jak próbowała zablokować hiQ Labs przed pobieraniem publicznie dostępnych danych użytkowników LinkedIn.

W związku z tym, że firma hiQ Labs twierdzi, że ustawa o oszustwach komputerowych i nadużyciach (CFAA) zabrania jedynie nieautoryzowanego dostępu, orzeczenie potwierdziło, że dane LinkedIn były publicznie dostępne, więc każdy, kto je skrobał, robił to, ponieważ tak jest dostępny.

Poza tym hiQ Labs wykorzystywało tylko zebrane dane do dostarczania firmom rozwiązań analitycznych - aby mogły podejmować lepsze decyzje rekrutacyjne.

Przeciwnie, Facebook niedawno pozwał twórców rozszerzeń Chrome którzy zdrapywali profile użytkowników Facebooka bez ich zgody.

Podobnie, plik Witryna naśladowcza została pozwana przez Facebooka do skrobania informacji z profilu kilku użytkowników Instagrama, a następnie używania ich do tworzenia klonów. Według tego raportu Facebook poszedł dalej, aby uzyskać stały nakaz sądowy przeciwko sprawcy.

Oto kilka przypadków, w których ludzie mogli nielegalnie korzystać ze skrobania sieci. Wymienione firmy zbierały dane użytkowników Facebooka podstępnie, bez zgody jego użytkowników. Więc naruszył politykę prywatności.

Tak więc, chociaż skrobanie stron internetowych może frustrować witrynę, z której pobiera dane, żadna ogólna zasada obecnie nie powstrzymuje ludzi przed uzyskaniem tego, czego chcą, o ile nie naruszają one wprost prawa internetowego.

Czy skrobanie stron internetowych jest równoznaczne z hakowaniem?

Istnieje kilka mitów dotyczących skrobania sieci. Jednym z nich jest przekonanie, że skrobanie strony internetowej oznacza, że ​​zostałeś zhakowany. Chociaż hakowanie może ostatecznie doprowadzić do skrobania danych, twierdzenie, że sam termin oznacza włamanie do witryny, nie jest prawdą.

Skrobanie sieci może wiązać się z użyciem dedykowane narzędzia do indeksowania lub skrobania, Interfejsy programowania aplikacji (API) lub skrypty do pobierania danych z sieci w celu uzyskania renderowanych danych z witryny internetowej. W przeciwieństwie do hakowania nie naraża witryny, którą usuwa, ani nie zakłóca doświadczenia jej użytkowników.

Związane z: Co to jest skrobanie sieci? Jak zbierać dane z witryn internetowych

Tak więc, podczas gdy hakowanie wiąże się z nieautoryzowanym dostępem, zwykle do bazy danych witryny, skrobanie stron internetowych dotyczy tylko danych, które są już widoczne w interfejsie użytkownika. Chociaż ludzie mogą złośliwie używać skrobania stron internetowych, nadal nie jest to równoznaczne z hakowaniem.

Ponadto, w przeciwieństwie do skrobania stron internetowych, celowe i nieetyczne włamywanie jest nielegalne.

Jakie są zalety skrobania sieci?

Skrobanie sieci Web ma wiele zalet, a nawet niektóre firmy technologiczne oferują teraz swoje dane bezpłatnie za pośrednictwem interfejsów API. Informacje te zwykle nie wystarczają do oceny trendów biznesowych i podejmowania decyzji.

Firmy uzyskują teraz więcej danych, przeszukując internet w celu ulepszenia praktyk i zwiększenia sprzedaży. Ponadto analitycy danych dostarczają algorytmom uczenia maszynowego danymi zebranymi za pomocą skrobania ekranu.

Takimi danymi mogą być obrazy wykorzystywane do rozpoznawania obrazów, zwykłe teksty do analizy nastrojów lub bezpośrednie dane o produktach do celów wywiadu rynkowego i analizy zachowań konsumentów.

Związane z: Unikalne sposoby uzyskiwania zestawów danych do projektu uczenia maszynowego

Skrobanie w sieci jest więc jeszcze bardziej pomocne, ponieważ jeśli masz dostęp do informacji, których nie ma Twój konkurent, możesz go pokonać.

Podczas gdy niektóre witryny marszczą się na skrobaki internetowe, niektóre, nawet usługi handlu elektronicznego, nie dbają o to, czy zeskrobujesz ich dane, czy nie. Giganci sieciowi, tacy jak eBay i Salesforce, uruchomili swoje API w 2000 roku, oferując programistom po raz pierwszy dostęp do publicznych danych.

Czy naprawdę powinieneś zeskrobać sieć?

Ustaliliśmy, że skrobanie sieci nie jest nielegalne, jeśli jest wykonywane we właściwy sposób. Ale to, co robisz z zeskrobanymi danymi, również jest problemem. Dlatego zamiast nadużywać tego, użyj go, aby uzyskać więcej spostrzeżeń, które pomogą Tobie i innym w podejmowaniu świadomych decyzji.

Jednak skrobanie sieci jako umiejętność daje dostęp do dużych porcji danych internetowych, co może pomóc Tobie lub Twojej firmie pozostać ponad niszą biznesową. Jako naukowiec zajmujący się danymi, rozszerza nawet zakres i poprawia umiejętności kodowania i umiejętności techniczne.

Na przykład Python jest jednym z języków programowania, który pomaga łatwo zeskrobać witrynę internetową dzięki bibliotece Beautiful Soup lub strukturze Scrapy.

E-mail
Zeskrob stronę internetową z tym pięknym samouczkiem Pythona z zupą

Interesuje Cię Web Scraping? Oto jak zeskrobać witrynę internetową w celu znalezienia treści i nie tylko dzięki bibliotece Beautiful Soup Python.

Czytaj dalej

Powiązane tematy
  • Bezpieczeństwo
  • Programowanie
  • Bezpieczeństwo online
  • Skrobanie sieci
O autorze
Idowu Omisola (71 opublikowanych artykułów)

Idowu jest pasjonatem wszystkiego, co inteligentne technologie i produktywność. W wolnym czasie bawi się kodowaniem, nudzi się szachownicą, ale uwielbia też od czasu do czasu oderwać się od rutyny. Jego pasja do wskazywania ludziom drogi wokół nowoczesnych technologii motywuje go do pisania więcej.

Więcej od dostawcy Idowu Omisola

Zapisz się do naszego newslettera

Dołącz do naszego biuletynu, aby otrzymywać wskazówki techniczne, recenzje, bezpłatne e-booki i ekskluzywne oferty!

Jeszcze jeden krok…!

Potwierdź swój adres e-mail w wiadomości e-mail, którą właśnie wysłaliśmy.

.