GPTBot prawdopodobnie nie jest tym, czym myślisz.

Kluczowe dania na wynos

  • GPTBot OpenAI to robot sieciowy zaprojektowany do zbierania danych z publicznych witryn internetowych, które są następnie wykorzystywane do uczenia i ulepszania modeli sztucznej inteligencji, takich jak GPT-4 i ChatGPT.
  • Niektóre z największych witryn w Internecie blokują GPTBot, ponieważ uzyskuje on dostęp do treści chronionych prawem autorskim i wykorzystuje je bez pozwolenia ani wynagrodzenia dla twórców.
  • Chociaż strony internetowe mogą korzystać z narzędzi takich jak plik robots.txt, aby próbować blokować GPTBota, nie ma gwarancji, że OpenAI zastosuje się do nich, dając im kontrolę nad dostępem do danych chronionych prawem autorskim.

W sierpniu 2023 r. OpenAI, potęga sztucznej inteligencji, której przypisuje się rozwój ChatGPT, ogłosiła GPTBot, robot sieciowy zaprojektowany do przeglądania sieci i gromadzenia danych.

Niedługo po tym ogłoszeniu niektóre z największych witryn w Internecie zablokowały botowi dostęp do ich witryn. Ale dlaczego? Co to jest GPTBot OpenAI? Dlaczego duże strony internetowe się tego boją i dlaczego próbują to blokować?

Co to jest GPTBot OpenAI?

GPTBot to robot sieciowy stworzony przez OpenAI w celu przeszukiwania Internetu i gromadzenia informacji na potrzeby rozwoju sztucznej inteligencji OpenAI. Jest zaprogramowany do indeksowania publicznych stron internetowych i wysyłania danych z powrotem na serwery OpenAI. OpenAI wykorzystuje następnie te dane do szkolenia i ulepszania swoich modeli sztucznej inteligencji w celu budowania coraz bardziej zaawansowanych systemów sztucznej inteligencji. Do tworzenia wyrafinowanych modeli sztucznej inteligencji, takich jak GPT-4 lub jego produktów potomnych, takich jak ChatGPT, roboty indeksujące są niemal niezbędne.

Szkolenie modelu sztucznej inteligencji wymaga ogromnej ilości danych, a jednym z najskuteczniejszych sposobów gromadzenia tych danych jest wdrażanie narzędzi takich jak roboty indeksujące. Roboty indeksujące mogą systematycznie przeglądać sieć, podążać za linkami w celu indeksowania dużych ilości stron internetowych i wyodrębniać kluczowe dane, takie jak tekst, obrazy i metadane, które pasują do wcześniej zdefiniowanego wzorca.

Dane te można następnie ustrukturyzować i wprowadzić do modeli sztucznej inteligencji, aby wyszkolić ich zdolności przetwarzania języka naturalnego lub możliwości generowania obrazów lub przeszkolić je do innych zadań związanych ze sztuczną inteligencją. Innymi słowy, roboty indeksujące zbierają dane, które umożliwiają narzędziom takim jak ChatGPT lub DALL-E robienie tego, co robią.

Roboty indeksujące nie są nową koncepcją. Prawdopodobnie są ich miliony, przeszukujących miliardy witryn dostępnych obecnie w Internecie. I istnieją już co najmniej od początku lat 90-tych. GPTBot to tylko jeden z takich robotów należących do OpenAI. Co zatem powoduje kontrowersje wokół tego konkretnego robota sieciowego?

Dlaczego witryny Big Tech blokują GPTBot?

Według Znawca biznesu, niektóre z największych witryn w Internecie aktywnie blokują robota OpenAI na swoich witrynach. Jeśli zatem ostatecznym celem GPTBota jest przyspieszenie rozwoju sztucznej inteligencji, dlaczego niektóre z największych witryn w Internecie, z których niektóre w taki czy inny sposób skorzystały na sztucznej inteligencji, są jej przeciwne?

Oto rzecz. Od czasu odrodzenia się technologii generatywnych sztucznej inteligencji w 2022 r. toczy się wiele debat na temat prawa przedsiębiorstw zajmujących się sztuczną inteligencją do korzystaj niemal bez ograniczeń z danych pochodzących z Internetu, których znaczna część jest prawnie chroniona Prawo autorskie. Żadne jasne przepisy nie regulują sposobu, w jaki te firmy gromadzą i wykorzystują dane dla własnych korzyści.

Zasadniczo roboty takie jak GPTBot przeszukują sieć, przechwytują twórczość ludzi w formie tekstu, obrazów lub innych form mediach i wykorzystywać je do celów komercyjnych bez uzyskiwania jakiegokolwiek pozwolenia, licencji lub zapewniania wynagrodzenia za oryginał twórcy.

To dziki zachód, a firmy zajmujące się sztuczną inteligencją chwytają wszystko, co im wpadnie w ręce. Duże strony internetowe, takie jak Quora, CNN, New York Times, Business Insider i Amazon, nie są zbyt zadowolone, że ich Roboty te zbierają treści chronione prawem autorskim, dzięki czemu OpenAI może czerpać z nich korzyści finansowe koszt.

Właśnie dlatego te witryny wdrażają „robots.txt”, istniejącą od kilkudziesięciu lat metodę blokowania robotów sieciowych. Według OpenAI, GPTBot zastosuje się do instrukcji indeksowania lub unikania indeksowania witryn internetowych w oparciu o reguły zawarte w pliku robots.txt – małym pliku tekstowym informującym roboty indeksujące, jak mają się zachować w witrynie. Jeśli masz własną witrynę i chciałbyś uniemożliwić GPTBotowi przechwytywanie Twoich danych, oto, jak możesz to zrobić zablokuj robotom OpenAI możliwość przeglądania Twojej witryny.

Czy strony internetowe naprawdę mogą zatrzymać GPTBota?

Roboty indeksujące takie jak GPTBot są niezbędne do gromadzenia ogromnych ilości wymaganych danych szkolić zaawansowane systemy sztucznej inteligencji, istnieją uzasadnione obawy dotyczące praw autorskich i dozwolonego użytku, których nie może mieć miejsce ignorowane.

Jasne, istnieją proste narzędzia, takie jak plik robots.txt, których można użyć, aby się przed tym zabezpieczyć, ale to, czy GPTBot zastosuje się do instrukcji zawartych w tym pliku, zależy całkowicie od uznania OpenAI. Nie ma żadnej gwarancji, że to zrobią, i nie ma natychmiastowego i niezawodnego sposobu, aby stwierdzić, czy to zrobili. W walce o utrzymanie GPTBota z dala od danych chronionych prawem autorskim OpenAI ma asy, przynajmniej na razie.