Martwisz się, że chatboty AI będą przeglądać Twoją witrynę w poszukiwaniu treści? Na szczęście możesz im to uniemożliwić. Oto jak.

W obecnej sytuacji chatboty AI mają bezpłatną licencję na przeglądanie Twojej witryny i wykorzystywanie jej treści bez Twojej zgody. Martwisz się, że Twoje treści zostaną zgarnięte przez takie narzędzia?

Dobrą wiadomością jest to, że możesz uniemożliwić narzędziom AI dostęp do Twojej witryny, ale są pewne zastrzeżenia. Tutaj pokazujemy, jak blokować boty za pomocą pliku robots.txt dla Twojej witryny, a także zalety i wady takiego postępowania.

W jaki sposób chatboty AI uzyskują dostęp do treści internetowych?

Chatboty AI są szkolone przy użyciu wielu zestawów danych, z których niektóre są dostępne publicznie i są typu open source. Na przykład GPT3 został przeszkolony przy użyciu pięciu zestawów danych, zgodnie z artykuł badawczy opublikowany przez OpenAI:

  1. Czołganie się (60% wagi podczas treningu)
  2. WebText2 (22% wagi w treningu)
  3. Książki1 (8% wagi w treningu)
  4. Książki2 (8% wagi w treningu)
  5. Wikipedia (3% wagi w treningu)
instagram viewer

Wspólne czołganie się zawiera petabajty (tysiące TB) danych ze stron internetowych zebranych od 2008 roku, podobnie jak algorytm wyszukiwania Google indeksuje treści internetowe. WebText2 to zestaw danych stworzony przez OpenAI, zawierający około 45 milionów stron internetowych, do których prowadzą linki z postów Reddit z co najmniej trzema głosami za.

Tak więc w przypadku ChatGPT bot AI nie uzyskuje bezpośredniego dostępu do twoich stron internetowych ani ich nie indeksuje – w każdym razie jeszcze nie. Chociaż OpenAI ogłoszenie przeglądarki internetowej hostowanej przez ChatGPT wyraził obawy, że może się to wkrótce zmienić.

W międzyczasie właściciele witryn powinni mieć oko na inne chatboty AI, ponieważ coraz więcej z nich trafia na rynek. Bard to inne wielkie nazwisko w tej dziedzinie, o którym wiadomo bardzo niewiele zestawy danych używane do jego szkolenia. Oczywiście wiemy, że roboty wyszukiwarek Google nieustannie indeksują strony internetowe, ale to niekoniecznie oznacza, że ​​Bard ma dostęp do tych samych danych.

Dlaczego niektórzy właściciele witryn są zaniepokojeni?

Największym zmartwieniem właścicieli witryn jest to, że boty AI, takie jak ChatGPT, Bard i Bing Chat, dewaluują ich zawartość. Boty AI wykorzystują istniejące treści do generowania swoich odpowiedzi, ale także zmniejszają potrzebę dostępu użytkowników do oryginalnego źródła. Zamiast odwiedzać strony internetowe w celu uzyskania dostępu do informacji, mogą po prostu poprosić Google lub Bing o wygenerowanie podsumowania potrzebnych informacji.

Jeśli chodzi o chatboty AI w wyszukiwaniu, dużym zmartwieniem właścicieli witryn jest utrata ruchu. W przypadku Barda bot AI rzadko zawiera cytaty w swoich odpowiedziach generatywnych, informując użytkowników, z których stron czerpie informacje.

Tak więc, oprócz zastąpienia wizyt w witrynie odpowiedziami AI, Bard eliminuje prawie wszelkie szanse na uzyskanie ruchu w witrynie źródłowej – nawet jeśli użytkownik chce uzyskać więcej informacji. Z drugiej strony Bing Chat częściej łączy się ze źródłami informacji.

Innymi słowy, obecna flota generatywnych narzędzi sztucznej inteligencji jest korzystając z pracy twórców treści aby systematycznie zastępować zapotrzebowanie na twórców treści. Trzeba w końcu zapytać jaką motywację pozostawia to właścicielom witryn aby kontynuować publikowanie treści. A co za tym idzie, co dzieje się z botami AI, gdy strony internetowe przestają publikować treści, na których opierają swoje działanie?

Jak zablokować boty AI w swojej witrynie

Jeśli nie chcesz, aby boty AI korzystały z Twojej zawartości internetowej, możesz zablokować im dostęp do Twojej witryny za pomocą robots.txt plik. Niestety musisz zablokować każdego bota z osobna i określić go po imieniu.

Na przykład bot Common Crawl nazywa się CCBot i możesz go zablokować, dodając następujący kod do pliku robots.txt:

Klient użytkownika: CCBot
Uniemożliwić: /

Zablokuje to Common Crawl indeksowanie Twojej witryny w przyszłości, ale nie usunie żadnych danych zebranych już podczas poprzednich indeksowań.

Jeśli martwisz się, że nowe wtyczki ChatGPT uzyskują dostęp do twoich treści internetowych, OpenAI już je opublikowało instrukcje blokowania jego bota. W tym przypadku bot ChatGPT nazywa się ChatGPT-User i możesz go zablokować, dodając następujący kod do pliku robots.txt:

Klient użytkownika: ChatGPT-User
Uniemożliwić: /

Blokowanie indeksowania treści przez roboty AI wyszukiwarek to jednak zupełnie inny problem. Ponieważ Google ściśle przestrzega danych treningowych, z których korzysta, nie można określić, które boty należy zablokować i czy w ogóle będą respektować polecenia w robots.txt plik (wiele robotów tego nie robi).

Jak skuteczna jest ta metoda?

Blokowanie botów AI w twoim robots.txt file jest obecnie najskuteczniejszą dostępną metodą, ale nie jest szczególnie niezawodna.

Pierwszym problemem jest to, że musisz określić każdego bota, którego chcesz zablokować, ale kto może śledzić każdego bota AI trafiającego na rynek? Następną kwestią jest to, że polecenia w pliku your robots.txt pliku są instrukcjami nieobowiązkowymi. Podczas gdy Common Crawl, ChatGPT i wiele innych botów respektuje te polecenia, wiele botów tego nie robi.

Innym dużym zastrzeżeniem jest to, że możesz blokować tylko boty AI przed wykonywaniem przyszłych indeksowań. Nie możesz usuwać danych z poprzednich indeksowań ani wysyłać próśb do firm takich jak OpenAI o usunięcie wszystkich danych.

Niestety nie ma prostego sposobu na zablokowanie wszystkim botom AI dostępu do Twojej witryny, a ręczne zablokowanie każdego bota jest prawie niemożliwe. Nawet jeśli nadążasz za najnowszymi botami AI wędrującymi po sieci, nie ma gwarancji, że wszystkie będą stosować się do poleceń w twoim robots.txt plik.

Prawdziwe pytanie brzmi, czy wyniki są warte wysiłku, a krótka odpowiedź brzmi (prawie na pewno) nie.

Istnieją również potencjalne wady blokowania botów AI w Twojej witrynie. Przede wszystkim nie będziesz w stanie zebrać znaczących danych, aby udowodnić, czy narzędzia takie jak Bard przynoszą korzyści, czy szkodzą Twojej strategii marketingowej w wyszukiwarkach.

Tak, możesz założyć, że brak cytowań jest szkodliwy, ale zgadujesz tylko, jeśli brakuje Ci danych, ponieważ zablokowałeś botom AI dostęp do twoich treści. To była podobna historia, kiedy po raz pierwszy wprowadzono Google polecane fragmenty szukać.

W przypadku trafnych zapytań Google wyświetla na stronie wyników fragment treści ze stron internetowych, odpowiadając na pytanie użytkownika. Oznacza to, że użytkownicy nie muszą przechodzić do witryny, aby uzyskać odpowiedź, której szukają. Wywołało to panikę wśród właścicieli witryn i ekspertów SEO, którzy polegają na generowaniu ruchu z zapytań.

Jednak rodzaje zapytań, które powodują wyświetlenie polecanych fragmentów, to na ogół wyszukiwania o niskiej wartości, takie jak „co to jest X” lub „jaka jest pogoda w Nowym Jorku”. Każdy, kto chce uzyskać szczegółowe informacje lub kompleksowy raport o pogodzie, nadal będzie klikał, a ci, którzy tego nie chcą, nigdy nie byli tak cenni.

Może się okazać, że jest to podobna historia z generatywnymi narzędziami AI, ale będziesz potrzebować danych, aby to udowodnić.

Nie spiesz się z niczym

Właściciele witryn internetowych i wydawcy są, co zrozumiałe, zaniepokojeni technologią sztucznej inteligencji i sfrustrowani pomysłem wykorzystania ich treści przez boty do generowania natychmiastowych odpowiedzi. Nie jest to jednak czas na pośpiech w kontrofensywie. Technologia sztucznej inteligencji to szybko rozwijająca się dziedzina, a rzeczy będą nadal ewoluować w szybkim tempie. Skorzystaj z okazji, aby zobaczyć, jak sprawy się potoczą, i przeanalizuj potencjalne zagrożenia i możliwości, jakie stwarza sztuczna inteligencja.

Obecny system polegania na pracy twórców treści w celu zastąpienia ich nie jest zrównoważony. Niezależnie od tego, czy firmy takie jak Google i OpenAI zmienią swoje podejście, czy też rządy wprowadzą nowe przepisy, coś musi dać. Jednocześnie coraz bardziej widoczne stają się negatywne implikacje chatbotów AI na tworzenie treści, które właściciele witryn i twórcy treści mogą wykorzystać na swoją korzyść.