ChatGPT to zmieniający grę chatbot AI OpenAI, który zaskakuje internet. Wbrew wszystkim ustalonym trendom technologicznym, ChatGPT nie zajęło dużo czasu, aby znaleźć drogę do prawie każdego obszaru naszego cyfrowego życia.
Bardzo niewiele innowacji technologicznych spotkało się z takim zainteresowaniem jak ChatGPT w tak krótkim czasie. Wydaje się, że nigdy nie zabraknie mu fajnych sztuczek — każdego dnia dowiadujemy się o ekscytujących nowych rzeczach, o których nie wiedzieliśmy, że potrafi.
Ale w jaki sposób ChatGPT jest w stanie robić rzeczy, które może robić? Jak działa ChatGPT?
Jak zbudowano ChatGPT?
Aby zrozumieć, jak działa ChatGPT, warto przyjrzeć się jego pochodzeniu i mózgowi stojącemu za najnowocześniejszym chatbotem AI.
Po pierwsze, jakkolwiek magiczny może się wydawać ChatGPT, został zbudowany przez geniusz ludzi, tak jak każda wartościowa technologia oprogramowania. OpenAI stworzyło ChatGPT, rewolucyjną firmę zajmującą się badaniami i rozwojem sztucznej inteligencji, stojącą za innymi potężnymi narzędziami sztucznej inteligencji, takimi jak DALL-E, InstructGPT i Codex. Odpowiedzieliśmy już wcześniej
kilka pytań, które możesz mieć na temat ChatGPT, więc spójrz.Podczas gdy ChatGPT stał się wirusowy pod koniec 2022 roku, większość podstawowej technologii, która napędza ChatGPT, istnieje już znacznie dłużej, chociaż ze znacznie mniejszym rozgłosem. Model ChatGPT jest zbudowany na bazie GPT-3 (a dokładniej GPT-3.5). GPT oznacza „Generative Pre-trained Transformer 3”.
GPT-3 to trzecia iteracja linii modeli AI GPT, poprzedzona GPT-2 i GPT. Wcześniejsze iteracje modeli GPT są równie przydatne, ale GPT-3 i precyzyjnie dostrojona iteracja GPT-3.5 są znacznie potężniejsze. Większość tego, co potrafi ChatGPT wynika z leżącej u podstaw technologii GPT-3.
Co to jest GPT?
Ustaliliśmy więc, że ChatGPT jest zbudowany na trzeciej generacji modelu GPT. Ale co to w ogóle jest GPT?
Zacznijmy od rozpakowania akronimów w łatwy do przyswojenia i nietechniczny sposób.
- „Generatywny” w GPT reprezentuje jego zdolność do generowania tekstu w języku naturalnym.
- „Wstępnie przeszkolony” reprezentuje fakt, że model został już przeszkolony na pewnym skończonym zbiorze danych. Podobnie jakbyś przeczytał książkę, a może kilka książek, zanim zostaniesz poproszony o udzielenie odpowiedzi na pytania na ten temat.
- „Transformator” reprezentuje podstawową architekturę uczenia maszynowego, która napędza GPT.
Teraz, łącząc to wszystko razem, Generative Pre-trained Transformer (GPT) to model językowy, który był przeszkoleni w zakresie korzystania z danych z Internetu w celu generowania tekstu w ludzkim języku, gdy zostaną mu przedstawieni podpowiedź. Wielokrotnie powtarzaliśmy więc, że GPT został przeszkolony, ale w jaki sposób?
Jak trenowano ChatGPT?
Sam ChatGPT nie był szkolony od podstaw. Zamiast tego jest to dopracowana wersja GPT-3.5, która sama w sobie jest dopracowaną wersją GPT-3. Model GPT-3 został wytrenowany przy użyciu ogromnej ilości danych zebranych z Internetu. Pomyśl o Wikipedii, Twitterze i Reddicie — były one zasilane danymi i ludzkimi tekstami zeskanowanymi ze wszystkich zakątków Internetu.
Jeśli zastanawiasz się, jak działa trening GPT, GPT-3 został przeszkolony przy użyciu połączenia nadzorowanego uczenia się i uczenia się ze wzmocnieniem poprzez sprzężenie zwrotne od ludzi (RLHF). Uczenie nadzorowane to etap, w którym model jest szkolony na dużym zbiorze danych tekstu zeskrobanego z Internetu. Etap uczenia się przez wzmacnianie polega na tym, że jest szkolony, aby wytwarzać lepsze reakcje, które są zgodne z tym, co ludzie zaakceptowaliby jako zarówno podobne do ludzkich, jak i poprawne.
Szkolenie z nadzorowaną nauką
Aby lepiej zrozumieć, w jaki sposób uczenie nadzorowane i ze wzmocnieniem odnosi się do ChatGPT, wyobraź sobie scenariusz, w którym uczeń uczy się pisać esej przez nauczyciela. Nauka nadzorowana byłaby odpowiednikiem nauczyciela, który dał uczniowi setki esejów do przeczytania. Celem jest, aby uczeń nauczył się, jak napisać esej, przyzwyczajając się do tonu, słownictwa i struktury setek esejów.
Wśród tych setek esejów będzie jednak dobro i zło. Ponieważ uczeń był szkolony zarówno w zakresie dobrych, jak i złych egzemplarzy, czasami uczeń może napisać zły esej, ponieważ w pewnym momencie uczeń był również karmiony złymi esejami. Oznacza to, że poproszony o napisanie eseju uczeń może napisać kopię, która jest nie do zaakceptowania lub wystarczająco dobra dla nauczyciela. I tu pojawia się uczenie wzmacniające.
Trening z uczeniem się ze wzmocnieniem
Gdy nauczyciel ustali, że uczeń rozumie ogólne zasady pisania esejów, czytając setki esejów, nauczyciel często zadaje uczniowi pracę domową dotyczącą pisania esejów. Następnie nauczyciel udzielał informacji zwrotnej na temat pracy domowej polegającej na pisaniu eseju, informując uczniów, co zrobili dobrze, a co powinni poprawić. Uczeń wykorzystuje informacje zwrotne do kierowania kolejnymi zadaniami domowymi związanymi z pisaniem esejów, pomagając uczniowi w poprawie w miarę upływu czasu.
Jest to podobne do etapu uczenia się przez wzmacnianie w szkoleniu modelu GPT. Po otrzymaniu ogromnej ilości tekstu zeskrobanego z Internetu model może odpowiadać na pytania. Jednak jego dokładność nie będzie wystarczająco dobra. Trenerzy zadają modelowi pytanie i przekazują informację zwrotną, która odpowiedź jest bardziej odpowiednia dla każdego pytania.
Model wykorzystuje informacje zwrotne, aby poprawić swoją zdolność do dokładniejszego odpowiadania na pytania i bliższego odpowiedzi człowieka. W ten sposób ChatGPT może generować odpowiedzi brzmiące jak ludzkie, które są zarówno spójne, wciągające, jak i ogólnie dokładne.
W jaki sposób ChatGPT może odpowiadać na pytania?
Więc odwiedzasz witrynę ChatGPT i logujesz się. Prosisz ChatGPT: „napisz piosenkę rapową w stylu Snoop Dogga”. Odpowiada tekstem rapowej piosenki, która wygląda uderzająco podobnie do tego, co napisałby Snoop Dogg. Jak to jest możliwe?
Cóż, „magia” stojąca za ChatGPT doskonale łączy się z jego szkoleniem.
Po omówieniu każdego centymetra podręcznika Fizyka 101 istnieje duża szansa, że będziesz w stanie odpowiedzieć na każde pytanie, które zostanie ci zadane. Dlaczego? Bo to przeczytałeś i się tego nauczyłeś. To samo dotyczy ChatGPT — uczy się. A jak pokazała ludzka cywilizacja, przy wystarczającym wyszkoleniu możliwe jest rozwiązanie niemal każdego problemu.
Chociaż prawdopodobnie możesz zarządzać setkami książek w swoim życiu, ChatGPT lub GPT pochłonęły już ogromną część Internetu. To ogromne bogactwo informacji. Gdzieś tam pewnie są teksty do licznych piosenek Snoop Dogga. Więc, oczywiście, ChatGPT musiał go skonsumować (pamiętaj, że jest wstępnie wytrenowany) i rozpoznać wzorce w tekstach Snoop Dogga. Następnie wykorzystałby „znajomość” tego wzorca do „przewidywania” tekstu piosenki podobnej do tego, co napisałby Snoop Dogg.
Nacisk kładziony jest tutaj na „przewidywanie”. ChatGPT nie odpowiada na pytania w taki sam sposób, w jaki robimy to jako ludzie. Na przykład w obliczu pytania typu „Jaka jest stolica Portugalii?” możesz powiedzieć Lizbona i powiedzieć to jako „fakt”. Jednak ChatGPT nie odpowiada na pytania ze 100% pewnością. Zamiast tego próbuje przewidzieć właściwą odpowiedź, biorąc pod uwagę dane, które wykorzystał w swoim zbiorze danych szkoleniowych.
Podejście ChatGPT do odpowiadania na pytania
Aby lepiej zrozumieć koncepcję przewidywania odpowiedzi, wyobraź sobie, że ChatGPT jest detektywem, którego zadaniem jest rozwiązanie zagadki morderstwa. Detektywowi przedstawiono dowody, ale nie wiedzą, kto popełnił morderstwo i jak do niego doszło. Dysponując jednak wystarczającymi dowodami, detektyw może „przewidzieć” z dużą dokładnością, kto jest odpowiedzialny za morderstwo i jak doszło do popełnienia przestępstwa.
Po zużyciu danych z Internetu ChatGPT odrzuca oryginalne dane i przechowuje połączenia neuronowe lub wzorce, których nauczył się z danych. Te powiązania lub wzorce są jak dowody, które ChatGPT analizuje, gdy próbuje odpowiedzieć na dowolny monit.
Teoretycznie ChatGPT jest jak bardzo dobry detektyw. Nie wie na pewno, jakie powinny być fakty odpowiedzi, ale próbuje, robiąc wrażenie dokładność, aby przewidzieć logiczną sekwencję tekstu w języku ludzkim, która najwłaściwiej odpowiadałaby pytanie. W ten sposób uzyskasz odpowiedzi na swoje pytania.
I właśnie dlatego niektóre z tych odpowiedzi wyglądają bardzo przekonująco, ale są strasznie błędne.
ChatGPT: odpowiada jak człowiek, myśli jak maszyna
Podstawowe szczegóły techniczne ChatGPT są złożone. Jednak z podstawowego punktu widzenia działa, ucząc się i odtwarzając to, czego się nauczył, gdy zostanie o to poproszony, tak jak robimy to jako ludzie.
Ponieważ ChatGPT ewoluuje dzięki badaniom, sposób jego działania może się zmienić. Jednak jego podstawowe zasady działania pozostaną przez jakiś czas niezmienione, przynajmniej do czasu pojawienia się przełomowej nowej technologii.