GPT-4 jest tutaj, a to są nowe funkcje, które powinieneś sprawdzić.

OpenAI w końcu uruchomiło długo oczekiwaną aktualizację GPT, GPT-4. Model dużego języka (LLM) zawiera kilka potężnych nowych funkcji i możliwości, które już zszokowały użytkowników na całym świecie.

Oprócz tego, że jest znacznie lepszy niż GPT-3.5, istniejący LLM, który napędza wirusowego chatbota OpenAI ChatGPT, GPT-4 może zrozumieć bardziej złożone dane wejściowe, ma znacznie większy limit wprowadzania znaków, ma możliwości multimodalne i podobno jest bezpieczniejszy używać.

1. GPT-4 może zrozumieć bardziej złożone dane wejściowe

Jedną z największych nowych funkcji GPT-4 jest zdolność do rozumienia bardziej złożonych i szczegółowych podpowiedzi. Według OpenAI, GPT-4 „wykazuje wydajność na poziomie człowieka w różnych profesjonalnych i akademickich testach porównawczych”.

Zostało to zademonstrowane przez poddanie GPT-4 kilku egzaminom na poziomie ludzkim i standaryzowanym testom, takim jak SAT, BAR i GRE, bez specjalnego szkolenia. GTP-4 nie tylko zrozumiał i rozwiązał te testy, uzyskując stosunkowo wysoki wynik we wszystkich dziedzinach, ale także za każdym razem pokonał swojego poprzednika, GPT-3.5.

instagram viewer

Źródło obrazu: OpenAI

Zdolność do zrozumienia bardziej szczegółowych monitów wejściowych jest również wspomagana przez fakt, że GPT-4 ma znacznie większy limit słów. Nowy model może obsłużyć zachęty do wprowadzenia do 25 000 słów (dla kontekstu GPT-3.5 został ograniczony do 8 000 słów). Wpłynie to bezpośrednio na szczegóły, które użytkownicy mogą wcisnąć w swoje monity, dając modelowi znacznie więcej informacji do pracy i generując dłuższe wyniki.

GPT-4 obsługuje również ponad 26 języków, w tym języki o niskich zasobach, takie jak łotewski, walijski i suahili. W porównaniu z dokładnością trzech strzałów w teście porównawczym MMLU, GPT-4 pokonał GPT-3.5, a także inne wiodące LLM, takie jak PaLM i Chinchilla, pod względem wydajności w języku angielskim w 24 językach.

2. Możliwości multimodalne

Poprzednia wersja ChatGPT ograniczała się tylko do komunikatów tekstowych. Natomiast jedną z najnowszych funkcji GPT-4 są możliwości multimodalne. Model może akceptować monity tekstowe i graficzne.

Oznacza to, że sztuczna inteligencja może zaakceptować obraz jako dane wejściowe oraz zinterpretować go i zrozumieć tak, jak monit tekstowy. Ta funkcja obejmuje wszystkie rozmiary i typy obrazów i tekstu, w tym dokumenty łączące te dwa elementy, ręcznie rysowane szkice, a nawet zrzuty ekranu.

Jednak możliwości odczytu obrazów GPT-4 wykraczają poza zwykłą ich interpretację. OpenAI zaprezentowało to w swoim strumieniu dla programistów (powyżej), gdzie dostarczyło GPT-4 ręcznie narysowaną makietę żartobliwej witryny. Zadaniem modelu było napisanie kodu HTML i JavaScript, aby przekształcić makietę w stronę internetową, zastępując żarty prawdziwymi.

GPT-4 napisał kod, korzystając z układu określonego w makiecie. Po przetestowaniu kod wygenerował działającą stronę zawierającą, jak można się domyślić, prawdziwe żarty. Czy to znaczy Postępy AI oznaczają koniec programowania? Niezupełnie, ale nadal jest to funkcja, która przyda się jako pomoc programistom.

Choć ta funkcja wydaje się obiecująca, wciąż znajduje się w wersji zapoznawczej i nie jest publicznie dostępna. Ponadto przetwarzanie danych wizualnych w modelu zajmuje dużo czasu, a sama OpenAI twierdzi, że przyspieszenie może wymagać pracy i czasu.

3. Większa sterowność

OpenAI twierdzi również, że GPT-4 ma wysoki stopień sterowalności. Utrudniło to również sztucznej inteligencji złamanie postaci, co oznacza, że ​​jest mniej prawdopodobne, że się nie powiedzie, gdy zostanie zaimplementowana w aplikacji do grania określoną postacią.

Deweloperzy mogą określić styl i zadanie swojej sztucznej inteligencji, opisując kierunek w komunikacie „systemowym”. Te komunikaty umożliwiają użytkownikom interfejsu API znaczne dostosowanie środowiska użytkownika w określonych granicach. Ponieważ te wiadomości są również najłatwiejszym sposobem na „złamanie” modelu, pracują również nad zwiększeniem ich bezpieczeństwa. Demo GPT-4 przybiło ten punkt, zachęcając użytkownika do powstrzymania GPT-4 przed byciem korepetytorem Sokratesa i odpowiedzi na jego pytanie. Modelka odmówiła jednak złamania charakteru.

4. Bezpieczeństwo

OpenAI spędził sześć miesięcy na tworzeniu GPT-4 bezpieczniejsze i bardziej wyrównane. Firma twierdzi, że jest o 82% mniej prawdopodobne, że odpowie na prośby o nieodpowiednie lub w inny sposób niedozwolone treści, o 29% bardziej prawdopodobne, że odpowiadać zgodnie z zasadami OpenAI na wrażliwe prośby i o 40% bardziej prawdopodobne, że udzielą rzeczowych odpowiedzi w porównaniu z GPT-3.5.

Nie jest doskonały i nadal można się spodziewać, że od czasu do czasu będzie miał „halucynacje” i może się mylić w swoich przewidywaniach. Jasne, GPT-4 ma lepszą percepcję i moc przewidywania, ale nadal nie powinieneś ślepo ufać sztucznej inteligencji.

5. Ulepszenia w wydajności

Poza oceną wydajności modelu na egzaminach na ludziach, OpenAI oceniło również bota w tradycyjnych testach porównawczych zaprojektowanych dla modeli uczenia maszynowego.

Twierdzi, że GPT-4 „znacznie przewyższa” istniejące LLM i „najnowocześniejsze modele”. Do tych benchmarków należą m.in wspomniane MMLU, AI2 Reasoning Challenge (ARC), WinoGrande, HumanEval i Drop, z których wszystkie testują indywidualne możliwości.

Podobne wyniki można znaleźć, porównując wyniki w akademickich testach porównawczych wizji. Przeprowadzone testy obejmują VQAv2, TextVQA, ChartQA, AI2 Diagram (AI2D), DocVQA, Infographic VQA, TVQA i LSMDC, z których wszystkie są na szczycie GPT-4. Jednak OpenAI stwierdziło, że wyniki GPT-4 w tych testach „nie odzwierciedlają w pełni zakresu jego możliwości”, ponieważ badacze wciąż znajdują nowe i trudniejsze rzeczy, z którymi ten model może sobie poradzić.

Mały krok dla GPT-4, Gigantyczny skok dla AI

Z większą dokładnością, bezpieczeństwem użytkowania i zaawansowanymi możliwościami, GPT-4 został udostępniony publicznie za pośrednictwem miesięcznego planu subskrypcji ChatGPT+, który kosztuje 20 miesięcznie. Ponadto OpenAI nawiązało współpracę z różnymi organizacjami, aby rozpocząć tworzenie produktów skierowanych do konsumentów za pomocą GPT-4. Między innymi Microsoft Bing, Duolingo, Stripe, Be My Eyes i Khan Academy wdrożyły już GPT-4 w swoich produktach.

GPT-4 może być aktualizacją przyrostową w stosunku do GPT-3.5, ale ogólnie jest to ogromna wygrana dla sztucznej inteligencji. W miarę jak model staje się bardziej dostępny, zarówno dla przeciętnego użytkownika, jak i programistów za pośrednictwem interfejsu API, wydaje się, że będzie to dobry argument dla implementacji LLM w różnych dziedzinach.