8 kluczowych czynników, które należy wziąć pod uwagę podczas testowania chatbotów AI pod kątem dokładności

Możesz przetestować różne chatboty AI, aby określić, który działa najlepiej. Ale jak to zrobić? Oto kilka kluczowych czynników, które należy wziąć pod uwagę.

Sztuczna inteligencja przeszła długą drogę od tworzenia nieistotnych, niespójnych danych wyjściowych. Nowoczesne chatboty używają zaawansowanych modeli językowych, które odpowiadają na pytania z wiedzy ogólnej, tworzą długie eseje i piszą kod, a także inne złożone zadania.

Pomimo tych postępów należy pamiętać, że nawet najbardziej wyrafinowane systemy mają ograniczenia. AI wciąż popełnia błędy. Aby określić, które chatboty są najmniej podatne na halucynacje, przetestuj ich dokładność na podstawie tych czynników.

1. liczenie

Przeprowadzaj równania matematyczne przez chatboty. Przetestują zdolność platformy do analizowania problemów tekstowych, tłumaczenia pojęć matematycznych i stosowania poprawnych formuł. Tylko kilka modeli wykazuje wiarygodną umiejętność liczenia. Właściwie jeden z Najgorsze problemy ChatGPT podczas jego pierwsze miesiące to okropne rozumienie matematyki.

instagram viewer

Poniższy obraz pokazuje błąd ChatGPT w podstawowych statystykach.

ChatGPT wykazał poprawę po OpenAI wprowadziło aktualizacje z maja 2023 r. Ale biorąc pod uwagę jego ograniczone zbiory danych, nadal będziesz mieć problemy ze średniozaawansowanymi i zaawansowanymi obliczeniami matematycznymi.

Tymczasem Bing Chat i Google Bard wykazują lepszą umiejętność liczenia. Przeprowadzają zapytania za pośrednictwem odpowiednich wyszukiwarek, umożliwiając im pobieranie formuł i arkuszy odpowiedzi.

Spróbuj przeformułować swoje problemy tekstowe. Unikaj długich zdań i zastępuj słabe czasowniki; w przeciwnym razie chatboty mogą źle zrozumieć Twoje pytania.

2. Zrozumienie

Nowoczesne systemy sztucznej inteligencji mogą wykonywać wiele zadań. Zaawansowane LLM umożliwiają im zachowanie poprzednich instrukcji i odpowiadanie na monity według sekcji, podczas gdy starsze systemy przetwarzają pojedyncze polecenia. Na przykład Siri odpowiada na jedno pytanie na raz.

Karm chatboty od trzech do pięciu zadań jednocześnie, aby sprawdzić, jak dobrze analizują złożone monity. Mniej wyrafinowane modele nie mogą przetwarzać tak dużej ilości informacji. Poniższy obraz pokazuje nieprawidłowe działanie HuggingChat po trzyetapowym monicie — zatrzymuje się na pierwszym kroku i odbiega od tematu.

Ostatnie linie HuggingChat są już niespójne.

ChatGPT szybko wykonuje ten sam monit, generując bezbłędne, inteligentne odpowiedzi na każdym kroku.

Bing Chat zapewnia skondensowaną odpowiedź na trzy kroki. Jego sztywne ograniczenia zabraniają niepotrzebnie długich wyjść, które marnują moc obliczeniową.

3. Aktualność

Ponieważ szkolenie AI kosztuje ogromne zasoby, większość programistów ogranicza zestawy danych do określonych okresów. Weźmy jako przykład ChatGPT. Data zakończenia udostępniania wiedzy przypada na wrzesień 2021 r. — nie można prosić o aktualizacje pogody, wiadomości ani najnowsze wydarzenia. Oto ChatGPT, który mówi, że nie ma dostępu do informacji w czasie rzeczywistym.

Bard ma dostęp do internetu. Pobiera dane z SERPów Google, dzięki czemu możesz zadawać szerszy zakres pytań, np. o ostatnie wydarzenia, wiadomości i prognozy.

Podobnie Bing Chat pobiera informacje w czasie rzeczywistym ze swojej wyszukiwarki.

Bing Chat i Bard dostarczają aktualne, aktualne informacje, ale ten drugi zapewnia bardziej szczegółowe odpowiedzi. Bing jedynie przedstawia dane w takiej postaci, w jakiej są. Zauważysz, że jego wyniki często pasują do frazowania i tonu powiązanych źródeł dosłownie.

4. Znaczenie

Chatboty muszą zapewniać odpowiednie wyjścia. Udzielając odpowiedzi, powinni wziąć pod uwagę dosłowne i kontekstowe znaczenie Twoich podpowiedzi. Weźmy tę rozmowę jako przykład. Nasza osoba potrzebuje nowego telefonu, ale ma tylko 1000 USD — ChatGPT nie przekracza budżetu.

Podczas testowania trafności spróbuj opracować długie instrukcje. Mniej wyrafinowane chatboty mają tendencję do schodzenia na styczną, gdy otrzymują mylące instrukcje. Na przykład HuggingChat może tworzyć fikcyjne historie. Ale może odbiegać od głównego tematu, jeśli ustawisz zbyt wiele zasad i wytycznych.

5. Pamięć kontekstowa

Pamięć kontekstowa pomaga sztucznej inteligencji w tworzeniu dokładnych i niezawodnych danych wyjściowych. Zamiast traktować twoje pytania jako wartość nominalną, łączą ze sobą szczegóły, o których wspominasz. Weźmy tę rozmowę jako przykład. Bing Chat łączy dwie oddzielne wiadomości, tworząc pomocną, zwięzłą odpowiedź.

Podobnie pamięć kontekstowa umożliwia chatbotom zapamiętywanie instrukcji. Ten obraz pokazuje ChatGPT naśladujący sposób, w jaki fikcyjna postać mówi podczas kilku czatów.

Przetestuj tę funkcję samodzielnie, konsekwentnie odwołując się do poprzednich stwierdzeń. Podaj chatbotom różne informacje, a następnie zmuś je do przywołania ich w późniejszych odpowiedziach.

Pamięć kontekstowa jest ograniczona. Bing Chat rozpoczyna nowe konwersacje co 20 tur, podczas gdy ChatGPT nie może przetwarzać monitów powyżej 3000 tokenów.

6. Ograniczenia bezpieczeństwa

Sztuczna inteligencja nie zawsze działa zgodnie z przeznaczeniem. Wadliwy trening może spowodować technologii uczenia maszynowego do popełniania różnych błędów, od drobnych błędów matematycznych po problematyczne komentarze. Brać Microsoft Tay jako przykład. Użytkownicy Twittera wykorzystali jego model uczenia się bez nadzoru i uwarunkowali go, mówiąc rasistowskie obelgi.

Na szczęście światowi liderzy technologii wyciągnęli wnioski z błędu Microsoftu. Chociaż jest to opłacalne i wygodne, uczenie się bez nadzoru sprawia, że systemy sztucznej inteligencji są podatne na oszustwa. Dlatego programiści polegają obecnie głównie na nadzorowanym uczeniu się. Chatboty lubią ChatGPT wciąż uczy się na podstawie rozmów, ale ich trenerzy najpierw filtrują informacje.

Spodziewaj się różnych wytycznych od firm zajmujących się sztuczną inteligencją. Mniej sztywne ograniczenia ChatGPT obejmują szerszy zakres zadań, ale są słabe w przypadku wykorzystywania. Tymczasem Bing Chat podlega surowszym ograniczeniom. Chociaż pomagają zwalczać próby wykorzystania, utrudniają również funkcjonalność. Bing automatycznie zamyka potencjalnie szkodliwe konwersacje.

7. Uprzedzenia AI

Sztuczna inteligencja jest z natury neutralna. Brak preferencji i emocji sprawia, że nie jest w stanie formułować opinii – przedstawia jedynie znane mu informacje. Oto jak ChatGPT reaguje na subiektywne tematy.

Mimo tej neutralności Uprzedzenia AI wciąż powstają. Wynikają one ze wzorców, zestawów danych, algorytmów i modeli używanych przez programistów. Sztuczna inteligencja może być bezstronna, ale ludzie nie.

Na przykład, Instytucja Brookingsa twierdzi, że ChatGPT wykazuje lewicowe uprzedzenia polityczne. OpenAI oczywiście zaprzecza tym zarzutom. Ale aby uniknąć podobnych problemów z nowszymi modelami, ChatGPT całkowicie unika opiniotwórczych wyników.

Podobnie Bing Chat unika delikatnych, subiektywnych spraw.

Oceń uprzedzenia sztucznej inteligencji, zadając otwarte pytania oparte na opiniach. Rozmawiaj na tematy, na które nie ma dobrych ani złych odpowiedzi — mniej wyrafinowane chatboty prawdopodobnie będą prezentować bezpodstawne preferencje w stosunku do określonych grup.

8. Bibliografia

Sztuczna inteligencja rzadko dwukrotnie sprawdza fakty. Po prostu pobiera informacje ze swoich zbiorów danych i przeformułowuje je za pomocą modeli językowych. Niestety, ograniczony trening powoduje halucynacje AI. Nadal możesz używać generatywnych narzędzi sztucznej inteligencji do badań, ale upewnij się, że samodzielnie weryfikujesz fakty. Weź wyjście z przymrużeniem oka.

Bing Chat upraszcza proces sprawdzania faktów, wyświetlając jego referencje po każdym wyjściu.

Bard AI nie wymienia swoich źródeł, ale generuje zaktualizowane, dogłębne wyjaśnienia, uruchamiając zapytania w wyszukiwarce Google. Otrzymasz główne punkty z SERP.

ChatGPT jest podatny na nieścisłości. Odcięcie wiedzy w 2021 r. uniemożliwia odpowiadanie na pytania dotyczące ostatnich wydarzeń i incydentów.

Twórz nowe sposoby testowania dokładności chatbotów

Sztuczna inteligencja to nie wszystko i koniec technologii. Wyrafinowane systemy sztucznej inteligencji i modele językowe dokonują imponujących wyczynów, ale jednocześnie popełniają błędy i niespójności. Zobacz chatboty ze sceptycyzmem. Z platform opartych na sztucznej inteligencji możesz korzystać tylko wtedy, gdy rozumiesz ich funkcje i ograniczenia.

Chociaż istnieją dziesiątki chatbotów na różnych platformach, ich niezawodność i precyzja mogą Cię rozczarować. Stracisz tylko czas na ich testowanie. Aby zapewnić wysokiej jakości wyniki, sugerujemy skupienie się na trzech najbardziej niezawodnych modelach na rynku: ChatGPT, Bing AI i Google Bard.

About Technology - denizatm.com

8 kluczowych czynników, które należy wziąć pod uwagę podczas testowania chatbotów AI pod kątem dokładności

1. liczenie

2. Zrozumienie

3. Aktualność

4. Znaczenie

5. Pamięć kontekstowa

6. Ograniczenia bezpieczeństwa

7. Uprzedzenia AI

8. Bibliografia

Twórz nowe sposoby testowania dokładności chatbotów

Kategorie

Recent Post

Co to jest lista artystów? Wszystko, co musisz wiedzieć o tej platformie licencjonowania muzyki

Jak znaleźć, zainstalować i zarządzać rozszerzeniami w Chrome, Edge i Vivaldi

Jak stworzyć awatara na TikTok