OpenAI umożliwiło ChatGPT mówienie syntetyzowanym głosem i wkrótce będzie dostępne na Twoim smartfonie.

ChatGPT ma stać się interaktywnym, generatywnym doświadczeniem AI. OpenAI ujawniło, że wiodący na świecie chatbot AI będzie mógł mówić i odpowiadać na zapytania użytkowników za pomocą syntetycznego głosu, prawdopodobnie wygenerowanego przez sztuczną inteligencję.

Oprócz nowego głosu ChatGPT będzie także w stanie odpowiadać i omawiać określone obrazy przesłane do niego lub zrobione podczas korzystania z aplikacji ChatGPT na Androida lub iOS. Funkcja rozpoznawania obrazu brzmi podobnie do Google Lens i innych aplikacji korzystających z sieci neuronowych do dokładnego wykrywania danych i informacji.

OpenAI daje ChatGPT głos

25 września 2023 r. programista ChatGPT Ujawniono OpenAI dałoby głos jego wiodącemu na świecie generatywnemu chatbotowi AI. Użytkownicy ChatGPT mogą rozmawiać bezpośrednio z chatbotem i prosić go o odpowiedź, dzięki czemu ChatGPT po raz pierwszy może bezpośrednio rozmawiać bezpośrednio za pomocą głosu.

Przykładowy klip OpenAI przedstawia kobietę proszącą ChatGPT o stworzenie wyjątkowej historii na dobranoc, na którą ChatGPT należycie odpowiada syntetycznym żeńskim głosem.

Według Przewodowynowy model zamiany tekstu na mowę został opracowany we własnym zakresie. Może generować „ludzki” dźwięk z tekstu i kilku sekund próbki mowy (przy użyciu modelu OpenAI Whisper) i mówić różnymi tonami i stylami. Na stronie można znaleźć wiele próbek głosu Blog OpenAI.

Niektóre firmy już wykorzystują nowy model głosu OpenAI. Na przykład Spotify wykorzystuje model zamiany tekstu na mowę OpenAI do tłumaczenia podcastów na różne języki, łącząc możliwości ChatGPT w zakresie tłumaczenia językowego z nową możliwością mówienia.

Nowy model zamiany tekstu na mowę ChatGPT jest dostępny tylko dla abonentów Plus i Enterprise korzystających z oficjalnego Androida i iOS, a ich wprowadzenie ma nastąpić w ciągu najbliższych dwóch tygodni (począwszy od 25 września 2023). Co więcej, nowa funkcja głosowa jest początkowo ograniczona do języka angielskiego, chociaż spodziewamy się, że to się szybko zmieni.

ChatGPT może rozpoznawać i analizować obrazy i zdjęcia

Drugą częścią aktualizacji ChatGPT OpenAI jest możliwość analizowania i omawiania obrazów przesłanych do narzędzia. Opcja wizualnej analizy obrazu została przedstawiona w filmach poświęconych aktualizacji GPT-4, ale od tego czasu nie była zbyt szeroko omawiana (Pomijając interpreter kodu ChatGPT).

Teraz ChatGPT zyskuje funkcjonalność podobną do Google Lens. Możesz przesłać obraz do ChatGPT lub zrobić zdjęcie za pomocą aparatu w smartfonie w aplikacji ChatGPT, a to wyszczególni obraz, dodając w razie potrzeby więcej kontekstu.

Nazywanie go „podobnym do Google Lens” jest naprawdę niesprawiedliwe. Możliwość rozmów na temat obrazu w celu uzyskania większej ilości informacji i kontekstu sprawia, że ​​jest on niezwykle przydatny w przypadku szerokiego zakresu ustawień. Należy jednak zwrócić uwagę na drobny druk, gdyż OpenAI jasno wyjaśnia, że ​​ogranicza „zdolność ChatGPT do analizowania i składania bezpośrednich oświadczeń na temat ludzi” ze względu na prywatność i dokładność. Czy jednak narzędzie „Kto to jest” oparte na OpenAI może pojawić się w przyszłości? (Miejmy nadzieję, że nie!)

Podobnie jak nowy model zamiany tekstu na mowę, OpenAI wprowadzi funkcję rozpoznawania obrazów w ciągu najbliższych dwóch tygodni, choć będzie ona dostępna na wszystkich platformach, a nie tylko w aplikacji ChatGPT.

Prywatność, bezpieczeństwo i inne kwestie

Konsekwencje obsługi głosowej ChatGPT są surowe. Jasne, to ekscytujące. Jednakże możliwość stworzenia unikalnie zsyntetyzowanego głosu na podstawie zaledwie krótkiego fragmentu jako przykładu wiąże się ze znacznymi problemami związanymi z prywatnością i bezpieczeństwem. Potencjał złośliwych aktorów w zakresie wykorzystania tych narzędzi jest ogromny i jak w przypadku każdego narzędzia generatywnej sztucznej inteligencji, gdy dżin wyjdzie z butelki, absolutnie nie wróci. Żadna ilość regulacji dotyczących sztucznej inteligencji wydawanych przez rządy lub czołowych przywódców nie jest w stanie odwrócić tej fali.

Nawet ostrzeżenie OpenAI na ten temat wydaje się omijać oczywistości, pomimo wzmianki o problemach:

Możliwości te wiążą się jednak również z nowymi zagrożeniami, takimi jak możliwość podszywania się przez złośliwe podmioty pod osoby publiczne lub popełniania oszustw. Właśnie dlatego używamy tej technologii do obsługi konkretnego przypadku użycia — czatu głosowego.

Biorąc pod uwagę, że to wierzchołek góry lodowej, spodziewaj się sprzeciwu wobec nowo odkrytego głosu ChatGPT, szczególnie raz istnieje przewidywalny wzrost niesmacznych nagłówków twierdzących, że ChatGPT jest wykorzystywany do popełniania oszustw i dlatego NA.

OpenAI sprawia, że ​​ChatGPT staje się aplikacją AI typu Go-To

Im więcej OpenAI dodaje przyjazne dla użytkownika funkcje do ChatGPT, tym bardziej staje się to popularną aplikacją generującą sztuczną inteligencję. Jako pierwszy, który zyskał powszechną sławę podczas początkowego boomu generatywnej sztucznej inteligencji, ChatGPT nadal jest liderem i jest tylko aplikacja w pewnym stopniu przydatna, pomimo konkurencji ze strony takich firm jak Google Bard (i potencjalnie Google Gemini) i Anthropic's Klaudiusz.

Tak długo, jak OpenAI będzie mogło nadal dodawać funkcje ułatwiające korzystanie z ChatGPT, będzie przyciągać ludzi i coraz bardziej przybliżać się do celu, jakim jest prawdziwie multimodalne narzędzie AI.