Wykrywanie fraz to tylko część procesu.
Krzyk „Ok Google” z drugiego końca pokoju, aby zmienić muzykę lub wyłączyć światła w pokoju, na pewno się spodoba niewiarygodne, ale ten pozornie prosty proces jest napędzany przez skomplikowaną sieć technologii sceny.
Prawie każdy większy wirtualny asystent na rynku ma frazę wywołującą, której używasz, aby obudzić asystenta i rozpocząć rozmowę. Ale skąd asystenci głosowi wiedzą, kiedy do nich mówisz?
Jak działa wykrywanie fraz?
Jak wspomniano powyżej, każdy asystent głosowy ma „frazę wyzwalającą” lub słowo budzenia, którego używasz, aby obudzić asystenta i wydać dalsze polecenia. Proces wykrywania tej frazy jest mniej więcej taki sam dla każdego asystenta, z wyjątkiem drobnych niuansów. To powiedziawszy, te niuanse mogą oznaczać różnicę między przypadkowym wypowiedzeniem polecenia budzenia a wielokrotnym wykrzykiwaniem razy tylko po to, aby asystent spał, co czasami może być naprawdę denerwujące, zwłaszcza jeśli tak jest używając asystenta głosowego, aby się uspokoić.
Ogólnie rzecz biorąc, większość „inteligentnych” głośników ma mały obwód, którego jedynym zadaniem jest wykrycie polecenia budzenia, a następnie uruchomienie reszty sprzętu. Większość przetwarzania odbywa się w chmurze, ale wykrywanie fraz odbywa się na urządzeniu z oczywistych względów związanych z ochroną prywatności. Wykrywanie fraz na telefonach działa mniej więcej w ten sam sposób.
Szczegóły są w większości tajne, ale te systemy wykrywania wykorzystują uczenie maszynowe i głębokie sieci neuronowe (DNN) do trenowania modeli AI w celu wykrycia Twojego głosu i utworzenia klucza. Ten klucz jest następnie używany do sprawdzenia, kiedy wypowiedziałeś określoną frazę, a wszystko inne jest wysyłane do chmury w celu dalszego przetwarzania.
Asystent Google
Telefony obsługujące wykrywanie „OK Google” zwykle są wyposażone w system rozpoznawania słów kluczowych (KWS), który wykrywa frazę, a następnie przesyła resztę zapytania do chmury. Ponieważ urządzenia mobilne mają ograniczoną moc obliczeniową, a także ograniczenia dotyczące żywotności baterii, systemy te zwykle nie są tak dobre, jak te, które można znaleźć w głośnikach Google Nest.
Ten system KWS na urządzeniu stale odbiera dźwięk z mikrofonów urządzenia i inicjuje połączenie z serwerem, gdy wykryje frazę wyzwalającą. Google korzysta również z kontekstowego automatycznego rozpoznawania mowy (ASR) po stronie serwera, aby poprawić ogólną dokładność swojego systemu KWS. Więcej na ten temat można przeczytać w Dokument badawczy Google [PDF].
Siri
Siri działa tak samo jak Asystent Google w zakresie wykrywania „Hej, Siri”. Apple było zaskakująco otwarte na to, jak działa system, który obejmuje „bardzo mały” aparat do rozpoznawania mowy, który działa w tle i nasłuchuje tylko tych dwóch słów. Ten detektor wykorzystuje DNN do konwersji wzorca akustycznego twojego głosu zarejestrowanego w każdym przypadku na rozkład prawdopodobieństwa dźwięków mowy, zasadniczo generując wynik pewności.
Twój iPhone lub Apple Watch robi to, zmieniając Twój głos w strumień próbek falowych z szybkością 16 000 na sekundę. Jest to następnie przycinane do sekwencji klatek obejmujących widmo dźwięku o długości około 0,01 sekundy. Następnie łącznie 20 z tych ramek jest przekazywanych do modelu wykrywania, który przekształca te wzorce w prawdopodobieństwo.
Jeśli system stwierdzi z wystarczającą pewnością, że powiedziałeś „Hej, Siri”, Siri obudzi się i wyśle resztę zapytania do chmury, gdzie ma miejsce dalsza analiza i jakakolwiek akcja, o którą prosiłeś, zostanie wykonana wykonane.
Oczywiście dodano dodatkowe środki, aby zapewnić wydajność pamięci i baterii. Procesor Always On Processor (AOP) Twojego iPhone'a ma właśnie z tego powodu dostęp do mikrofonów urządzenia (w telefonie iPhone 6S i nowszych), a niewielka część jego mocy obliczeniowej jest zarezerwowana do obsługi DNN. Apple zagłębia się w cały system na swojej stronie poświęconej uczeniu maszynowemu, uczenie maszynowe.apple.
Alexa
Podobnie jak Google Assistant i Siri, Alexa również nie mieści większości swojej mocy obliczeniowej w żadnym z głośników Echo, które można kupić. Zamiast tego głośniki używają tego, co Amazon nazywa automatycznym rozpoznawaniem mowy (ASR), które zasadniczo konwertuje wypowiadane słowa na tekst, umożliwiając systemowi ich interpretację i odpowiednie działanie.
ASR stanowi podstawową podstawę działania Alexy. Po raz kolejny istnieje system pokładowy, który nasłuchuje słów budzących, w tym przypadku „Alexa”, „Amazon”, „Echo” lub „Komputer” i wyzwala resztę systemu, gdy słowo budzenia określone przez użytkownika wykryte. Możesz nawet obudź swoje urządzenie Alexa za pomocą „Hej Disney” Jeśli chcesz.
Podobnie jak Asystent Google, możesz trenować podstawowy model sztucznej inteligencji Alexy, aby lepiej wykrywał Twój głos. Proces ten polega na utworzeniu „klucza” linii bazowej, z którym porównywane jest wypowiadane słowo budzenia, a po znalezieniu dopasowania urządzenie odpowiednio reaguje.
Czy asystenci głosowi zawsze słuchają?
Jak zapewne już się domyślacie, tak, są. W inny sposób nie byliby w stanie wykryć słów budzących. Jednak nie musisz jeszcze wyrzucać wszystkich swoich inteligentnych głośników ze względu na obawy dotyczące prywatności.
Słuchanie wszystkiego, co mówią użytkownicy, wysyłanie tego z powrotem na zdalny serwer i analizowanie (lub przechowywanie). wymaga ogromnych zasobów sprzętowych i finansowych do tego stopnia, że nie ma to praktycznego sensu perspektywiczny. Dodaj do tego ogromne obawy dotyczące prywatności, z którymi firmy takie jak Google, Apple i Amazon już sobie radzą, a pomysł nie ma sensu.
Ma to również ogromny wpływ na wydajność telefonów i żywotność baterii dzięki funkcjom wykrywania słów budzących, w szczególności Google Pixels i iPhone'om. Jeśli Twój telefon ciągle słucha tego, co mówisz i wysyła ten dźwięk z powrotem do zdalnego serwera, spowoduje to wyczerpanie baterii i spadek wydajności urządzenia.
Kto ma najskuteczniejsze wykrywanie fraz i dlaczego?
Nie jest łatwo obiektywnie porównać, który wirtualny asystent ma najlepsze obiektywne wykrywanie fraz, ponieważ wszyscy używają nieco różnych implementacji tej samej ogólnej koncepcji. Wydaje się jednak, że Google ma bardziej spójne wykrywanie fraz dzięki wyprzedzającemu Asystentowi Google w porównaniu z Siri i Alexą.
Mimo że aplikacje korzystające z dużych modeli językowych (LLM), takie jak ChatGPT i Bing Chat, stają się głównym nurtem, Asystent Google utrzymuje swoją pozycję jednego z najbardziej popularnych wirtualnych asystentów po prostu dlatego, że wystarczy jedno dotknięcie na każdym urządzeniu z Androidem, od inteligentnych telewizorów po samochodowe systemy stereo i oczywiście smartfony.
Siri i Alexa mają trochę do nadrobienia w tym dziale, ale jeśli chodzi o wykrywanie fraz, nie są tak daleko. Mimo to będziesz mieć większą szansę na obudzenie Asystenta Google na swoim Pixelu z drugiego końca pokoju niż z Siri na iPhonie, chociaż możesz zwiększ możliwości Siri dzięki trybowi Super Siri. Ponieważ Alexa jest najczęściej używana w linii głośników Echo firmy Amazon, ma tutaj niewielką przewagę, biorąc pod uwagę, że te głośniki są zaprojektowane tak, aby mogły odbierać głos użytkownika.
Sztuczna inteligencja jest równie straszna, co wygodna
Przywołanie asystenta AI za pomocą głosu może być całkiem przydatne. W przypadku funkcji, która bezproblemowo integruje się z naszym życiem, wiele dzieje się za kulisami, o których większość z nas często nie myśli.
To powiedziawszy, ta wygoda niesie ze sobą również niepokój związany z urządzeniem, które zawsze słucha tego, co mówisz. Jak dotąd rozpoznawanie mowy na urządzeniu i słowa budzenia stoją między tym, co słyszy Twój wirtualny asystent, a tym, co mówisz.