Rozpoznawanie głosu jest niesamowite, ale jak stało się tak dobre?

Technologia rozpoznawania głosu ma bogatą historię rozwoju, która doprowadziła ją do tego, czym jest dzisiaj. To sedno współczesnego życia, dające nam możliwość wykonywania zadań po prostu przez rozmowę z urządzeniem. Jak więc ta zdumiewająca technologia ewoluowała przez lata? Spójrzmy.

1952: System Audrey

Pierwszy krok w rozpoznawaniu głosu nastąpił na początku lat pięćdziesiątych. Bell Laboratories opracowało pierwszą maszynę, która mogła zrozumieć ludzki głos w 1952 roku i nazwano ją Systemem Audrey. Imię Audrey było swego rodzaju skróceniem frazy Automatyczne rozpoznawanie cyfr. Chociaż była to poważna innowacja, miała pewne poważne ograniczenia.

Co najważniejsze, Audrey potrafiła rozpoznać tylko cyfry od 0 do 9, bez słów. Audrey przekazywała informację zwrotną, gdy mówca wypowiadał liczbę, zapalając 1 z 10 żarówek, z których każda odpowiadała cyfrze.

Źródło obrazu: metamorworks/Shutterstock.com

Chociaż potrafiła zrozumieć liczby z 90% dokładnością, Audrey ograniczała się do określonego typu głosu. Dlatego jedyną osobą, która naprawdę z niego skorzysta, był HK Davis, jeden z deweloperów. Po wypowiedzeniu liczby mówca musiałby odczekać co najmniej 300 milisekund przed wypowiedzeniem kolejnej.

instagram viewer

Nie tylko był ograniczony pod względem funkcjonalności, ale także miał ograniczoną użyteczność. Maszyna, która potrafiła zrozumieć tylko liczby, nie była zbyt przydatna. Jednym z możliwych zastosowań było wybieranie numerów telefonów, ale znacznie szybciej i łatwiej było wybierać numery ręcznie. Chociaż Audrey nie miała wdzięcznej egzystencji, nadal stanowi wielki kamień milowy w ludzkich osiągnięciach.

Związane z: Jak korzystać z pisania głosowego w programie Microsoft Word

1962: Pudełko na buty IBM

Dziesięć lat po Audrey IBM spróbował swoich sił w opracowaniu systemu rozpoznawania głosu. Na Światowych Targach w 1962 roku IBM zaprezentował system rozpoznawania głosu o nazwie Showbox. Podobnie jak Audrey, jego głównym zadaniem było rozumienie cyfr od 0 do 9, ale potrafił również zrozumieć sześć słów: plus, minus, fałsz, suma, suma częściowa i wyłączony.

Shoebox był maszyną matematyczną, która potrafiła rozwiązywać proste zadania arytmetyczne. Jeśli chodzi o opinie, zamiast świateł Shoebox mógł wydrukować wyniki na papierze. Dzięki temu był przydatny jako kalkulator, chociaż mówca nadal musiałby robić pauzy między każdą liczbą/słowem.

1971: Automatyczna identyfikacja połączeń IBM

Po Audrey i Shoebox inne laboratoria na całym świecie opracowały technologię rozpoznawania głosu. Jednak dopiero w latach 70. XX wieku IBM wprowadził na rynek pierwszy w swoim rodzaju wynalazek. Nazwano go systemem automatycznej identyfikacji połączeń. Był to pierwszy system rozpoznawania głosu zastosowany w systemie telefonicznym.

Inżynierowie dzwonili i podłączali się do komputera w Raleigh w Północnej Karolinie. Dzwoniący następnie wypowiadał jedno z 5000 słów ze swojego słownika i otrzymywał „wypowiedzianą” odpowiedź jako odpowiedź.

Związane z: Jak korzystać z dyktowania głosu na komputerach Mac

1976: Harpia

Na początku lat 70. rozpoznawaniem głosu zainteresował się Departament Obrony USA. DARPA (Agencja Zaawansowanych Projektów Badawczych Obrony) opracowała w 1971 r. program badań rozumienia mowy (SUR). Program ten zapewnił finansowanie kilku firmom i uniwersytetom w celu wsparcia badań i rozwoju w zakresie rozpoznawania głosu.

W 1976 roku, dzięki SUR, Carnegie Mellon University opracował system Harpy. To był duży skok w technologii rozpoznawania głosu. Do tego momentu systemy były w stanie zrozumieć słowa i liczby, ale Harpia była wyjątkowa pod tym względem, że mogła zrozumieć pełne zdania.

Miał słownictwo liczące zaledwie około 1011 słów, co według publikacji autorstwa B. Lowerre i R. Reddy, równa się ponad bilionowi różnych możliwych zdań. Publikacja stwierdza następnie, że Harpia mogła zrozumieć słowa z dokładnością do 93,77%.

Lata 80. były kluczowym czasem dla technologii rozpoznawania głosu, ponieważ jest to dekada, w której głos technologii rozpoznawania, ponieważ była to dekada, w której poznaliśmy metodę ukrytego Markowa (HMM). Główną siłą napędową HMM jest: prawdopodobieństwo.

Za każdym razem, gdy system rejestruje fonem (najmniejszy element mowy), istnieje pewne prawdopodobieństwo, jaki będzie następny. HMM wykorzystuje te prawdopodobieństwa, aby określić, który fonem najprawdopodobniej pojawi się jako następny i utworzy najbardziej prawdopodobne słowa. Większość dzisiejszych systemów rozpoznawania głosu nadal używa HMM do rozumienia mowy.

Lata 90.: Rozpoznawanie głosu dociera na rynek konsumencki

Odkąd powstała koncepcja technologii rozpoznawania głosu, firma była w podróży, aby znaleźć miejsce na rynku konsumenckim. W latach 80. IBM zaprezentował prototyp komputera, który potrafił dyktować mowę na tekst. Jednak dopiero na początku lat 90. ludzie zaczęli widzieć takie aplikacje w swoich domach.

W 1990 roku firma Dragon Systems wprowadziła pierwsze oprogramowanie do dyktowania mowy na tekst. Nazywał się Dragon Dictate i został pierwotnie wydany dla systemu Windows. Ten program o wartości 9000 dolarów był rewolucyjny, jeśli chodzi o udostępnienie masom technologii rozpoznawania głosu, ale był jeden błąd. Użyte oprogramowanie dyskretne dyktando, co oznacza, że użytkownik musi zrobić pauzę między każdym słowem, aby program mógł je pobrać.

W 1996 roku IBM ponownie przyczynił się do rozwoju branży dzięki firmie Medspeak. Był to również program do dyktowania mowy na tekst, ale nie cierpiał z powodu dyskretnego dyktowania, jak zrobił to Dragon Dictate. Zamiast tego program ten mógł dyktować ciągłą mowę, co czyniło go bardziej atrakcyjnym produktem.

Związane z: Jak korzystać z Asystenta Google ze słuchawkami

2010: Dziewczyna o imieniu Siri

W ciągu 2000 roku popularność technologii rozpoznawania głosu rosła. Został wdrożony w większej liczbie oprogramowania i sprzętu niż kiedykolwiek wcześniej, a jednym z kluczowych kroków w ewolucji rozpoznawania głosu był Siri, cyfrowy asystent. W 2010 roku firma Siri wprowadziła wirtualnego asystenta jako aplikację na iOS.

W tamtym czasie Siri było imponującym oprogramowaniem, które mogło dyktować, co mówi mówca, i dawać wykształconą i dowcipną odpowiedź. Ten program był tak imponujący, że Apple przejął firmę w tym samym roku i poddał Siri trochę remontu, popychając go w kierunku cyfrowego asystenta, którego znamy dzisiaj.

To dzięki Apple Siri otrzymał swój kultowy głos (głos Susan Benett) i wiele nowych funkcji. To używa przetwarzanie języka naturalnego do sterowania większością funkcji systemu.

Lata 2010: Wielka czwórka cyfrowych asystentów

W tej chwili czterech dużych cyfrowych asystentów dominuje w rozpoznawaniu głosu i dodatkowym oprogramowaniu.

Siri jest obecny w prawie wszystkich produktach Apple: iPhone'ach, iPodach, iPadach i komputerach z rodziny Mac.
Asystent Google jest obecny na większości z ponad 3 miliardów urządzeń z Androidem dostępnych na rynku. Ponadto użytkownicy mogą korzystać polecenia w wielu usługach Google, np. Google Home.
Amazonka Alexa nie ma wiele dedykowanej platformy, na której mieszka, ale nadal jest wybitnym asystentem. Można go pobrać i używać na urządzeniach z Androidem i urządzeniach Apple. a nawet wybierz laptopy Lenovo
Bixby to najnowszy wpis na liście asystentów cyfrowych. To domowy cyfrowy asystent Samsunga, obecny wśród telefonów i tabletów firmy.

Historia mówiona

Rozpoznawanie głosu przeszło długą drogę od czasów Audrey. Osiąga wielkie zyski na wielu polach; na przykład według Wyczyść mostek mobilny, dziedzina medyczna skorzystała z chatbotów obsługiwanych głosem podczas pandemii w 2020 roku. Rozpoznawanie głosu okazuje się być jedną z najbardziej użytecznych technologii naszych czasów, od umiejętności rozumienia tylko liczb po rozumienie różnych odmian pełnych zdań.

UdziałĆwierkaćE-mail

Jak działa rozpoznawanie głosu?

Cały czas używamy rozpoznawania głosu, ale jak to działa?

Czytaj dalej

Powiązane tematy

Wyjaśnienie technologii
Siri
Asystent Google
Aleksa
Bixby
Komendy głosowe

O autorze

Artur Brown (31 opublikowanych artykułów)

Arthur jest dziennikarzem technicznym i muzykiem mieszkającym w Ameryce. Jest w branży od prawie dekady, pisząc do publikacji online, takich jak Android Headlines. Ma głęboką wiedzę na temat Androida i ChromeOS. Oprócz pisania artykułów informacyjnych jest również biegły w zgłaszaniu nowości technicznych.

Więcej od Arthura Browna

Zapisz się do naszego newslettera

Dołącz do naszego newslettera, aby otrzymywać porady techniczne, recenzje, bezpłatne e-booki i ekskluzywne oferty!

Kliknij tutaj, aby zasubskrybować

About Technology - denizatm.com

Rozpoznawanie głosu jest niesamowite, ale jak stało się tak dobre?

1952: System Audrey

1962: Pudełko na buty IBM

1971: Automatyczna identyfikacja połączeń IBM

1976: Harpia

Lata 90.: Rozpoznawanie głosu dociera na rynek konsumencki

2010: Dziewczyna o imieniu Siri

Lata 2010: Wielka czwórka cyfrowych asystentów

Historia mówiona

Zapisz się do naszego newslettera

Kategorie

Recent Post

Jak podłączyć cztery urządzenia HDMI do telewizora HD z tylko DWOMA portami HDMI?

Czy ktoś może zasugerować kryptowaluty inne niż Bitcoin lub Litecoin?

Czy mogę odzyskać zdjęcia z mojego zgubionego iPhone'a za pomocą funkcji Photostream?