Google opublikował kod źródłowy kodeka audio Lyra w wersji beta na GitHub, udostępniając wszystkim programistom niesamowitą jakość przetwarzania dźwięku o niskiej przepływności. Kodek jest najbardziej przydatny w sytuacjach osadzonych i ograniczonych przepustowości, w których należy zapisać jak najwięcej danych.
Lyra: Prawie nic nigdy nie brzmiało tak dobrze
Kodek audio działa na zasadzie dostarczania najbardziej naturalnie brzmiącej mowy przy możliwie najniższej szybkości transmisji danych. Udaje mu się stworzyć niemal niesamowity poziom reprodukcji dźwięku przy szybkości transmisji zaledwie 3 kb / s. Google używa kompresji Lyra w czasie rzeczywistym już w swojej aplikacji Duo, chociaż nie byłbyś winiony za to, że nawet nie zdawałeś sobie sprawy z różnicy w stosunku do zwykłego dźwięku o przepustowości.
Aby zademonstrować, o ile lepsza jest Lyra od innych kodeków, Google podaje przykłady za pośrednictwem pliku post na blogu porównanie kodeka kompresji opartego na uczeniu maszynowym z innymi alternatywami 3 i 6 kb / s.
To różnica jak noc w dzień, a udostępnienie programistom na całym świecie tych narzędzi będzie znaczącym czynnikiem poprawiającym jakość komunikacji tam, gdzie przepustowość jest ograniczona. Jest to również doskonała motywacja dla programistów, którzy chcą tworzyć nowe aplikacje na wschodzących rynkach, co Google z pewnością uwzględni w tegorocznym bezpłatna wirtualna konferencja online Google I / O.
Kod źródłowy beta jest obecnie projektowany z myślą o 64-bitowych urządzeniach Arm, chociaż przykłady będą również działać na 64-bitowych systemach x86 Linux. Kod źródłowy jest dostarczany w pełni udokumentowany, chociaż jest w wersji beta, a strona GitHub zawiera instrukcje instalacji i instrukcje tworzenia Lyry w systemie Linux dla 64-bitowych celów Arm.
Aby uzyskać kod źródłowy Lyra w wersji beta, przejdź do Strona Lyra GitHub.
Jak działa Lyra?
Chociaż rzeczywisty proces, którego używa Lyra, to niezwykle złożona kombinacja wyszkolonych modeli uczenia maszynowego tysiące godzin danych mowy i optymalizacji istniejącej technologii kodeków audio, teoria jest całkiem niezła prosty.
Co 40 ms funkcje są pobierane z mowy i kompresowane do 3 kb / s. Te cechy reprezentują punkty energii mowy w całym spektrum częstotliwości najbliżej ludzkiej reakcji słuchowej mowy - rzeczy, które musimy rozpoznać i zrozumieć, gdy ktoś mówi.
Kluczową częścią tego, co sprawia, że Lyra jest wyjątkowa, jest sposób, w jaki wykorzystuje te informacje:
Jednak tradycyjne kodeki parametryczne, które po prostu wyodrębniają parametry krytyczne dla mowy, które mogą być wtedy używane do odtwarzania sygnału na końcu odbiorczym, osiągają niskie szybkości transmisji, ale często brzmią jak roboty i nienaturalnie. Te niedociągnięcia doprowadziły do opracowania nowej generacji wysokiej jakości modeli generujących dźwięk zrewolucjonizował dziedzinę, będąc w stanie nie tylko rozróżniać sygnały, ale także generować zupełnie nowe jedynki.
Po transmisji Lyra odbudowuje przebieg, wypełniając to, czego brakuje, za pomocą tego procesu, jednocześnie nie będąc zbyt skomplikowaną obliczeniowo.
Z jednej strony to technologiczny cud, który będzie działał prawie wszędzie. Z drugiej strony, nadal nie jestem w 100% przekonany, że to nie czary.
Google Duo to jedna z najlepszych aplikacji do rozmów wideo. Ma wiele funkcji, a oto te, z których uważamy, że naprawdę powinieneś używać.
Czytaj dalej
- Wiadomości techniczne
- Android
- Nauczanie maszynowe

Ian Buckley jest niezależnym dziennikarzem, muzykiem, performerem i producentem wideo mieszkającym w Berlinie w Niemczech. Kiedy nie pisze ani nie występuje na scenie, majstruje przy elektronice lub kodowaniu dla majsterkowiczów w nadziei, że zostanie szalonym naukowcem.
Zapisz się do naszego newslettera
Dołącz do naszego biuletynu, aby otrzymywać wskazówki techniczne, recenzje, bezpłatne e-booki i ekskluzywne oferty!
Jeszcze jeden krok…!
Potwierdź swój adres e-mail w wiadomości e-mail, którą właśnie wysłaliśmy.