Whisper OpenAI to nowe rozwiązanie oparte na sztucznej inteligencji, które może zamienić Twój głos w tekst. Najlepsze jest to, że odbywa się to za zerową cenę.
Jest jednak pewien haczyk: instalacja i użytkowanie jest trudniejsze niż przeciętne narzędzie Windows. Zwłaszcza jeśli chcesz użyć rdzeni Tensorowych procesora graficznego Nvidia, aby nadać mu niezłe przyspieszenie.
Nie martw się jednak. Dlatego tu jesteśmy! Czytaj dalej, aby dowiedzieć się, jak go zainstalować i używać, a także, jeśli go posiadasz, aby Whisper mógł korzystać z Twojego procesora graficznego Nvidia.
Co to jest szept OpenAI?
ChatGPT jest obecnie w modzie i już to widzieliśmy jak możesz korzystać z ChatGPT przez OpenAI. A jednak to nie jedyny ciekawy projekt OpenAI.
Oparty na głębokim uczeniu się i sieciach neuronowych Whisper to system przetwarzania języka naturalnego, który może „rozumieć” mowę i zapisywać ją w tekście. Ale to także coś własnego, siedzącego w miejscu wśród wszystkich podobnych rozwiązań:
- Whisper to rozwiązanie AI „wyszkolone” w zakresie języka naturalnego. Lepiej więc rozumie „normalną” ludzką mowę niż starsze rozwiązania.
- Whisper nie ma interfejsu ani nie może nagrywać dźwięku. Może pobierać tylko istniejące pliki audio i wyjściowe pliki tekstowe.
- Ponieważ jest dobry w „zrozumieniu języka”, Whisper ma również supermoc automatycznego tłumaczenia w jednym kroku.
- Whisper nie jest usługą online i może działać całkowicie offline.
- Jeśli masz stosunkowo nowoczesny procesor graficzny Nvidia (GTX970 lub nowszy), Whisper może działać w „trybie przyspieszenia sprzętowego”, aby zwiększyć jego szybkość.
- Nie ma wymogu rejestracji, zakupu licencji ani zakupu subskrypcji.
Dlaczego procesory graficzne AMD nie są obsługiwane?
Aby GPU były przydatne nie tylko do grafiki, musiałyby działać jako w pełni programowalne procesory. Dlatego Nvidia stworzyła CUDA, oficjalnie uznaną za „równoległą platformę obliczeniową i model programowania”. Aby dowiedzieć się więcej o CUDA i powiązanym sprzęcie („rdzeniach CUDA”), przeczytaj nasz artykuł na temat czym są rdzenie CUDA i jak usprawniają gry komputerowe.
CUDA to zastrzeżona technologia Nvidia, kompatybilna tylko z procesorami graficznymi Nvidia. Najbliższe alternatywy dla sprzętu AMD to OpenCL i Radeon Compute Platform. Aby dowiedzieć się więcej o porównaniu rozwiązań każdej firmy, zapoznaj się z naszym artykułem na temat Jednostki obliczeniowe AMD vs. Rdzenie Nvidia CUDA.
W porównaniu z alternatywami, CUDA jest uważana za bardziej dojrzałą, wydajniejszą i łatwiejszą w użyciu. Dlatego większość programistów celuje tylko w CUDA, co z kolei oznacza, że ich oprogramowanie wykorzystuje tylko funkcje sprzętowe procesorów graficznych Nvidia. Obejmuje to Whisper.
Jak pobrać i zainstalować Whisper
Niestety Whisper nie jest samodzielną aplikacją, którą można pobrać, zainstalować i uruchomić. Opiera się na innym oprogramowaniu, które również należy zainstalować.
W systemie Windows, aby ten przewodnik był prosty, będziemy intensywnie używać Chocolatey do instalowania większości niezbędnych części oprogramowania. Sprawdź nasz przewodnik dot najszybszy sposób instalacji oprogramowania Windows Więcej informacji o Chocolatey.
W przypadku systemów Linux i Mac proces instalacji (z wyłączeniem zmiennej ścieżki systemu Windows i łatwych w użyciu plików wsadowych, które utworzymy) powinien być podobny.
- Aby zainstalować i używać Whisper, musisz go mieć Pyton i jego PYPEĆ narzędzie zainstalowane i dodane do zmiennej „Ścieżka” systemu Windows. Więcej informacji na ten temat znajdziesz w naszym artykule pt jak zainstalować Python PIP w systemach Windows, Mac i Linux.
- zainstalować FFMPEG przez Chocolatey za pomocą tego polecenia:
Zainstaluj także jego wersję Pythona za pomocą:czekolada zainstalować ffmpeg
pip3 zainstalować python-ffmpeg
- Na koniec zainstaluj Whisper ze strony Github za pomocą:
pip3 zainstaluj git + https://github.com/openai/whisper.git
Pobieranie wersji Whisper obsługującej CUDA
Chociaż Whisper nie korzysta z procesorów graficznych Nvidia, latarka pakiet, na którym polega, oferuje wersję z akceleracją CUDA. Używanie tego zamiast „zwykłej” wersji może pomóc Whisper w znacznie szybszym ukończeniu transkrypcji za pomocą procesora graficznego Nvidia.
Aby Whisper używał rdzeni CUDA twojego procesora graficznego Nvidia:
- Jeśli masz już zainstalowaną wersję „waniliową” latarki, odinstaluj i usuń jej pozostałości za pomocą:
Po zakończeniu wykonaj następujące czynności:pip3 odinstalować latarka
pypeć Pamięć podręcznaoczyszczać
- Zainstaluj wersję palnika obsługującą CUDA za pomocą:
pip3 zainstalować latarka torchvision torchaudio --extra-index-url https://download.pytorch.org/whl/cu117
- Aby sprawdzić, czy Whisper może korzystać z Twojego procesora graficznego Nvidia, użyj:
Powinieneś zobaczyć (domyślnie: cuda) zamiast (domyślnie: procesor).szept --pomoc | findstr -i pytorch
Co zrobić, jeśli instalacja Torch nie powiedzie się
Jeśli podczas instalowania latarki napotkasz błąd „nie znaleziono wersji”, może być konieczne zainstalowanie starszej wersji Pythona równolegle do bieżącej.
Użyj tego polecenia, aby to zrobić:
czekolada zainstalować pyton --wersja STARSZA_WERSJA --obok siebie
Zamień „OLDER_VERSION” na wersję, na przykład 3.10.
Następnie użyj ścieżki wersji dodatkowej dla wszystkich „ogólnych” poleceń Whisper (np. „c:\Python310\Scripts\pip.exe”, a nie tylko „pip”).
Jak nagrać swój głos
Możesz użyć dowolnej aplikacji do nagrywania dźwięku, aby zamienić swój głos w plik WAV lub MP3. System Windows zawiera taką aplikację — aby uzyskać więcej informacji na ten temat, zobacz jak korzystać z aplikacji Dyktafon Windows 10.
Aby uzyskać bardziej w pełni funkcjonalną opcję, spróbuj Śmiałość. Dowiedz się, jak to zrobić, korzystając z naszego przewodnika jak używać Audacity do nagrywania dźwięku w systemach Windows i Mac.
Jak rozpocząć transkrypcję za pomocą Whisper
Chociaż Whisper nie jest wyposażony w przyjazny dla użytkownika graficzny interfejs użytkownika, jego użycie jest niezwykle proste.
Powiedzmy, że mamy plik Najnowsza notatka.mp3 który zawiera mowę w języku greckim, w folderze c:\Moje pliki audioi chcesz przetłumaczyć go na język angielski i dokonać transkrypcji do pliku tekstowego.
- Zaczynamy od biegania Wiersz polecenia Lub PowerShell.
- Za pomocą tego polecenia „zmieniamy katalog”, w którym przechowywany jest plik audio:
płyta CD C:\Moje pliki audio
- Uwalniamy Whisper na plik z:
szept--Modelbaza--językgr--zadanieTłumaczyćNajnowsza uwaga.mp3
Po przetworzeniu plik tekstowy (o nazwie „LatestNote.mp3.txt”) pojawi się w tym samym folderze. Otwórz go w edytorze tekstu, np Notatnik aby wyświetlić przetłumaczony tekst.
Użyliśmy przykładu tłumaczenia, ponieważ angielska transkrypcja jest jeszcze prostsza: wystarczy „zgubić” flagi „--language” i „-task”. Zatem dla zwykłej transkrypcji powyższe polecenie brzmiałoby:
szept--ModelbazaNajnowsza uwaga.mp3
Flaga „model” jest wymagana, ponieważ Whisper używa jednej z różnych opcji. Rozwińmy je, aby pomóc Ci wybrać najlepsze dla Twoich potrzeb.
Który model wybrać?
Whisper oferuje różne modele językowe. Im większy model, tym bardziej poprawiła się jego celność, ale i większe wymagania sprzętowe. Oni są:
- Malutki.
- Baza.
- Mały.
- Średni.
- Duży.
Większość rodzimych użytkowników języka angielskiego powinna sobie z tym poradzić malutki Lub baza modele. Osoby niebędące rodzimymi użytkownikami języka angielskiego mogą uzyskać lepsze wyniki w przypadku większych modeli, np mały I średni.
Należy jednak pamiętać, że średnie i duże modele wymagają ponad 8 GB pamięci VRAM (czyli „pamięci twojego GPU”).
Aby wybrać jeden z nich, podaj model po przełączniku „--model” w poleceniu:
szept --model mały/mały/średni/duży [plik]
Na przykład:
szept--ModelmałyMoja_notatka_głosowa.mp3
Jak usprawnić transkrypcję
Konieczność wpisywania całego polecenia Whisper za każdym razem, gdy chcesz dokonać transkrypcji dźwięku, może szybko stać się nudna. Stwórzmy globalnie dostępny plik wsadowy, aby usprawnić ten proces.
- Uruchomić Eksplorator Windows i odwiedź swój dysk C:.
- Utwórz folder dla swoich skryptów i skopiuj jego ścieżkę do schowka.
- W menu Start systemu Windows wyszukaj „ścieżkę” i wybierz Edytuj systemowe zmienne środowiskowe.
- Znaleźć Ścieżka zmienna pod Zmienne użytkownika dla YOU_USERNAME. Kliknij go dwukrotnie, aby go edytować. Kliknij Nowyi wklej ścieżkę do folderu skryptów. Kliknij OK aby zaakceptować zmiany.
- Wróć do folderu skryptów w Eksploratorze Windows. Utwórz tam nowy plik wsadowy o nazwie „wht.bat”. „Wewnątrz” umieść to polecenie:
szept --model tiny --language en %1
- Utwórz jeszcze dwa pliki wsadowe, „whs” i „whm”.
- Umieść to w pierwszym skrypcie:
szept --model small --language en %1
- Umieść to w drugim:
szept --model medium --language en %1
Gratulacje, masz teraz trzy skrypty do łatwego używania małych, małych i średnich modeli Whisper z plikami audio! Aby dokonać transkrypcji dowolnego pliku audio na tekst:
- Zlokalizuj plik za pomocą Eksplorator plików systemu Windows.
- Kliknij prawym przyciskiem myszy na pustym miejscu i wybierz Otwórz w Terminalu.
- Wpisz to polecenie, zastępując „wht” przez „whs” lub „whm”, aby użyć modeli języka małego lub średniego:
coTWÓJ_PLIK_AUDIO.mp3
Pisanie z prędkością dźwięku za pomocą szeptu
Nawet najszybsze osoby piszące na klawiaturze dotykowej nie mogą dorównać szybkości, z jaką mówimy. Jednak do niedawna mówienie zamiast pisania nie było optymalne do tworzenia dokumentów.
Większość rozwiązań zamiany głosu na tekst dawało mierne wyniki. Można było znaleźć kilka rozwiązań wartych wypróbowania, ale były one skomplikowane w użyciu lub kosztowne. Na szczęście Whisper to wszystko zmieniło.
Po wykonaniu powyższych kroków powinieneś być gotowy do transkrypcji lub tłumaczenia swojego głosu z dużą dokładnością, używając tylko jednego polecenia.