Twórcy ChatGPT mają inne narzędzie, które ma na celu odciążenie twoich palców.
Ci sami ludzie, którzy stoją za ChatGPT, stworzyli kolejne narzędzie oparte na sztucznej inteligencji, którego możesz użyć dzisiaj, aby zwiększyć swoją produktywność. Odnosimy się do Whisper, rozwiązania zamiany głosu na tekst, które przyćmiło wszystkie podobne rozwiązania, które pojawiły się przed nim.
Możesz używać Whisper w swoich programach lub w wierszu poleceń. A jednak jest to sprzeczne z jego celem: pisaniem bez klawiatury. Jeśli musisz pisać, aby go użyć, po co używać go, aby uniknąć pisania? Na szczęście możesz teraz używać Whisper za pośrednictwem graficznego interfejsu użytkownika na komputerze. Co więcej, może również transkrybować Twój głos niemal w czasie rzeczywistym. Zobaczmy, jak możesz pisać głosem za pomocą programu Whisper Desktop.
Co to jest szept OpenAI?
OpenAI's Whisper to system automatycznego rozpoznawania mowy (w skrócie ASR) lub, mówiąc prościej, rozwiązanie do konwersji języka mówionego na tekst.
Jednak w przeciwieństwie do starszych systemów dyktowania i transkrypcji, Whisper to rozwiązanie AI przeszkolone na ponad 680 000 godzin mowy w różnych językach. Whisper oferuje niezrównaną dokładność i, co dość imponujące, nie tylko jest wielojęzyczny, ale może również tłumaczyć między językami.
Co ważniejsze, jest bezpłatny i dostępny jako open source. Dzięki temu wielu programistów rozwinęło jego kod we własnych projektach lub stworzyło oparte na nim aplikacje, takie jak Whisper Desktop.
Jeśli wolisz „waniliową” wersję Whisper i wszechstronność terminala zamiast niezgrabnych graficznych interfejsów użytkownika, sprawdź nasz artykuł na jak zamienić głos w tekst za pomocą OpenAI's Whisper dla Windows.
Czy Whisper i Whisper Desktop to to samo?
Pomimo swojej oficjalnie brzmiącej nazwy, Whisper Desktop to GUI innej firmy dla Whisper, stworzony dla każdego, kto woli klikać przyciski zamiast wpisywać polecenia.
Whisper Desktop to samodzielne rozwiązanie, które nie opiera się na istniejącej instalacji Whisper. Jako bonus wykorzystuje alternatywną, zoptymalizowaną wersję Whisper, więc powinna działać lepiej niż samodzielna wersja.
Jesteś na drugim końcu spektrum i zamiast szukać łatwiejszego sposobu korzystania z Whispera niż z terminala, szukasz sposobów na wdrożenie go we własnych rozwiązaniach? Raduj się, bo OpenAI otworzyło dostęp do API ChatGPT i Whisper.
Pobierz i zainstaluj Whisper Desktop
Chociaż Whisper Desktop jest łatwiejszy w użyciu niż samodzielny Whisper, jego instalacja jest bardziej skomplikowana niż wielokrotne klikanie Dalej w kreatorze.
- Odwiedzać Oficjalna strona Github Whisper Desktop. Spójrz w prawo i kliknij najnowszą wersję poniżej Wydania.
- Pod Aktywa, Kliknij WhisperDesktop.zip i pobierz go na swój komputer.
- Wyodrębnij pobrane archiwum do folderu i użyj menedżera plików, aby je odwiedzić. Wewnątrz znajdziesz aplikację Whisper Desktop. Kliknij go dwukrotnie, aby go uruchomić.
- Potrzebujesz również modelu języka Whisper GCML formacie binarnym. Whisper Desktop dostarczy ci dwa linki do nabycia jednego. Pomiń drugi link do generowania własnego modelu, ponieważ jest to bardziej skomplikowany proces. Kliknij Przytulanie twarzy aby otworzyć tę stronę w Twojej domyślnej przeglądarce, skąd możesz pobrać gotowy do użycia plik.
- Wersja Whisper Desktop, z której korzystaliśmy podczas pisania tego artykułu, zawierała łącze do przestarzałego repozytorium w Hugging Face. Jeśli napotkasz ten sam problem, zwróć uwagę na łącze do Nowa lokalizacja. Kliknij go, aby odwiedzić nowe repozytorium.
- Kliknij link, który przeniesie Cię do dostępnych modele.
- Na tej liście kliknij albo ggml-medium.bin Lub ggml-medium.en.bin, w zależności od tego, czy potrzebujesz wielojęzycznej, czy tylko angielskiej pomocy technicznej w Whisper.
- Wreszcie powinieneś dotrzeć do celu. Zwróć uwagę na linię informującą, że ten plik jest przechowywany w Git LFS i jest zbyt duży, aby go wyświetlić, ale nadal możesz go pobrać. Kliknij pobierać dokładnie to zrobić.
- Po zakończeniu pobierania pliku użyj swojego ulubionego menedżera plików (wystarczy Eksplorator plików), aby przenieść pobrany plik modelu języka do tego samego folderu, co Whisper Desktop.
Transkrypcja za pomocą programu Whisper Desktop
Transkrypcja za pomocą Whisper Desktop jest łatwa, ale nadal możesz potrzebować jednego lub dwóch kliknięć, aby korzystać z aplikacji.
Ponownie uruchom Whisper Desktop. Czy (nadal) brakuje prawidłowej ścieżki do pobranego modelu języka? Kliknij na przycisk z trzema kropkami po prawej stronie pola i ręcznie wybierz plik pobrany z Hugging Face.
Z tego miejsca możesz również skorzystać z rozwijanego menu obok Implementacja modelu aby wybrać, czy chcesz uruchomić Whisper na swoim GPU (GPU), zarówno na CPU, jak i GPU (Hybrydowy) lub tylko na CPU (Odniesienie).
The Zaawansowany prowadzi do większej liczby opcji wpływających na działanie Whisper na twoim sprzęcie. Ponieważ jednak przycisk wyraźnie wskazuje, że są zaawansowane, sugerujemy modyfikowanie ich tylko wtedy, gdy rozwiązujesz problemy lub wiesz, co robisz. Ustawienie tutaj niewłaściwych wartości opcji może nałożyć spadek wydajności lub uniemożliwić korzystanie z aplikacji.
Kliknij OK, aby przejść do głównego interfejsu aplikacji.
Jeśli masz już nagranie swojego głosu, które chcesz zamienić na tekst pisany, kliknij Transkrybuj plik i wybierz go. Nadal będziemy używać Whisper Desktop do transkrypcji na żywo tego artykułu.
Oferowane opcje są proste. Możesz wybrać język Whisper użyje, wybierz jeśli chcesz Tłumaczyć między językami i włącz aplikację Konsola debugowania.
Większość anglojęzycznych użytkowników może bezpiecznie pominąć te opcje i upewnić się, że wybrano prawidłowe wejście audio z menu rozwijanego obok Urządzenie przechwytujące.
Upewnić się Zapisać do pliku tekstowego I Dołącz do tego pliku są włączone, aby Whisper Desktop zapisywał swoje dane wyjściowe do pliku bez nadpisywania jego zawartości. Użyj przycisk z trzema kropkami po prawej stronie pola ścieżki pliku, aby zdefiniować wspomniany plik tekstowy.
Kliknij Schwytać aby rozpocząć transkrypcję mowy na tekst.
Whisper Desktop pokaże trzy wskaźniki, kiedy wykryje aktywność głosową, kiedy aktywnie transkrybuje i kiedy proces utknie w martwym punkcie.
Możesz mówić tak długo, jak chcesz, a od czasu do czasu powinieneś zobaczyć migające dwa pierwsze wskaźniki, gdy aplikacja zamienia Twój głos na tekst. Kliknij Zatrzymywać się kiedy skończysz.
Wybrany plik tekstowy powinien otworzyć się w domyślnym edytorze tekstu i zawierać w formie pisemnej wszystko, co powiedziałeś, dopóki nie klikniesz Zatrzymywać się.
Należy zauważyć, że można również zrobić coś przeciwnego do tego, co widzieliśmy tutaj: przekonwertować dowolny tekst na mowę. W ten sposób możesz słuchać wszystkiego tak, jakby to był podcast, zamiast męczyć oczy mrużąc oczy przed ekranami. Więcej informacji na ten temat znajdziesz w naszym artykule pt jedne z najlepszych darmowych narzędzi online do pobierania zamiany tekstu na mowę jako audio MP3.
Wskazówki dotyczące pisania głosowego szeptem na pulpicie
Chociaż Whisper Desktop może uratować życie, umożliwiając pisanie głosem znacznie szybciej niż pisanie na klawiaturze, jest daleki od doskonałości.
Podczas naszych testów odkryliśmy, że czasami może się zacinać, pomijać niektóre słowa, nie wykonywać transkrypcji, dopóki nie zaczniesz ręcznie zatrzymać i ponownie uruchomić proces lub utknąć w pętli i ponownie transkrybować tę samą frazę wielokrotnie.
Uważamy, że są to tymczasowe usterki, które zostaną naprawione, ponieważ samodzielny Whisper nie wykazuje tych samych problemów.
Oprócz tych drobnych wstrząsów zamiana głosu na tekst powinna być łatwa dzięki Whisper Desktop. Mimo to podczas naszych testów stwierdziliśmy, że może działać jeszcze lepiej, jeśli...
- Zamiast wypowiadać tylko dwa lub trzy słowa, a następnie pauzować, Whisper może cię lepiej zrozumieć, jeśli będziesz mówić dłużej. Spróbuj przynajmniej dać mu całe zdanie na raz.
- Z tego samego powodu unikaj wielokrotnego uruchamiania i zatrzymywania procesu transkrypcji.
- Kiedykolwiek zdasz sobie sprawę, że popełniłeś błąd, zignoruj go i idź dalej. Ładowanie i rozładowywanie modelu językowego wydaje się być najbardziej czasochłonną częścią procesu przy obecnym stanie Whisper i naszym dostępnym sprzęcie. Szybciej jest więc mówić dalej, a potem edytować swoje błędy.
- Podobnie jak w przypadku samodzielnej wersji Whisper, najlepiej jest używać optymalnego modelu językowego dla dostępnego sprzętu. Możesz użyć do średni model, jeśli twój GPU ma 8 GB pamięci VRAM. Aby uzyskać mniej pamięci VRAM, wybierz mniejsze modele. Wybierz tylko nieco dokładniejsze, ale też dużo bardziej wymagające duży model, jeśli używasz procesora graficznego z 16 GB pamięci VRAM lub więcej.
- Pamiętaj, że im większy model języka, tym wolniejszy proces transkrypcji. Nie wybieraj modelu większego niż potrzebujesz. Prawdopodobnie przekonasz się, że Whisper Desktop może cię „zrozumieć” przez większość czasu w przypadku średnich lub mniejszych modeli, z jednym lub dwoma błędami na akapit.
Nadal piszesz? Używaj swojego głosu z szeptem
Pomimo tego, że konfiguracja wymaga trochę czasu, jak zobaczysz, gdy go wypróbujesz, Whisper Desktop działa znacznie lepiej niż większość alternatyw, ze znacznie większą dokładnością i lepszą szybkością.
Gdy zaczniesz używać jej do pisania głosem, Twoja klawiatura może wyglądać jak relikt z dawno minionych czasów.