Muzyka Deepfake naśladuje styl konkretnego artysty, w tym jego głos. Jak to możliwe, że brzmi tak prawdziwie?
Przez długi czas muzyka była w stanie uniknąć świata deepfake'ów, ponieważ synteza czyjegoś głosu była po prostu zbyt skomplikowana. Wszystko zmieniło się wraz z postępem w technologii sztucznej inteligencji. Zaowocowało to klonami głosów znanych artystów, które można wykorzystać do produkcji nowych ścieżek wokalnych.
Ponieważ narzędzia sztucznej inteligencji stają się coraz bardziej dostępne dla przeciętnych ludzi, muzyka deepfake stanowi coraz większy problem. Oto, czym jest i jak powstaje.
Ewolucja muzyki Deepfake
Kiedy słyszysz swojego ulubionego artystę śpiewającego na Spotify lub YouTube, prawie nie myślisz, że to może być fałszywe, ale postęp AI sprawił, że to stało się rzeczywistością. Oprócz fałszywych obrazów i filmów istnieje również muzyka deepfake.
Narzędzia sztucznej inteligencji mogą wiernie odtwarzać głos śpiewającej osoby, trenując model sztucznej inteligencji na próbkach dźwiękowych jej głosu. Tworzone przez fanów artysty lub fanów technologii AI coraz więcej osób próbuje stworzyć wokalne sobowtóry.
Ludzie od lat próbują zsyntetyzować głos za pomocą komputera, począwszy od 1961 roku, kiedy to IBM 7094 był pierwszym komputerem, który śpiewał. Możesz usłyszeć generowany komputerowo głos śpiewający Daisy Bell w klipie na YouTube i spróbuj sobie wyobrazić, jak niesamowity był ten moment.
Szybko do przodu do XXI wieku, a technologia sztucznej inteligencji poprawiła jakość syntezowanego głosu i pozwolił nam robić rzeczy, o których większość z nas do tej pory nie myślała, że są możliwe, na przykład klonowanie ludzkich głosów.
Wystarczy spojrzeć na ten klip, na którym Roberto Nickson przekształca swój głos w artystę i rapera Kanye Westa. Oglądanie wideo wydaje się niesamowite, naprawdę brzmi jak Kanye, ale jest też niewygodne do oglądania. Bez zbytniego zastanawiania się, jak artysta może myśleć lub czuć, i bez pozwolenia, mogłoby to być postrzegane jako przywłaszczenie czyjegoś głosu.
W przeciwieństwie do komputerowej wersji Daisy Bell, klonowanie wokalu AI jest w stanie odtworzyć dokładne podobieństwo czyjś głos, który obejmuje wszystkie subtelne różnice w barwie, które pomagają nam zidentyfikować czyjś wyjątkowy głos profil. Nielicencjonowana i zrobiona bez pozwolenia muzyka deepfake ma jednak poważne problemy, o których powiemy później.
Jak powstają piosenki Deepfake
Do tworzenia deepfake'owych piosenek używa się różnych metod, ale wiele z nich wykorzystuje technologię sztucznej inteligencji. Projekty open-source, np Projekt SoftVC VITS Singing Voice Conversion na GitHub, na przykład, opracowali model AI, który robi to, co mówi w swojej nazwie: konwertuje próbkę audio na śpiewający głos.
Ten model bierze istniejący plik audio kogoś śpiewającego i konwertuje go na głos kogoś innego. Rzeczy takie jak tekst i rytm oryginalnego głosu są zachowywane, ale ton, barwa i osobiste cechy wokalne są konwertowane na głos określony w zbiorze danych szkoleniowych.
Pamiętaj, że inne części utworu mogą nadal być tworzone ręcznie, na przykład tworzenie bitów i melodii w tym samym stylu i gatunku, co oryginalny artysta.
Aby stworzyć deepfake głosu Kanye Westa, zestaw danych innej firmy musiał zostać wprowadzony do modelu SoftVC VITS, który zawierałby próbki prawdziwego głosu Kanye. Plik zawierający zestaw danych został od tego czasu usunięty przez autora, co nie jest zaskakujące, biorąc pod uwagę niejasny obszar prawny, który może pochodzić z nieautoryzowanych zestawów danych.
Chociaż nie została przekształcona w aplikację komercyjną, możesz znaleźć jej wersję Model SoftVC VITS w Google Collab to jest bardziej przyjazne dla użytkownika.
Dopóki nie zostaną ustalone granice etyczne i prawne, możliwe, że będą dostępne łatwiejsze w użyciu aplikacje do klonowania głosu wyskakujące okienko — niewiele różni się od aplikacji Drayk.it, która zamieniała opis tekstowy w piosenki stylizowane na artystę Kaczor. Później został zamknięty.
Niektóre inne narzędzia używane do tworzenia muzyki deepfake obejmują duże modele językowe, takie jak ChatGPT, za pomocą którego można pisać teksty w stylu znanego artysty; I Szafa grająca OpenAI I Google MusicLM, które są generatywnymi modelami AI, które mogą tworzyć muzykę w surowej formie audio całkowicie od zera.
Czy słyszysz różnicę?
Utwór stworzony przez anonimowego użytkownika o nazwie Ghostwriter stał się wirusowy na TikTok w kwietniu 2023 r., w dużej mierze dlatego, że zawierał teksty śpiewane przez artystów Drake'a i The Weeknd. Oczywiście nie były to prawdziwe głosy artystów, tylko fałszywe.
Gdyby wokale nie były tak dobrą kopią oryginału, być może nie byłby to hit. Przy odrobinie kopania możesz dość szybko dowiedzieć się, czy to była prawdziwa okazja, czy nie, ale używając tylko uszu, możesz tylko zgadywać, czy jest autentyczny.
Jeśli chcesz zidentyfikować obraz wygenerowany przez sztuczną inteligencję istnieje co najmniej kilka aberracji wizualnych, których można szukać. Jeśli chodzi o dźwięk, znaki takie jak dźwięk o niskiej wierności lub usterki w utworze nie mają większego znaczenia, ponieważ są to kreatywne wybory stosowane w produkcji muzycznej przez cały czas.
Jeszcze bardziej interesujące jest to, że wielu ludziom naprawdę podoba się ta piosenka, nawet po odkryciu, że to nie były prawdziwe głosy Drake'a czy The Weeknd. Wielbiciele zwrócili uwagę, że nie wszystko zostało po prostu wygenerowane za pomocą sztucznej inteligencji, a prawdziwe umiejętności i praca włożono w pisanie tekstów, komponowanie bitów i składanie całości.
Utwór trafił do Spotify i YouTube, zanim został usunięty w następnych dniach, ale nie wcześniej niż fani pobrali utwór jako mp3. Nadal możesz znaleźć kopie piosenki online, jeśli wyszukasz „Heart On My Sleeve, Drake ft. Weekend".
Wkrótce dostrzeżenie różnicy między klonami wokalnymi generowanymi przez sztuczną inteligencję a prawdziwym ludzkim głosem stanie się prawie niemożliwe. Mając to na uwadze, ludzie zastanawiają się, czy jest to dobre wykorzystanie technologii AI, czy nawet legalne jej użycie.
Problemy z Deepfake Music
Z jednej strony ludzie lubią słuchać tworzonych przez fanów mashupów swoich ulubionych artystów i szanują kreatywność, która jest potrzebna do ich urzeczywistnienia. Ale możliwość posiadania klonów wokalnych opiera się przede wszystkim na zestawach danych, które mogą być autoryzowane lub nie.
Bez pozwolenia próbki głosu osoby są gromadzone w zbiorze danych, który jest następnie używany do trenowania modelu konwersji głosu AI. Jest podobny do problemu, przed którym stoi artystów, którzy chcą usunąć swoje obrazy z zestawów danych szkoleniowych które są używane do trenowania generatorów obrazów AI, takich jak Dall-E lub Midjourney.
Prawo autorskie również nie jest przygotowane do radzenia sobie z muzyką typu deepfake. W 2020 roku artysta Jay-Z nie zdołał zmusić YouTube do usunięcia generowanego przez sztuczną inteligencję dźwięku, na którym rapuje wersety z monologu „Być albo nie być” Williama Szekspira.
Kiedy utwór deepfake jest przesyłany do Spotify lub YouTube, pojawia się również pytanie, kto zarabia pieniądze. Czy powinieneś zarabiać na piosence, która prawie dokładnie kopiuje czyjś głos?
Holly Herndon to jedna z artystek, która próbowała stworzyć system, dzięki któremu ludzie mogliby ją wynagradzać w zamian za wykorzystanie jej modelu głosu do tworzenia oryginalnych prac. Podczas gdy inni artyści, tacy jak Nick Cave wypowiedział się przeciwko AI, pismo:
Piosenki powstają z cierpienia, przez co rozumiem, że opierają się na złożonej, wewnętrznej ludzkiej walce o stworzenie i, o ile mi wiadomo, algorytmy nie czują.
Czasami, Tekstowi generowanemu przez sztuczną inteligencję może brakować kreatywności w sumie, ale nadal są publikowane w Internecie. Sztuczna inteligencja może zaowocować mnóstwem złej muzyki, w którą włożono bardzo niewiele wysiłku.
Znalezienie równowagi między muzyką a sztuczną inteligencją
Muzyka Deepfake jest tworzona przy użyciu narzędzi AI i modeli AI, które zostały przeszkolone na nieautoryzowanych zestawach danych. Niektóre modele są ogólnodostępne i ogólnodostępne, podczas gdy inne podjęto próby spakowania ich w przyjazną dla użytkownika aplikację.
Ponieważ coraz więcej osób dostaje w swoje ręce modele muzyki lub aplikacje deepfake, warto pomyśleć o wpływie na artystę. Uzyskanie zgody na trenowanie zestawów danych i wynagrodzenie dla artysty to tylko niektóre z problemów związanych z technologią muzyczną AI.