Spotify wykorzystuje sztuczną inteligencję do klonowania i tłumaczenia głosów podcastów w nowym programie pilotażowym

Spotify wykorzystuje sztuczną inteligencję do klonowania i tłumaczenia głosów podcastów w nowym programie pilotażowym

W poniedziałek Spotify uruchomiło ograniczony program pilotażowy, który wykorzystuje sztuczną inteligencję do automatycznego tłumaczenia podcastów na różne języki, wykorzystując technologię syntezy głosu z OpenAI w celu zachowania głosu oryginalnego mówcy. Celem tej funkcji jest zapewnienie bardziej autentycznych wrażeń słuchowych w porównaniu z tradycyjnym dubbingiem. Może również powodować błędy językowe, które są trudne do wykrycia dla obcokrajowców, ponieważ tłumaczenie maszynowe jest dalekie od technologii doskonałej .

W swoim komunikacie prasowym ogłaszającym program Spotify twierdzi, że jest to platforma umożliwiająca twórcom udostępnianie swojej twórczości na całym świecie. Następnie zadaje pytanie: „W związku z ostatnimi postępami zastanawialiśmy się: czy istnieje więcej sposobów na wypełnienie luki językowej, aby te głosy były słyszalne na całym świecie?”

Odpowiedzią Spotify jest tłumaczenie głosowe, które podobno może tłumaczyć głosy angielskie na hiszpański, francuski i niemiecki, zachowując jednocześnie charakterystyczną charakterystykę wokalną mówiącego. Z tej funkcji korzystają obecnie tylko wybrani podcasterzy, tacy jak Dax Shepard, Monica Padman, Lex Fridman, Bill Simmons i Steven Bartlett.

„Wierzymy, że przemyślane podejście do sztucznej inteligencji może pomóc w budowaniu głębszych więzi między słuchaczami a twórcami, co jest kluczowym elementem misji Spotify polegającej na uwalnianiu potencjału ludzkiej kreatywności” – powiedział w ogłoszeniu Ziad Sultan, wiceprezes Spotify ds. personalizacji.

Na X Lex Friedman zamieścił próbkę swojego głosu sklonowaną i przetłumaczoną na hiszpański, pisząc: „ To ja mówię po hiszpańsku dzięki niesamowitej pracy inżynierów Spotify AI. Tłumaczenie i klonowanie głosu są w całości wykonywane przez sztuczną inteligencję. Język może tworzyć bariery w zrozumieniu, a tym samym napędzać podział. Nie mogę się doczekać, aż sztuczna inteligencja przełamie tę barierę i ujawni nasze wspólne człowieczeństwo”.

Utracony sens po tłumaczeniu

Jednak nie wszyscy twórcy podcastów są podekscytowani potencjałem zautomatyzowanych tłumaczeń AI. W reakcji na wieści o BlueSky, współtwórca i współgospodarz Retronauts , Jeremy Parish, napisał : „To kolejny powód, aby przewracać oczami, gdy ludzie pytają, dlaczego nie udostępniamy podcastu w Spotify”.

W przeszłości widzieliśmy, jak technologia klonowania głosu firmy Microsoft i Meta analizowała próbki źródłowego dźwięku, a następnie wzmacniała ten dźwięk za pomocą dużego zestawu danych szkoleniowych głosów w celu syntezy nowego, podobnego głosu. Technologia ta może potencjalnie zawieść, jeśli styl wokalny danej osoby nie jest dobrze reprezentowany w zestawie danych próbek szkoleniowych, szczególnie w przypadku niektórych akcentów .

W tym przypadku Spotify dodaje dodatkową warstwę złożoności, mając nadzieję na płynne tłumaczenie znaczeń między językami bez popełniania błędów, czego Meta próbowała również dokonać w przypadku SeamlessM4T . W ciągu ostatniej dekady tłumaczenia oparte na sztucznej inteligencji poczyniły duże postępy, ale nie wyeliminowały całkowicie z gry tłumaczy-ludzi. Eksperci branżowi zwracają uwagę , że systemy te wciąż mylą się z niuansami i nie rozumieją kontekstu kulturowego, co wpływa na jakość tłumaczonego materiału.

Użytkownicy znający się na technologii prawdopodobnie spodziewają się błędów w tłumaczeniu, gdy źródło jest odpowiednio ujęte w tłumaczenie maszynowe, ale gdy błędy pojawiają się w głosie twórcy podcastu, może to dodać nowy wymiar kłopotów, zwłaszcza jeśli przetłumaczony dźwięk zostanie wyrwany z kontekstu i później uznawany za oryginał. Ponadto, jeśli pierwotny mówca nie zna przetłumaczonego języka, nie może sprawdzić, czy tłumaczenie dokładnie odzwierciedla jego pierwotne intencje. Oznacza to oddanie dużego zaufania – i osobistej reputacji – w ręce niesprawdzonej technologii automatyzacji.

Na razie wygląda na to, że program Spotify działa w ograniczonym zakresie i wyłącznie wśród wybranych nadawców podcastów, więc kwestie zgody na klonowanie głosów gości podcastów nie wydają się mieć znaczenia, chyba że zostanie to wprowadzone na szerszą skalę. Spotify twierdzi, że ma nadzieję zebrać w przyszłości opinie twórców i słuchaczy, aby udoskonalić funkcję tłumaczenia głosowego. Jednak biorąc pod uwagę ponad 100 milionów stałych słuchaczy podcastów na platformie, na 100 milionów sposobów ten eksperyment może się nie udać, jeśli technologia tłumaczenia popełni żenujące błędy.

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone *