4pmtech (Ukraine)

Spotify використовує ШІ для клонування та перекладу голосів подкастерів у новій пілотній програмі

Spotify використовує ШІ для клонування та перекладу голосів подкастерів у новій пілотній програмі

У понеділок Spotify запустив обмежену пілотну програму, яка використовує штучний інтелект для автоматичного перекладу подкастів різними мовами, використовуючи технологію синтезу голосу від OpenAI для збереження оригінального голосу оратора. Ця функція має на меті запропонувати більш автентичний досвід прослуховування порівняно з традиційним дубляжем. Це також може призвести до мовних помилок, які важко виявити неносіям мови, оскільки машинний переклад є далеко не ідеальною технологією.

У своєму прес-релізі, що анонсує програму, Spotify каже, що це платформа, яка дозволяє творцям ділитися своїми роботами по всьому світу. Потім він ставить запитання: «З огляду на останні досягнення, ми задавалися питанням: чи є ще способи, як ми можемо подолати мовну прірву, щоб ці голоси можна було почути в усьому світі?»

Відповіддю Spotify є голосовий переклад, який, як повідомляється, може перекладати англійські голоси на іспанську, французьку та німецьку мови, зберігаючи при цьому характерні вокальні характеристики мовця. Ця функція наразі використовується лише з вибраними подкастерами, такими як Декс Шепард, Моніка Падман, Лекс Фрідман, Білл Сіммонс і Стівен Бартлетт.

«Ми віримо, що продуманий підхід до штучного інтелекту може допомогти побудувати глибші зв’язки між слухачами та творцями, що є ключовим компонентом місії Spotify щодо розкриття потенціалу людської творчості», — сказав Зіад Султан, віце-президент із персоналізації Spotify, в повідомленні.

На X Лекс Фрідман опублікував зразок свого голосу, клонований і перекладений іспанською мовою, написавши: « Це я розмовляю іспанською завдяки чудовій роботі інженерів Spotify AI. Переклад і клонування голосу повністю виконуються ШІ. Мова може створювати бар’єри для розуміння і таким чином підживлювати розкол. Я не можу дочекатися, коли ШІ зруйнує цей бар’єр і розкриє нашу спільну людяність».

Втрачено в перекладі

Але не всі подкастери в захваті від потенціалу автоматизованих перекладів штучного інтелекту. Реагуючи на новини на BlueSky, співавтор Retronauts і співведучий Джеремі Періш написав : «Ще одна причина закочувати очі, коли люди запитують, чому ми не робимо подкаст доступним на Spotify».

У минулому ми бачили, як технологія клонування голосу від Microsoft і Meta аналізувала зразки вихідного аудіо, а потім доповнювала це аудіо великим набором навчальних даних голосів, щоб синтезувати новий, подібний голос. Ця технологія потенційно може дати збій, якщо вокальний стиль людини неправильно представлений у наборі даних навчальних зразків, особливо з певними акцентами .

Тут Spotify додає додатковий рівень складності, сподіваючись плавно перекладати значення між мовами без помилок, те, що Meta також намагалася зробити з SeamlessM4T . За останнє десятиліття переклад за допомогою штучного інтелекту досяг значних успіхів, але це не вибило перекладачів-людей повністю з гри. Експерти галузі зазначають , що ці системи все ще стикаються з нюансами та не розуміють культурний контекст, що впливає на якість перекладеного матеріалу.

Технічно підковані користувачі, ймовірно, очікують помилок перекладу, якщо джерело належним чином оформлено як машинний переклад, але коли помилки виникають у власному голосі подкастера, це може додати новий вимір проблеми, особливо якщо перекладене аудіо вирвано з контексту та пізніше вважається оригінальним. Крім того, якщо автор оригіналу не знає мови перекладу, він не може перевірити, чи переклад точно відображає їхні початкові наміри. Це дає велику довіру — і особисту репутацію — до рук неперевіреної технології автоматизації.

Наразі здається, що програма Spotify працює на обмеженій основі лише для вибраних подкастерів, тому питання згоди щодо клонування голосів гостей подкастів, здається, не будуть актуальними, якщо це не пошириться ширше. У майбутньому Spotify каже, що сподівається зібрати відгуки від творців і слухачів, щоб удосконалити функцію голосового перекладу. Однак, оскільки на платформі є понад 100 мільйонів постійних слухачів подкастів, це 100 мільйонів способів, через які цей експеримент може пройти невдало, якщо технологія перекладу допускатиме незручні помилки.


Warning: Undefined variable $html_req in /var/www/vhosts/4pmtech.com/httpdocs/wp-content/themes/fourpmtech-improved/comments.php on line 79

Warning: Undefined variable $html5 in /var/www/vhosts/4pmtech.com/httpdocs/wp-content/themes/fourpmtech-improved/comments.php on line 82

Warning: Undefined variable $html_req in /var/www/vhosts/4pmtech.com/httpdocs/wp-content/themes/fourpmtech-improved/comments.php on line 82

Warning: Undefined variable $consent in /var/www/vhosts/4pmtech.com/httpdocs/wp-content/themes/fourpmtech-improved/comments.php on line 86

Залишити відповідь

Ваша e-mail адреса не оприлюднюватиметься. Обов’язкові поля позначені *


Warning: Undefined array key "url" in /var/www/vhosts/4pmtech.com/httpdocs/wp-content/themes/fourpmtech-improved/inc/template-functions.php on line 315