В понедельник Spotify запустил ограниченную пилотную программу, которая использует искусственный интеллект для автоматического перевода подкастов на различные языки, используя технологию синтеза голоса от OpenAI для сохранения голоса исходного говорящего. Эта функция призвана обеспечить более реалистичное качество прослушивания по сравнению с традиционным дублированием. Это также может привести к языковым ошибкам, которые трудно обнаружить неносителям языка, поскольку машинный перевод далек от идеальной технологии.
В своем пресс-релизе, анонсирующем программу, Spotify заявляет, что это платформа, которая позволяет авторам делиться своими работами по всему миру. Затем он задает вопрос: «Учитывая недавние достижения, мы задаемся вопросом: есть ли еще способы преодолеть языковой разрыв, чтобы эти голоса были услышаны во всем мире?»
Ответ Spotify — Voice Translation, который, как сообщается, может переводить английские голоса на испанский, французский и немецкий, сохраняя при этом отличительные вокальные характеристики говорящего. В настоящее время эта функция используется только избранными подкастерами, такими как Дакс Шепард, Моника Пэдман, Лекс Фридман, Билл Симмонс и Стивен Бартлетт.
«Мы считаем, что продуманный подход к искусственному интеллекту может помочь построить более глубокие связи между слушателями и создателями, что является ключевым компонентом миссии Spotify по раскрытию потенциала человеческого творчества», — сказал в объявлении Зиад Султан, вице-президент Spotify по персонализации.
На X Лекс Фридман опубликовал образец своего голоса, клонированный и переведенный на испанский, написав: « Это я говорю по-испански благодаря потрясающей работе инженеров Spotify AI. Перевод и клонирование голоса полностью выполняются искусственным интеллектом. Язык может создавать барьеры для понимания и, таким образом, способствовать разногласиям. Я не могу дождаться, когда ИИ сломает этот барьер и раскроет нашу общую человечность».
Утрачено при переводе
Но не все подкастеры в восторге от потенциала автоматизированных переводов с помощью ИИ. В ответ на новость на BlueSky один из создателей и соведущий Retronauts Джереми Пэриш написал : «Еще одна причина закатить глаза, когда люди спрашивают, почему мы не делаем подкаст доступным на Spotify».
В прошлом мы видели, как технологии клонирования голоса от Microsoft и Meta анализируют образцы исходного звука, а затем дополняют этот звук большим набором обучающих данных голосов, чтобы синтезировать новый, похожий голос. Эта технология потенциально может дать сбой, если вокальный стиль человека плохо представлен в наборе данных обучающих выборок, особенно с определенными акцентами .
Здесь Spotify добавляет дополнительный уровень сложности, надеясь плавно переводить смысл между языками, не допуская ошибок, что Meta также попыталась с помощью SeamlessM4T . За последнее десятилетие перевод с помощью ИИ добился больших успехов, но не выбил переводчиков-людей полностью из игры. Эксперты отрасли отмечают , что эти системы по-прежнему сбиваются с нюансов и не понимают культурный контекст, что влияет на качество переведенного материала.
Технически подкованные пользователи, вероятно, ожидают ошибок перевода, если источник правильно оформлен как машинный перевод, но когда ошибки возникают в собственном голосе подкастера, это может добавить новое измерение проблем, особенно если переведенный звук вырван из контекста и позже считался оригинальным. Кроме того, если исходный говорящий не знает языка перевода, он не сможет проверить, точно ли перевод отражает его первоначальные намерения. Это дает большое доверие и личную репутацию в руки непроверенных технологий автоматизации.
На данный момент кажется, что программа Spotify работает на ограниченной основе, только среди избранных подкастеров, поэтому вопросы согласия по поводу клонирования гостевых голосов подкастов, похоже, не будут актуальны, если это не получит более широкого распространения. В дальнейшем Spotify заявляет, что надеется собрать отзывы от создателей и слушателей, чтобы усовершенствовать функцию голосового перевода. Однако, учитывая, что на платформе более 100 миллионов постоянных слушателей подкастов, это 100 миллионов причин, по которым этот эксперимент может пойти неудачно, если технология перевода допустит досадные ошибки.