Обновление ChatGPT позволяет его искусственному интеллекту «видеть, слышать и говорить», согласно OpenAI.

В понедельник OpenAI объявила о значительном обновлении ChatGPT, которое позволяет моделям искусственного интеллекта GPT-3.5 и GPT-4 анализировать изображения и реагировать на них в рамках текстового разговора. Кроме того, по словам OpenAI, в мобильное приложение ChatGPT будут добавлены параметры синтеза речи, которые в сочетании с существующими функциями распознавания речи позволят вести полностью устные разговоры с помощником искусственного интеллекта.

OpenAI планирует внедрить эти функции в ChatGPT для подписчиков Plus и Enterprise «в течение следующих двух недель». Он также отмечает, что синтез речи появится только на iOS и Android, а распознавание изображений будет доступно как в веб-интерфейсе, так и в мобильные приложения.

OpenAI сообщает, что новая функция распознавания изображений в ChatGPT позволяет пользователям загружать одно или несколько изображений для разговора, используя модели GPT-3.5 или GPT-4. В своем рекламном сообщении в блоге компания утверждает, что эту функцию можно использовать для различных повседневных задач: от выяснения того, что на ужин, путем фотографирования холодильника и кладовой, до устранения неполадок, почему гриль не запускается. В нем также говорится, что пользователи могут использовать сенсорный экран своего устройства, чтобы обвести части изображения, на которых они хотели бы сосредоточить внимание ChatGPT.

Никто
Никто
Никто

На своем сайте OpenAI размещает рекламный видеоролик , иллюстрирующий гипотетический обмен информацией с ChatGPT, где пользователь спрашивает, как поднять сиденье велосипеда, предоставляя фотографии, а также инструкцию по эксплуатации и изображение пользовательского ящика с инструментами. ChatGPT реагирует и советует пользователю, как завершить процесс. Мы сами не тестировали эту функцию, поэтому ее реальная эффективность неизвестна.

Итак, как это работает? OpenAI не раскрывает технических подробностей о том, как GPT-4 или его мультимодальная версия GPT-4V работают под капотом, но, основываясь на известных исследованиях ИИ, проведенных другими (в том числе партнером OpenAI Microsoft ), мультимодальные модели ИИ обычно преобразуют текст и изображения в общее пространство кодирования, которое позволяет им обрабатывать различные типы данных через одну и ту же нейронную сеть. OpenAI может использовать CLIP для преодоления разрыва между визуальными и текстовыми данными таким образом, чтобы выравнивать изображения и текстовые представления в одном скрытом пространстве , своего рода векторизованную сеть отношений данных. Этот метод может позволить ChatGPT делать контекстуальные выводы по тексту и изображениям, хотя с нашей стороны это предположение.

Между тем, в области аудио новая функция синтеза голоса ChatGPT, как сообщается, позволяет вести двусторонний разговор с ChatGPT, что основано на том, что OpenAI называет «новой моделью преобразования текста в речь», хотя преобразование текста в речь было решено уже давно. много времени. Компания заявляет, что после запуска этой функции пользователи смогут задействовать ее, включив голосовое общение в настройках приложения, а затем выбрав один из пяти различных синтетических голосов с такими именами, как «Можжевельник», «Небо», «Бухта», «Эмбер». » и «Бриз». OpenAI утверждает, что эти голоса были созданы в сотрудничестве с профессиональными актерами озвучивания.

Whisper от OpenAI, система распознавания речи с открытым исходным кодом, о которой мы рассказывали в сентябре прошлого года, будет продолжать выполнять транскрипцию пользовательского речевого ввода. Whisper интегрирован с приложением ChatGPT для iOS с момента его запуска в мае. В июле OpenAI выпустила Android-приложение ChatGPT с аналогичными возможностями .

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *