OpenAI DALL-E 2 может создавать изображения всего, что вы можете себе представить

OpenAI DALL-E 2 может создавать изображения всего, что вы можете себе представить

Искусственный интеллект OpenAI DALL-E 2 создает мультяшные изображения на основе текстового описания из вашего воображения.

В январе 2021 года консорциум OpenAI, основанный Илоном Маском при финансовой поддержке Microsoft, представил свой самый амбициозный на сегодняшний день проект — систему машинного обучения DALL-E. Этот гениальный мультимодальный искусственный интеллект смог генерировать изображения в мультяшном стиле, основываясь только на ключевых словах, заданных пользователем. Совсем недавно консорциум представил новую версию DALL-E с более высоким разрешением и меньшей задержкой, чем предыдущая.

Искусственный интеллект OpenAI DALL-E 2 создает мультяшные изображения

Первая версия DALL-E (сокращение от Dalie и Wall-E) могла генерировать изображения и объединять несколько изображений в коллаж, предлагать разные ракурсы и даже угадывать ряд элементов изображения — например, эффекты тени — по простое письменное описание.

«В отличие от средства 3D-рендеринга, чьи входные данные должны быть указаны однозначно, вплоть до мельчайших деталей, DALL-E часто может «заполнить пробелы», когда заголовок подразумевает, что изображение содержит определенные детали, не указанные явно», — объяснила команда OpenAI в 2021.

DALL-E никогда не задумывался как коммерческий продукт, поэтому его возможности были ограничены, поскольку команда OpenAI рассматривала его только как исследовательский инструмент. Также было необходимо избежать ситуации, в которой Microsoft столкнулась со своим чат-ботом Tay, и чтобы система не могла генерировать ложную информацию. Для этой второй версии цели остались прежними, и к изображению добавлен водяной знак, чтобы четко указать, что оно было создано искусственным интеллектом. Кроме того, система теперь запрещает пользователям создавать изображения с именами собственными.

по текстовому описанию взятому из вашего воображения

DALL-E 2, который использует систему распознавания изображений OpenAI CLIP, использует свои возможности генерации изображений. Теперь пользователи могут выбирать и редактировать определенные области существующих изображений, добавлять или удалять элементы вместе с их тенями, объединять два изображения в один коллаж и создавать варианты существующего изображения. Сгенерированные изображения теперь представляют собой квадраты размером 1024 пикселя, хотя в исходной версии аватары имели размер 256 пикселей. CLIP был разработан для обобщения содержания изображения таким образом, чтобы его мог понять человек. Консорциум обратил процесс вспять, создав изображение из его описания.

«DALL-E 1 взял наш подход GPT-3 к языку и применил его для создания изображения: мы сжимаем изображения в набор слов и научились предсказывать, что произойдет дальше», — объяснил The Rod исследователь Прафулла Дхаривал.

В отличие от первой версии, с которой все могли играть на сайте OpenAI, эта версия 2 в настоящее время доступна только для определенных партнеров, и они сами ограничены в том, что они могут делать. Лишь немногие счастливчики могут им воспользоваться. Они также не могут экспортировать изображения, созданные на сторонней платформе, хотя OpenAI планирует в будущем сделать новые возможности DALL-E 2 доступными через API. Если вы все еще хотите попробовать систему, вы можете присоединиться к списку ожидания.

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *