Новый генератор изображений AI от OpenAI расширяет границы детализации и обеспечивает быструю точность

В среду OpenAI анонсировала DALL-E 3, последнюю версию своей модели синтеза изображений AI, которая обеспечивает полную интеграцию с ChatGPT . DALL-E 3 визуализирует изображения, внимательно следуя сложным описаниям и обрабатывая генерацию текста в изображении (например, меток и знаков), что бросало вызов более ранним моделям. В настоящее время находится в предварительной версии исследования, она будет доступна для клиентов ChatGPT Plus и Enterprise в начале октября.

Как и его предшественник , DALLE-3 представляет собой генератор текста в изображение, который создает новые изображения на основе письменных описаний, называемых подсказками. Хотя OpenAI не опубликовала никаких технических подробностей о DALL-E 3, модель искусственного интеллекта, лежащая в основе предыдущих версий DALL-E, была обучена на миллионах изображений, созданных художниками и фотографами, некоторые из которых были лицензированы со стоковых веб-сайтов, таких как Shutterstock . Вероятно, DALL-E 3 следует той же формуле, но с новыми методами обучения и большим временем вычислительного обучения.

Судя по образцам, предоставленным OpenAI в своем рекламном блоге, DALL-E 3 кажется радикально более эффективной моделью синтеза изображений, чем что-либо еще, доступное с точки зрения следующих подсказок. Хотя примеры OpenAI были выбраны из-за их эффективности, они, похоже, точно следуют подсказкам и убедительно визуализируют объекты с минимальными деформациями. По сравнению с DALL-E 2 , OpenAI утверждает, что DALL-E 3 более эффективно обрабатывает мелкие детали, такие как руки, создавая привлекательные изображения по умолчанию «без каких-либо хаков или быстрого проектирования».

Для сравнения, Midjourney , конкурирующая модель синтеза изображений искусственного интеллекта от другого поставщика, хорошо отображает фотореалистичные детали, но все же требует большого количества нелогичных манипуляций с подсказками, чтобы получить какой-либо контроль над выводом изображения.

DALL-E 3 также обрабатывает текст внутри изображений так, как не мог его предшественник (некоторые конкурирующие модели, такие как Stable Diffusion XL и DeepFloyd , справляются с этим лучше). Например, подсказка, включавшая слова «Иллюстрация авокадо, сидящего в кресле терапевта и говорящего: «Я чувствую себя таким пустым внутри» с отверстием размером с косточку в центре», создала мультяшный авокадо с идеальной цитатой персонажа. заключенный в речевой пузырь.

Примечательно, что OpenAI заявляет, что DALL-E 3 был «встроен» на основе ChatGPT и станет интегрированной функцией ChatGPT Plus, позволяя уточнять изображения в диалоге таким образом, чтобы использовать помощника искусственного интеллекта в качестве партнера по мозговому штурму. Это также означает, что ChatGPT сможет генерировать изображения на основе контекста текущего разговора, что может привести к появлению новых возможностей. AI-помощник Microsoft Bing Chat, также созданный на основе технологии OpenAI, с марта может генерировать изображения в ходе разговора .

Добавить комментарий Отменить ответ