Новий генератор зображень штучного інтелекту OpenAI розширює межі в деталізації та швидкій точності

Новий генератор зображень штучного інтелекту OpenAI розширює межі в деталізації та швидкій точності

У середу OpenAI анонсувала DALL-E 3, останню версію своєї моделі синтезу зображень AI, яка має повну інтеграцію з ChatGPT . DALL-E 3 рендерить зображення, ретельно дотримуючись складних описів і обробляючи генерацію тексту в зображенні (наприклад, мітки та знаки), що кинуло виклик попереднім моделям. Наразі в дослідницькій версії, він буде доступний для клієнтів ChatGPT Plus і Enterprise на початку жовтня.

Як і його попередник , DALLE-3 є генератором тексту в зображення, який створює нові зображення на основі письмових описів, які називаються підказками. Хоча OpenAI не оприлюднив технічних подробиць про DALL-E 3, модель штучного інтелекту, що лежить в основі попередніх версій DALL-E, була навчена на мільйонах зображень, створених людьми-художниками та фотографами, деякі з них ліцензовані на фондових веб-сайтах, таких як Shutterstock . Цілком ймовірно, що DALL-E 3 слідує тій самій формулі, але з новими методами навчання та більшим обчислювальним часом навчання.

Судячи зі зразків, наданих OpenAI у своєму рекламному блозі, DALL-E 3 видається радикально кращою моделлю синтезу зображень, ніж будь-яка інша доступна модель з точки зору виконання підказок. Незважаючи на те, що приклади OpenAI були відібрані на високому рівні за їхню ефективність, вони, здається, точно дотримуються підказок і переконливо відтворюють об’єкти з мінімальними деформаціями. Порівняно з DALL-E 2 , OpenAI стверджує, що DALL-E 3 ефективніше вдосконалює дрібні деталі, як-от руки, створюючи привабливі зображення за замовчуванням без «зломів чи швидкої розробки».

Жодного
Жодного
Жодного
Жодного
Жодного
Жодного
Жодного
Жодного
Жодного

Для порівняння, Midjourney , конкуруюча модель синтезу зображень зі штучним інтелектом від іншого постачальника, добре відображає фотореалістичні деталі, але вона все ще вимагає багато неінтуїтивних майструвань із підказками, щоб отримати будь-який контроль над виведенням зображення.

DALL-E 3 також, здається, обробляє текст у зображеннях так, як його попередник не міг (деякі конкуруючі моделі, такі як Stable Diffusion XL і DeepFloyd , стають кращими). Наприклад, підказка, яка включала слова: «Ілюстрація авокадо, що сидить у кріслі терапевта, кажучи: «Я почуваюся такою порожньою всередині» з отвором розміром із кісточку в центрі», створила мультяшне авокадо з цитатою персонажа. інкапсульовані в спливаючу підказку.

Примітно, що OpenAI каже, що DALL-E 3 був «нативно» створений на основі ChatGPT і з’явиться як інтегрована функція ChatGPT Plus, дозволяючи розмовні уточнення зображень таким чином, щоб використовувати помічника ШІ як партнера для мозкового штурму. Це також означає, що ChatGPT зможе генерувати зображення на основі контексту поточної розмови, що може призвести до нових нових можливостей. Помічник Microsoft Bing Chat AI, також побудований на технології OpenAI, з березня може генерувати зображення під час розмови .

Залишити відповідь

Ваша e-mail адреса не оприлюднюватиметься. Обов’язкові поля позначені *