OpenAI DALL-E 2 може відтворювати будь-які зображення, які ви можете собі уявити

Штучний інтелект OpenAI DALL-E 2 створює мультиплікаційні зображення на основі текстового опису з вашої уяви.

У січні 2021 року консорціум OpenAI, заснований Ілоном Маском і фінансований Microsoft, оприлюднив свій найамбітніший проект на сьогодні — систему машинного навчання DALL-E. Цей геніальний мультимодальний штучний інтелект зміг створити зображення в мультяшному стилі лише на основі ключових слів, визначених користувачем. Нещодавно консорціум представив нову версію DALL-E з вищою роздільною здатністю та меншою затримкою, ніж у попередньої.

Штучний інтелект OpenAI DALL-E 2 створює мультяшні зображення

Перша версія DALL-E (скорочення від Dalie і Wall-E) могла генерувати зображення та об’єднувати кілька зображень у колаж, пропонувати різні ракурси та навіть вгадувати ряд елементів зображення, наприклад ефект тіні, з простого письмового опису. .

«На відміну від 3D-рендерера, вхідні дані якого мають бути визначені однозначно до найдрібніших деталей, DALL-E часто може «заповнити прогалини», коли заголовок означає, що зображення містить певні деталі, які не вказано явно», — пояснила команда. Відкрити AI у 2021 році.

DALL-E ніколи не планувався як комерційний продукт, тому його можливості були обмежені, оскільки команда OpenAI розглядала його лише як дослідницький інструмент. Також необхідно було уникнути ситуації, яка склалася у Microsoft з її чат-ботом Tay, і щоб система не могла генерувати неправдиву інформацію. Для цієї другої версії цілі залишаються незмінними, а до зображення додано водяний знак, який чітко вказує, що воно було створено штучним інтелектом. Крім того, тепер система забороняє користувачам створювати зображення з власними назвами.

відповідно до текстового опису, взятого з вашої уяви

DALL-E 2, який використовує систему розпізнавання зображень OpenAI CLIP, використовує її можливості генерації зображень. Тепер користувачі можуть вибирати та редагувати окремі області наявних зображень, додавати або видаляти елементи разом із їхніми тінями, об’єднувати два зображення в один колаж і створювати варіації існуючого зображення. Згенеровані зображення тепер мають розмір квадратів 1024 пікселів, тоді як вихідні аватари мали розмір 256 пікселів. CLIP був розроблений для узагальнення змісту зображення таким чином, щоб його могла зрозуміти людина. Консорціум змінив процес, створивши зображення з його опису.

«DALL-E 1 використав наш підхід до мови GPT-3 і застосував його для створення зображення: ми стискаємо зображення в набір слів і навчилися передбачати, що станеться далі», — пояснив The Rod дослідник Прафулла Дхарівал.

На відміну від першої версії, з якою кожен міг грати на сайті OpenAI, ця версія 2 наразі доступна лише певним партнерам, і вони самі обмежені в своїх можливостях. Лише небагатьом щасливчикам вдається ним скористатися. Вони також не можуть експортувати зображення, створені на сторонній платформі, хоча OpenAI планує в майбутньому зробити нові функції DALL-E 2 доступними через API. Якщо ви все ще хочете спробувати систему, ви можете приєднатися до списку очікування .