Der neue KI-Bildgenerator von OpenAI verschiebt die Grenzen der Detailtreue und der sofortigen Wiedergabetreue

Der neue KI-Bildgenerator von OpenAI verschiebt die Grenzen der Detailtreue und der sofortigen Wiedergabetreue

Am Mittwoch kündigte OpenAI DALL-E 3 an, die neueste Version seines KI-Bildsynthesemodells, das eine vollständige Integration mit ChatGPT bietet . DALL-E 3 rendert Bilder, indem es komplexe Beschreibungen genau befolgt und die Textgenerierung im Bild (z. B. Beschriftungen und Schilder) übernimmt, was bei früheren Modellen eine Herausforderung darstellte. Derzeit befindet es sich in der Forschungsvorschau und wird Anfang Oktober für ChatGPT Plus- und Enterprise-Kunden verfügbar sein.

Wie sein Vorgänger ist DALLE-3 ein Text-zu-Bild-Generator, der auf der Grundlage schriftlicher Beschreibungen, sogenannter Eingabeaufforderungen, neuartige Bilder erstellt. Obwohl OpenAI keine technischen Details zu DALL-E 3 veröffentlichte, wurde das KI-Modell im Herzen früherer Versionen von DALL-E anhand von Millionen von Bildern trainiert, die von menschlichen Künstlern und Fotografen erstellt wurden, von denen einige von Stock-Websites wie Shutterstock lizenziert wurden . Es ist wahrscheinlich, dass DALL-E 3 derselben Formel folgt, jedoch mit neuen Trainingstechniken und mehr Rechenzeit für das Training.

Den von OpenAI in seinem Werbeblog bereitgestellten Beispielen nach zu urteilen, scheint DALL-E 3 ein wesentlich leistungsfähigeres Bildsynthesemodell zu sein als alles andere, was in Bezug auf die Befolgung von Eingabeaufforderungen verfügbar ist. Obwohl die OpenAI-Beispiele aufgrund ihrer Wirksamkeit sorgfältig ausgewählt wurden, scheinen sie den Anweisungen der Aufforderung getreu zu folgen und Objekte überzeugend mit minimalen Verformungen darzustellen. Im Vergleich zu DALL-E 2 verfeinert DALL-E 3 laut OpenAI kleine Details wie Hände effektiver und erstellt standardmäßig ansprechende Bilder, ohne dass „Hacks oder schnelles Engineering erforderlich sind“.

Keiner
Keiner
Keiner
Keiner
Keiner
Keiner
Keiner
Keiner
Keiner

Im Vergleich dazu stellt Midjourney , ein konkurrierendes KI-Bildsynthesemodell eines anderen Anbieters, fotorealistische Details gut dar, erfordert aber immer noch viel kontraintuitives Herumbasteln an Eingabeaufforderungen, um Kontrolle über die Bildausgabe zu erlangen.

DALL-E 3 scheint auch Text in Bildern auf eine Weise zu verarbeiten, die sein Vorgänger nicht konnte (einige Konkurrenzmodelle wie Stable Diffusion XL und DeepFloyd werden darin besser). Beispielsweise wurde durch eine Eingabeaufforderung mit den Worten „Eine Abbildung einer Avocado, die auf dem Stuhl eines Therapeuten sitzt und sagt: ‚Ich fühle mich innerlich so leer‘ mit einem grubengroßen Loch in der Mitte“ eine Cartoon-Avocado mit dem perfekten Charakterzitat erstellt eingekapselt in einer Sprechblase.

OpenAI sagt insbesondere, dass DALL-E 3 „nativ“ auf ChatGPT entwickelt wurde und als integrierte Funktion von ChatGPT Plus verfügbar sein wird, was Konversationsverfeinerungen an Bildern ermöglicht und den KI-Assistenten als Brainstorming-Partner nutzt. Dies bedeutet auch, dass ChatGPT in der Lage sein wird, Bilder basierend auf dem Kontext der aktuellen Konversation zu generieren, was zu neuartigen neuen Funktionen führen kann. Microsofts KI-Assistent Bing Chat, der ebenfalls auf der Technologie von OpenAI aufbaut, kann seit März Bilder in Gesprächen generieren .

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert