OpenAI:s nya AI-bildgenerator tänjer på gränserna i detalj och snabb trohet

På onsdagen tillkännagav OpenAI DALL-E 3, den senaste versionen av sin AI-bildsyntesmodell som har full integration med ChatGPT . DALL-E 3 återger bilder genom att noggrant följa komplexa beskrivningar och hantera textgenerering i bilden (som etiketter och skyltar), vilket utmanade tidigare modeller. För närvarande i forskningsförhandsvisning kommer den att vara tillgänglig för ChatGPT Plus- och Enterprise-kunder i början av oktober.
Liksom sin föregångare är DALLE-3 en text-till-bild-generator som skapar nya bilder baserade på skrivna beskrivningar som kallas prompter. Även om OpenAI inte släppte några tekniska detaljer om DALL-E 3, tränades AI-modellen i hjärtat av tidigare versioner av DALL-E på miljontals bilder skapade av mänskliga konstnärer och fotografer, några av dem licensierade från aktiewebbplatser som Shutterstock . Det är troligt att DALL-E 3 följer samma formel, men med nya träningstekniker och mer beräkningstid.
Att döma av proverna från OpenAI på sin reklamblogg, verkar DALL-E 3 vara en radikalt mer kapabel bildsyntesmodell än något annat tillgängligt när det gäller följande uppmaningar. Även om OpenAI:s exempel har blivit körsbärsplockade för sin effektivitet, verkar de följa de snabba instruktionerna troget och övertygande återger objekt med minimala deformationer. Jämfört med DALL-E 2 säger OpenAI att DALL-E 3 förfinar små detaljer som händer mer effektivt och skapar engagerande bilder som standard utan ”inga hacks eller snabb teknik krävs.”









I jämförelse, Midjourney , en konkurrerande AI-bildsyntesmodell från en annan leverantör, återger fotorealistiska detaljer bra, men det kräver fortfarande en hel del kontraintuitivt mixtrande med uppmaningar för att få kontroll över bildutmatningen.
DALL-E 3 verkar också hantera text i bilder på ett sätt som dess föregångare inte kunde (vissa konkurrerande modeller som Stable Diffusion XL och DeepFloyd blir bättre på det). Till exempel, en uppmaning som inkluderade orden ”En illustration av en avokado som sitter i en terapeuts stol och säger ”Jag känner mig så tom inuti” med ett hål i storleken i mitten, skapade en tecknad avokado med karaktärscitatet perfekt inkapslad i en pratbubbla.
OpenAI säger att DALL-E 3 har ”byggts inbyggt” på ChatGPT och kommer att komma som en integrerad funktion i ChatGPT Plus, vilket tillåter konversationsförfining av bilder på ett sätt som kommer att använda AI-assistenten som en brainstorming-partner. Det betyder också att ChatGPT kommer att kunna generera bilder baserat på kontexten för den aktuella konversationen, vilket kan leda till nya nya funktioner. Microsofts Bing Chat AI-assistent, också byggd på teknik från OpenAI, har kunnat generera bilder i konversation sedan mars.
Lämna ett svar