OpenAIs nye AI-billedgenerator skubber grænserne i detaljer og prompter troskab
I onsdags annoncerede OpenAI DALL-E 3, den seneste version af sin AI-billedsyntesemodel, der har fuld integration med ChatGPT . DALL-E 3 gengiver billeder ved nøje at følge komplekse beskrivelser og håndtere tekstgenerering i billedet (såsom etiketter og skilte), som udfordrede tidligere modeller. I øjeblikket i research preview vil den være tilgængelig for ChatGPT Plus og Enterprise-kunder i begyndelsen af oktober.
Ligesom sin forgænger er DALLE-3 en tekst-til-billede-generator, der skaber nye billeder baseret på skriftlige beskrivelser kaldet prompter. Selvom OpenAI ikke udgav nogen tekniske detaljer om DALL-E 3, blev AI-modellen i hjertet af tidligere versioner af DALL-E trænet på millioner af billeder skabt af menneskelige kunstnere og fotografer, nogle af dem licenseret fra aktiewebsteder som Shutterstock . Det er sandsynligt, at DALL-E 3 følger den samme formel, men med nye træningsteknikker og mere beregningsmæssig træningstid.
At dømme efter prøverne leveret af OpenAI på sin reklameblog, ser DALL-E 3 ud til at være en radikalt mere dygtig billedsyntesemodel end noget andet tilgængeligt med hensyn til følgende prompter. Mens OpenAI’s eksempler er blevet udvalgt for deres effektivitet, ser de ud til at følge de hurtige instruktioner trofast og overbevisende gengiver objekter med minimale deformationer. Sammenlignet med DALL-E 2 siger OpenAI, at DALL-E 3 forfiner små detaljer som hænder mere effektivt og skaber engagerende billeder som standard med “ingen hacks eller prompt engineering påkrævet.”
Til sammenligning gengiver Midjourney , en konkurrerende AI-billedsyntesemodel fra en anden leverandør, fotorealistiske detaljer godt, men det kræver stadig en hel del kontraintuitivt fidus med prompter for at få kontrol over billedoutputtet.
DALL-E 3 ser også ud til at håndtere tekst i billeder på en måde, som dens forgænger ikke kunne (nogle konkurrerende modeller som Stable Diffusion XL og DeepFloyd bliver bedre til det). For eksempel skabte en prompt, der indeholdt ordene: “En illustration af en avocado, der sidder i en terapeuts stol og siger ‘Jeg føler mig så tom indeni’ med et hul på størrelse med et hul i midten”, en tegneserie avocado med karaktercitatet perfekt indkapslet i en taleboble.
Navnlig siger OpenAI, at DALL-E 3 er blevet “bygget indbygget” på ChatGPT og vil ankomme som en integreret funktion i ChatGPT Plus, der tillader samtaleforfinelser af billeder på en måde, der vil bruge AI-assistenten som en brainstorming-partner. Det betyder også, at ChatGPT vil være i stand til at generere billeder baseret på konteksten af den aktuelle samtale, hvilket kan føre til nye nye muligheder. Microsofts Bing Chat AI-assistent, også bygget på teknologi fra OpenAI, har været i stand til at generere billeder i samtale siden marts.
Skriv et svar