Il nuovo generatore di immagini AI di OpenAI spinge i limiti in termini di dettaglio e fedeltà immediata
Mercoledì, OpenAI ha annunciato DALL-E 3, l’ultima versione del suo modello di sintesi di immagini AI che presenta la piena integrazione con ChatGPT . DALL-E 3 esegue il rendering delle immagini seguendo da vicino descrizioni complesse e gestendo la generazione di testo nell’immagine (come etichette e segni), che ha messo in discussione i modelli precedenti. Attualmente in fase di anteprima di ricerca, sarà disponibile per i clienti ChatGPT Plus ed Enterprise all’inizio di ottobre.
Come il suo predecessore , DALLE-3 è un generatore di testo in immagine che crea nuove immagini basate su descrizioni scritte chiamate prompt. Sebbene OpenAI non abbia rilasciato dettagli tecnici su DALL-E 3, il modello AI alla base delle versioni precedenti di DALL-E è stato addestrato su milioni di immagini create da artisti e fotografi umani, alcuni dei quali concessi in licenza da siti Web di stock come Shutterstock . È probabile che DALL-E 3 segua la stessa formula, ma con nuove tecniche di addestramento e più tempo di addestramento computazionale.
A giudicare dagli esempi forniti da OpenAI sul suo blog promozionale, DALL-E 3 sembra essere un modello di sintesi delle immagini radicalmente più capace di qualsiasi altro modello disponibile in termini di istruzioni successive. Sebbene gli esempi di OpenAI siano stati scelti attentamente per la loro efficacia, sembrano seguire fedelmente le istruzioni tempestive e rendere in modo convincente gli oggetti con deformazioni minime. Rispetto a DALL-E 2 , OpenAI afferma che DALL-E 3 perfeziona piccoli dettagli come le mani in modo più efficace, creando immagini accattivanti per impostazione predefinita senza “nessun hack o ingegneria tempestiva richiesta”.
In confronto, Midjourney , un modello di sintesi di immagini AI concorrente di un altro fornitore, rende bene i dettagli fotorealistici, ma richiede ancora una grande quantità di armeggi controintuitivi con le istruzioni per ottenere il controllo sull’output dell’immagine.
DALL-E 3 sembra anche gestire il testo all’interno delle immagini in un modo che il suo predecessore non poteva (alcuni modelli concorrenti come Stable Diffusion XL e DeepFloyd stanno migliorando). Ad esempio, un messaggio che includeva le parole “Un’illustrazione di un avocado seduto sulla sedia di un terapista, che dice ‘Mi sento così vuoto dentro’ con un buco grande quanto una fossa al centro”, creava un avocado da cartone animato con la citazione del personaggio perfettamente racchiuso in un fumetto.
In particolare, OpenAI afferma che DALL-E 3 è stato “costruito in modo nativo” su ChatGPT e arriverà come funzionalità integrata di ChatGPT Plus, consentendo perfezionamenti conversazionali alle immagini in un modo che utilizzerà l’assistente AI come partner di brainstorming. Significa anche che ChatGPT sarà in grado di generare immagini in base al contesto della conversazione corrente, il che potrebbe portare a nuove funzionalità. L’assistente Bing Chat AI di Microsoft, anch’esso basato sulla tecnologia OpenAI, è in grado di generare immagini durante le conversazioni da marzo.
Lascia un commento