OpenAI jaunais mākslīgā intelekta attēlu ģenerators pārkāpj robežas detaļās un ātru precizitāti
Trešdien OpenAI paziņoja par DALL-E 3, tā AI attēlu sintēzes modeļa jaunāko versiju, kas nodrošina pilnīgu integrāciju ar ChatGPT . DALL-E 3 atveido attēlus, rūpīgi sekojot sarežģītiem aprakstiem un apstrādājot attēla teksta ģenerēšanu (piemēram, etiķetes un zīmes), kas izaicināja iepriekšējos modeļus. Pašlaik izpētes priekšskatījumā tas būs pieejams ChatGPT Plus un Enterprise klientiem oktobra sākumā.
Tāpat kā tā priekšgājējs , DALLE-3 ir teksta pārveides ģenerators, kas rada jaunus attēlus, pamatojoties uz rakstiskiem aprakstiem, ko sauc par uzvednēm. Lai gan OpenAI neizdeva nekādu tehnisku informāciju par DALL-E 3, AI modelis, kas bija DALL-E iepriekšējo versiju pamatā, tika apmācīts miljoniem attēlu, ko radījuši cilvēki mākslinieki un fotogrāfi, daži no tiem ir licencēti no akciju vietnēm, piemēram, Shutterstock . Visticamāk, DALL-E 3 izmanto šo pašu formulu, taču ar jaunām apmācības metodēm un vairāk skaitļošanas laika.
Spriežot pēc OpenAI piedāvātajiem paraugiem savā reklāmas emuārā, šķiet, ka DALL-E 3 ir radikāli spējīgāks attēlu sintēzes modelis nekā jebkas cits, kas pieejams sekojošo uzvedņu ziņā. Lai gan OpenAI piemēri ir īpaši atlasīti to efektivitātes dēļ, šķiet, ka tie precīzi un pārliecinoši izpilda tūlītējos norādījumus, un tie atveido objektus ar minimālām deformācijām. Salīdzinot ar DALL-E 2 , OpenAI saka, ka DALL-E 3 efektīvāk uzlabo sīkas detaļas, piemēram, rokas, pēc noklusējuma radot saistošus attēlus, “nav nepieciešami uzlauzumi vai tūlītēja inženierija”.
Salīdzinājumam, Midjourney , konkurējošs AI attēlu sintēzes modelis no cita pārdevēja, labi atveido fotoreālistiskas detaļas, taču, lai iegūtu jebkādu kontroli pār attēla izvadi, joprojām ir nepieciešams daudz pretintuitīvas mānīšanās ar uzvednēm.
Šķiet, ka DALL-E 3 arī apstrādā tekstu attēlos tā, kā to nevarēja izdarīt tā priekšgājējs (daži konkurējoši modeļi, piemēram, Stable Diffusion XL un DeepFloyd , to uzlabo). Piemēram, uzvedne, kurā bija ietverti vārdi: “Ilustrācija ar avokado, kas sēž terapeita krēslā, sakot: “Iekšā jūtos tik tukšs” ar bedres lielumu centrā”, izveidoja multfilmas avokado ar varoņa citātu. iekapsulēts runas burbulī.
Konkrēti, OpenAI saka, ka DALL-E 3 ir “izveidots sākotnēji” uz ChatGPT un ieradīsies kā integrēta ChatGPT Plus funkcija, ļaujot pilnveidot attēlus tādā veidā, ka AI palīgs tiks izmantots kā prāta vētras partneris. Tas arī nozīmē, ka ChatGPT varēs ģenerēt attēlus, pamatojoties uz pašreizējās sarunas kontekstu, kas var radīt jaunas iespējas. Microsoft Bing Chat AI palīgs, kas arī ir balstīts uz OpenAI tehnoloģiju, kopš marta ir spējis ģenerēt attēlus sarunā .
Atbildēt