Naujasis OpenAI AI vaizdų generatorius peržengia detalių ir greito tikslumo ribas
Trečiadienį OpenAI paskelbė apie DALL-E 3, naujausią AI vaizdo sintezės modelio versiją, kuri yra visiškai integruota su ChatGPT . DALL-E 3 pateikia vaizdus atidžiai sekant sudėtingus aprašymus ir tvarkydamas teksto generavimą vaizde (pvz., etiketes ir ženklus), o tai kėlė iššūkį ankstesniems modeliams. Šiuo metu tyrimo peržiūra, ji bus pasiekiama „ChatGPT Plus“ ir „Enterprise“ klientams spalio pradžioje.
Kaip ir jo pirmtakas , DALLE-3 yra teksto į vaizdą generatorius, kuris kuria naujus vaizdus pagal rašytinius aprašymus, vadinamus raginimais. Nors OpenAI nepaskelbė jokios techninės informacijos apie DALL-E 3, AI modelis, kuris buvo ankstesnių DALL-E versijų pagrindas, buvo apmokytas milijonais vaizdų, sukurtų žmonių menininkų ir fotografų, kai kurie iš jų licencijuoti iš atsarginių svetainių, tokių kaip Shutterstock . Tikėtina, kad DALL-E 3 vadovaujasi ta pačia formule, bet su naujais mokymo metodais ir daugiau skaičiavimo treniruočių laiko.
Sprendžiant iš pavyzdžių, kuriuos OpenAI pateikė savo reklaminiame tinklaraštyje, atrodo, kad DALL-E 3 yra radikaliai pajėgesnis vaizdo sintezės modelis nei bet kas kitas galimas sekančių raginimų požiūriu. Nors „OpenAI“ pavyzdžiai buvo atrinkti dėl savo efektyvumo, atrodo, kad jie tiksliai ir įtikinamai laikosi greitų instrukcijų, atkuriant objektus su minimaliomis deformacijomis. Palyginti su DALL-E 2 , OpenAI teigia, kad DALL-E 3 efektyviau patobulina mažas detales, pvz., rankas, sukurdamas patrauklius vaizdus pagal numatytuosius nustatymus, „nereikia jokių įsilaužimų ar greitos inžinerijos“.
Palyginimui, Midjourney , konkuruojantis kito gamintojo AI vaizdo sintezės modelis, gerai atvaizduoja fotorealistines detales, tačiau norint valdyti vaizdo išvestį, vis tiek reikia daug priešingos intuityvios klaidos su raginimais.
Atrodo, kad DALL-E 3 tvarko tekstą vaizduose taip, kaip negalėjo jo pirmtakas (kai kurie konkuruojantys modeliai, tokie kaip „ Stable Diffusion XL“ ir „DeepFloyd“ , vis geriau tai daro). Pavyzdžiui, raginimas, kuriame buvo žodžiai: „Avokado, sėdinčio terapeuto kėdėje, iliustracija, sakoma: „Aš jaučiuosi toks tuščias viduje“, kurio centre yra duobės dydžio skylė“, puikiai sukūrė animacinį avokadą su veikėjo citata. inkapsuliuotas į kalbos burbulą.
Pažymėtina, kad „OpenAI“ teigia, kad „DALL-E 3“ buvo sukurtas pagal „ChatGPT“ ir bus įtrauktas kaip integruota „ChatGPT Plus“ funkcija, leidžianti patobulinti vaizdus pokalbio metu taip, kad dirbtinio intelekto asistentas būtų naudojamas kaip smegenų šturmo partneris. Tai taip pat reiškia, kad „ChatGPT“ galės generuoti vaizdus pagal dabartinio pokalbio kontekstą, todėl gali atsirasti naujų naujų galimybių. „Microsoft“ „Bing Chat AI“ asistentas, taip pat sukurtas naudojant „OpenAI“ technologiją, nuo kovo mėnesio galėjo generuoti vaizdus pokalbio metu .
Parašykite komentarą