OpenAI uus tehisintellekti kujutise generaator ületab detailide ja kiire täpsuse piire
Kolmapäeval kuulutas OpenAI välja DALL-E 3, oma tehisintellekti kujutise sünteesimudeli uusima versiooni, mis sisaldab täielikku integreerimist ChatGPT- ga . DALL-E 3 renderdab pilte, järgides hoolikalt keerulisi kirjeldusi ja käsitledes pildisisest teksti genereerimist (nt sildid ja sildid), mis vaidlustas varasemad mudelid. Praegu uurimistöö eelvaates on see ChatGPT Plusi ja Enterprise’i klientidele saadaval oktoobri alguses.
Nagu tema eelkäija , on ka DALLE-3 tekstist pildiks generaator, mis loob uudseid pilte kirjalike kirjelduste põhjal, mida nimetatakse viipadeks. Kuigi OpenAI ei avaldanud DALL-E 3 kohta tehnilisi üksikasju, kasutati DALL-E eelmiste versioonide keskmes olevat tehisintellekti mudelit miljonite inimeste kunstnike ja fotograafide loodud piltide põhjal, millest mõned on litsentsitud aktsiaveebisaitidelt, nagu Shutterstock . Tõenäoliselt järgib DALL-E 3 sama valemit, kuid uute treeningtehnikate ja rohkema arvutusliku treeningajaga.
OpenAI oma reklaamblogis esitatud näidiste põhjal näib DALL-E 3 olevat radikaalselt võimekam piltide sünteesimudel kui miski muu saadavalolevate juhiste järgi. Kuigi OpenAI näited on nende tõhususe tõttu valitud, näivad need järgivat täpseid juhiseid tõetruult ja veenvalt renderdavad objekte minimaalsete deformatsioonidega. Võrreldes DALL-E 2-ga ütleb OpenAI, et DALL-E 3 täiustab väiksemaid detaile, nagu käed, tõhusamalt, luues vaikimisi kaasahaaravaid pilte ilma häkkimise või kiire inseneritööta.
Võrdluseks, Midjourney , teise müüja konkureeriv tehisintellekti kujutise sünteesimudel, renderdab fotorealistlikke detaile hästi, kuid see nõuab siiski palju intuitiivset nuputamist, et saada kontroll pildi väljundi üle.
Näib, et DALL-E 3 käsitleb ka piltide teksti viisil, mida tema eelkäija ei suutnud (mõned konkureerivad mudelid, nagu Stable Diffusion XL ja DeepFloyd , saavad sellega paremini hakkama). Näiteks viip, mis sisaldas sõnu: „Illustratsioon terapeudi toolil istuvast avokaadost ja ütleb: „Ma tunnen end seest nii tühjana”, mille keskel on süvendisuurune auk”, lõi suurepäraselt tegelaskuju tsitaadiga koomiksi avokaado. kapseldatud kõnemulli.
Eelkõige ütleb OpenAI, et DALL-E 3 on loodud ChatGPT-le ja see saabub ChatGPT Plusi integreeritud funktsioonina, võimaldades pilte vestluses täpsustada viisil, mis kasutab AI-abilist ajurünnaku partnerina. See tähendab ka seda, et ChatGPT suudab praeguse vestluse konteksti põhjal pilte genereerida, mis võib kaasa tuua uudseid uusi võimalusi. Microsofti Bing Chat AI assistent, mis on samuti üles ehitatud OpenAI tehnoloogiale, on alates märtsist saanud vestluses pilte genereerida .
Lisa kommentaar