Nový generátor obrázků AI OpenAI posouvá limity v detailech a rychlé věrnosti

Nový generátor obrázků AI OpenAI posouvá limity v detailech a rychlé věrnosti

Ve středu OpenAI oznámilo DALL-E 3, nejnovější verzi svého modelu syntézy obrazu AI, který nabízí plnou integraci s ChatGPT . DALL-E 3 vykresluje obrázky důsledným sledováním složitých popisů a zpracováním generování textu v obraze (jako jsou štítky a nápisy), což zpochybnilo dřívější modely. V současné době ve fázi průzkumu bude k dispozici zákazníkům ChatGPT Plus a Enterprise začátkem října.

Stejně jako jeho předchůdce , DALLE-3 je generátor textu na obrázek, který vytváří nové obrázky na základě písemných popisů nazývaných výzvy. Přestože OpenAI nezveřejnila žádné technické podrobnosti o DALL-E 3, model umělé inteligence v srdci předchozích verzí DALL-E byl trénován na milionech obrázků vytvořených lidskými umělci a fotografy, z nichž některé byly licencovány z webových stránek, jako je Shutterstock . Je pravděpodobné, že DALL-E 3 se řídí stejným vzorcem, ale s novými tréninkovými technikami a delším výpočtovým tréninkovým časem.

Soudě podle ukázek poskytnutých OpenAI na jejím propagačním blogu se DALL-E 3 zdá být radikálně schopnějším modelem syntézy obrazu než cokoli jiného dostupného, ​​pokud jde o následující výzvy. Zatímco příklady OpenAI byly vybrány pro svou účinnost, zdá se, že věrně a přesvědčivě vykreslují objekty s minimálními deformacemi. Ve srovnání s DALL-E 2 OpenAI říká, že DALL-E 3 zjemňuje malé detaily, jako jsou ruce, efektivněji a ve výchozím nastavení vytváří poutavé obrázky bez „žádných hacků nebo rychlého inženýrství“.

Žádný
Žádný
Žádný
Žádný
Žádný
Žádný
Žádný
Žádný
Žádný

Ve srovnání s tím Midjourney , konkurenční model syntézy obrazu s umělou inteligencí od jiného dodavatele, vykresluje fotorealistické detaily dobře, ale stále vyžaduje hodně neintuitivního pohrávání s výzvami, abyste získali jakoukoli kontrolu nad obrazovým výstupem.

Zdá se, že DALL-E 3 také zpracovává text v obrázcích způsobem, který jeho předchůdce nedokázal (některé konkurenční modely jako Stable Diffusion XL a DeepFloyd se v tom zlepšují). Například výzva, která obsahovala slova: „Ilustrace avokáda sedícího v terapeutově křesle a říká: ‚Cítím se uvnitř tak prázdný‘ s dírou o velikosti jamky uprostřed,“ vytvořilo kreslené avokádo s citátem postavy dokonale. zapouzdřený v řečové bublině.

OpenAI říká, že DALL-E 3 byl „nativně vytvořen“ na ChatGPT a přijde jako integrovaná funkce ChatGPT Plus, která umožní konverzační upřesnění obrázků způsobem, který využije asistenta AI jako partnera pro brainstorming. Znamená to také, že ChatGPT bude schopen generovat obrázky na základě kontextu aktuální konverzace, což může vést k novým novým možnostem. Asistent AI Bing Chat od Microsoftu, rovněž postavený na technologii od OpenAI, dokáže od března generovat obrázky v konverzaci .

Napsat komentář

Vaše e-mailová adresa nebude zveřejněna. Vyžadované informace jsou označeny *