OpenAI DALL-E 2 dokáže vykreslit obrázky čehokoli, co si dokážete představit

OpenAI DALL-E 2 dokáže vykreslit obrázky čehokoli, co si dokážete představit

Umělá inteligence OpenAI DALL-E 2 vytváří kreslené obrázky na základě textového popisu z vaší fantazie.

V lednu 2021 konsorcium OpenAI, založené Elonem Muskem a financované Microsoftem, představilo svůj dosud nejambicióznější projekt, systém strojového učení DALL-E. Tato důmyslná multimodální umělá inteligence dokázala generovat obrázky ve stylu kreslených filmů pouze na základě uživatelem zadaných klíčových slov. Nedávno konsorcium představilo novou verzi DALL-E s vyšším rozlišením a nižší latencí než ta předchozí.

Umělá inteligence OpenAI DALL-E 2 vytváří kreslené obrázky

První verze DALL-E (zkratka pro Dalie a Wall-E) dokázala generovat obrázky a kombinovat více obrázků do koláže, navrhovat různé úhly a dokonce odhadovat řadu prvků obrázku – jako jsou efekty stínů – z jednoduchého písemného popisu. .

„Na rozdíl od 3D rendereru, jehož vstup musí být specifikován jednoznačně do nejmenších detailů, DALL-E často dokáže ‚vyplnit mezery‘, když název naznačuje, že obrázek obsahuje určité detaily, které nejsou explicitně uvedeny,“ vysvětlil tým. Otevřete AI v roce 2021.

DALL-E nebyl nikdy zamýšlen jako komerční produkt, takže jeho možnosti byly omezené, protože ho tým OpenAI považoval pouze za výzkumný nástroj. Bylo také nutné předejít situaci, kterou měl Microsoft se svým chatbotem Tay a aby systém nemohl generovat nepravdivé informace. Pro tuto druhou verzi zůstávají cíle stejné a do obrázku byl přidán vodoznak, který jasně naznačuje, že jej vytvořila umělá inteligence. Systém nyní navíc uživatelům zakazuje vytvářet obrázky s vlastními jmény.

podle textového popisu převzatého z vaší fantazie

DALL-E 2, který využívá systém rozpoznávání obrázků OpenAI CLIP, využívá jeho schopnosti generování obrázků. Uživatelé nyní mohou vybírat a upravovat konkrétní oblasti existujících obrázků, přidávat nebo odstraňovat prvky spolu s jejich stíny, sloučit dva obrázky do jedné koláže a vytvářet varianty existujícího obrázku. Vygenerované obrázky mají nyní čtverečky o velikosti 1024 pixelů, zatímco původní avataři měli 256 pixelů. CLIP byl navržen tak, aby shrnul obsah obrázku způsobem, který může člověk pochopit. Konsorcium zvrátilo proces vytvořením obrázku z jeho popisu.

„DALL-E 1 využil náš přístup k jazyku GPT-3 a použil jej k vytvoření obrázku: obrázky jsme komprimovali do sady slov a naučili se předvídat, co se stane dál,“ vysvětlil výzkumník Prafulla Dhariwal pro The Rod.

Na rozdíl od první verze, se kterou si na stránkách OpenAI mohl zahrát každý, je tato verze 2 v současnosti dostupná pouze určitým partnerům a oni sami jsou omezeni v tom, co mohou dělat. Jen pár šťastlivců to dokáže využít. Nemohou také exportovat obrázky vytvořené na platformě třetí strany, ačkoli OpenAI plánuje v budoucnu zpřístupnit nové funkce DALL-E 2 prostřednictvím API. Pokud si přesto chcete systém vyzkoušet, můžete se zapsat do pořadníku .

Napsat komentář

Vaše e-mailová adresa nebude zveřejněna. Vyžadované informace jsou označeny *