Model Genie od Googlu vytváří interaktivní 2D světy z jediného obrázku

Model Genie od Googlu vytváří interaktivní 2D světy z jediného obrázku

text obrázky video zvuk nedávno představil model Genie

Stránka s oznámením Genie společnosti DeepMind zobrazuje spoustu ukázkových GIFů jednoduchých her ve stylu platformy generovaných ze statických úvodních obrázků (náčrtky dětí, fotografie ze skutečného světa atd.) nebo dokonce textových výzev procházejících přes ImageGen2 . A zatímco tyto uhlazeně vyhlížející GIFy odhalují některá hlavní současná omezení, která jsou diskutována v celém výzkumném dokumentu , výzkumníci AI jsou stále nadšeni tím, jak by zobecněné „modelování základního světa“ společnosti Genie mohlo pomoci přebudit strojové učení do budoucna.

Pod kapotou

Zatímco výstup Genie vypadá na první pohled podobně jako to, co by mohlo pocházet ze základního 2D herního enginu, model ve skutečnosti nekreslí skřítky a nekóduje hratelnou plošinovku stejným způsobem, jakým to dělá vývojář lidských her. Místo toho systém zachází se svým počátečním obrázkem (nebo obrázky) jako se snímky videa a generuje nejlepší odhad toho, jak by měl celý další snímek (nebo snímky) vypadat, když je zadán konkrétní vstup.

Aby Genie vytvořil tento model, začal s 200 000 hodinami veřejných internetových herních videí, které byly filtrovány na 30 000 hodin standardizovaného videa ze „stovek 2D her“. Jednotlivé snímky z těchto videí byly poté tokenizovány do 200 milionů parametrů. model, se kterým by algoritmus strojového učení mohl snadno pracovat.

Obrázek, jako je tento, generovaný pomocí textové výzvy do generátoru obrázků, může sloužit jako výchozí bod pro budování světa Genie.
Ukázka interaktivního pohybu, který Genie umožňuje z výše uvedeného úvodního obrázku (Klikněte

Se zavedeným modelem latentní akce pak Genie vygeneruje „dynamický model“, který může přijmout libovolný počet libovolných snímků a latentních akcí a generovat kvalifikovaný odhad toho, jak by měl vypadat další snímek s ohledem na jakýkoli potenciální vstup. Tento konečný model končí s 10,7 miliardami parametrů natrénovaných na 942 miliardách tokenů, ačkoli výsledky Genie naznačují, že ještě větší modely by generovaly lepší výsledky.

Předchozí práce na generování podobných interaktivních modelů pomocí generativní umělé inteligence se spoléhaly na používání „názvů akcí pozemní pravdy“ nebo textových popisů trénovacích dat, které jim pomohou vést jejich algoritmy strojového učení. Genie se od této práce odlišuje ve své schopnosti „trénovat bez akce nebo textových anotací“, přičemž odvozuje skryté akce za videem pomocí ničeho jiného než těch hodin tokenizovaných snímků videa.

„Schopnost zobecnit na takto významně [mimo distribuci] vstupy podtrhuje robustnost našeho přístupu a hodnotu školení na rozsáhlých datech, které by nebylo možné s reálnými akcemi jako vstupem,“ napsal tým Genie. ve své výzkumné práci.

Napsat komentář

Vaše e-mailová adresa nebude zveřejněna. Vyžadované informace jsou označeny *