Il modello Genie di Google crea mondi 2D interattivi da una singola immagine

Il modello Genie di Google crea mondi 2D interattivi da una singola immagine

testo immagini video audio recentemente presentato il modello Genie

La pagina degli annunci di Genie di DeepMind mostra numerose GIF di esempio di semplici giochi in stile piattaforma generati da immagini iniziali statiche (schizzi di bambini, fotografie del mondo reale, ecc.) o persino suggerimenti di testo passati tramite ImageGen2 . E mentre quelle GIF dall’aspetto brillante sorvolano su alcune delle principali limitazioni attuali discusse nel documento di ricerca completo , i ricercatori sull’intelligenza artificiale sono ancora entusiasti di come la “modellazione del mondo fondamentale” generalizzabile di Genie potrebbe aiutare a potenziare l’apprendimento automatico in futuro.

Sotto il cappuccio

Anche se l’output di Genie sembra a prima vista simile a quello che potrebbe provenire da un motore di gioco 2D di base, il modello in realtà non disegna sprite e codifica un platform giocabile nello stesso modo in cui potrebbe farlo uno sviluppatore di giochi umano. Invece, il sistema tratta la sua immagine (o immagini) iniziale come fotogrammi di un video e genera un’ipotesi migliore su come dovrebbero apparire l’intero fotogramma (o i fotogrammi) successivi quando viene fornito un input specifico.

Per stabilire quel modello, Genie ha iniziato con 200.000 ore di video di giochi pubblici su Internet, che sono stati filtrati fino a 30.000 ore di video standardizzati da “centinaia di giochi 2D”. modello con cui un algoritmo di apprendimento automatico potrebbe facilmente funzionare.

Un'immagine come questa, generata tramite messaggio di testo a un generatore di immagini, può servire come punto di partenza per la costruzione del mondo di Genie.
Un esempio di movimento interattivo abilitato da Genie dall'immagine iniziale sopra (Click

Una volta stabilito il modello di azione latente, Genie genera quindi un “modello dinamico” che può accettare un numero qualsiasi di fotogrammi arbitrari e azioni latenti e generare un’ipotesi plausibile su come dovrebbe apparire il fotogramma successivo dato qualsiasi input potenziale. Questo modello finale termina con 10,7 miliardi di parametri addestrati su 942 miliardi di token, anche se i risultati di Genie suggeriscono che modelli anche più grandi genererebbero risultati migliori.

Il lavoro precedente sulla generazione di modelli interattivi simili utilizzando l’intelligenza artificiale generativa si basava sull’uso di “etichette di azioni di verità sul campo” o descrizioni testuali dei dati di addestramento per aiutare a guidare i loro algoritmi di apprendimento automatico. Genie si differenzia da quel lavoro per la sua capacità di “addestrarsi senza azioni o annotazioni di testo”, deducendo le azioni latenti dietro un video utilizzando nient’altro che quelle ore di fotogrammi video tokenizzati.

“La capacità di generalizzare a input così significativi [fuori distribuzione] sottolinea la robustezza del nostro approccio e il valore della formazione su dati su larga scala, che non sarebbe stato fattibile con azioni reali come input”, ha scritto il team di Genie nel suo documento di ricerca.

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *