Googles Genie-modell skapar interaktiva 2D-världar från en enda bild
text bilder video ljud nyligen presenterade Genie modell
DeepMinds Genie-meddelandesida visar massor av exempel på GIF-bilder av enkla plattformsspel som genererats från statiska startbilder (barnskisser, verkliga fotografier, etc.) eller till och med textuppmaningar som skickas genom ImageGen2 . Och medan de snygga GIF-bilderna spolar över några stora nuvarande begränsningar som diskuteras i hela forskningsartikeln , är AI-forskare fortfarande spända på hur Genies generaliserbara ”grundläggande världsmodellering” skulle kunna hjälpa till att ladda maskininlärning framåt.
Under huven
Även om Genies utdata vid ett ögonkast liknar det som kan komma från en grundläggande 2D-spelmotor, ritar modellen faktiskt inte sprites och kodar ett spelbart plattformsspel på samma sätt som en mänsklig spelutvecklare kan. Istället behandlar systemet dess startbild (eller bilder) som bildrutor i en video och genererar en bästa gissning på hur hela nästa bildruta (eller bildrutor) ska se ut när den ges en specifik inmatning.
För att etablera den modellen började Genie med 200 000 timmars offentliga spelvideor på Internet, som filtrerades ner till 30 000 timmars standardiserad video från ”hundratals 2D-spel.” De individuella ramarna från dessa videor tokeniserades sedan till en 200 miljoner parameter modell som en maskininlärningsalgoritm enkelt skulle kunna arbeta med.
Med den latenta handlingsmodellen etablerad, genererar Genie sedan en ”dynamikmodell” som kan ta valfritt antal godtyckliga ramar och latenta åtgärder och generera en välgrundad gissning om hur nästa bildruta ska se ut givet eventuella indata. Denna slutliga modell slutar med 10,7 miljarder parametrar tränade på 942 miljarder tokens, även om Genies resultat tyder på att även större modeller skulle generera bättre resultat.
Tidigare arbete med att generera liknande interaktiva modeller med hjälp av generativ AI har förlitat sig på att använda ”ground truth action labels” eller textbeskrivningar av träningsdata för att vägleda deras maskininlärningsalgoritmer. Genie skiljer sig från det arbetet i sin förmåga att ”träna utan åtgärd eller textkommentarer”, och sluta sig till de latenta åtgärderna bakom en video med bara de timmarna av tokeniserade videoramar.
”Förmågan att generalisera till sådana betydande [utanför distribution] indata understryker robustheten i vårt tillvägagångssätt och värdet av att träna på storskalig data, vilket inte skulle ha varit möjligt med verkliga åtgärder som input,” skrev Genie-teamet i sin forskningsrapport.
Lämna ett svar