Het Genie-model van Google creëert interactieve 2D-werelden vanuit één afbeelding
tekst afbeeldingen video audio onlangs onthuld Genie-model
De Genie-aankondigingspagina van DeepMind toont tal van voorbeeld-GIF’s van eenvoudige games in platformstijl, gegenereerd op basis van statische startafbeeldingen (schetsen van kinderen, foto’s uit de echte wereld, enz.) of zelfs tekstprompts die via ImageGen2 worden doorgegeven . En hoewel die gelikte GIF’s een aantal belangrijke huidige beperkingen verdoezelen die in het volledige onderzoekspaper worden besproken , zijn AI-onderzoekers nog steeds enthousiast over hoe Genie’s generaliseerbare ‘fundamentele wereldmodellering’ machine learning in de toekomst zou kunnen helpen een impuls te geven.
Onder de motorkap
Hoewel de output van Genie in één oogopslag lijkt op wat uit een standaard 2D-game-engine zou kunnen komen, tekent het model niet echt sprites en codeert een speelbare platformgame niet op dezelfde manier als een menselijke game-ontwikkelaar dat zou kunnen. In plaats daarvan behandelt het systeem de startafbeelding (of -afbeeldingen) als frames van een video en genereert het een beste inschatting van hoe het volledige volgende frame (of frames) eruit zou moeten zien als er een specifieke invoer wordt gegeven.
Om dat model vast te stellen, begon Genie met 200.000 uur aan openbare internetgamevideo’s, die werden gefilterd tot 30.000 uur gestandaardiseerde video uit ‘honderden 2D-games’. De individuele frames uit die video’s werden vervolgens omgezet in een parameter van 200 miljoen parameters. model waarmee een machine learning-algoritme gemakkelijk zou kunnen werken.


Nu het latente actiemodel is vastgesteld, genereert Genie vervolgens een ‘dynamisch model’ dat een willekeurig aantal willekeurige frames en latente acties kan gebruiken en een weloverwogen inschatting kan genereren over hoe het volgende frame eruit zou moeten zien, gegeven elke mogelijke input. Dit uiteindelijke model eindigt met 10,7 miljard parameters die zijn getraind op 942 miljard tokens, hoewel de resultaten van Genie suggereren dat zelfs grotere modellen betere resultaten zouden opleveren.
Eerder werk aan het genereren van vergelijkbare interactieve modellen met behulp van generatieve AI was gebaseerd op het gebruik van ‘ground reality action labels’ of tekstbeschrijvingen van trainingsgegevens om hun machine learning-algoritmen te helpen begeleiden. Genie onderscheidt zich van dat werk door zijn vermogen om ‘te trainen zonder actie of tekstannotaties’, waarbij de latente acties achter een video worden afgeleid uit niets anders dan die uren aan tokenized videoframes.
“Het vermogen om te generaliseren naar zulke significante [buiten-distributie] inputs onderstreept de robuustheid van onze aanpak en de waarde van training op grootschalige data, wat niet haalbaar zou zijn geweest met echte acties als input”, schreef het Genie-team. in zijn onderzoekspaper.
Geef een reactie