Googles Genie-model skaber interaktive 2D-verdener ud fra et enkelt billede

tekst billeder video lyd for nylig afsløret Genie model

DeepMinds Genie-meddelelsesside viser masser af eksempler på GIF’er af simple platformstilspil, der er genereret ud fra statiske startbilleder (børneskitser, fotografier fra den virkelige verden osv.) eller endda tekstprompter, der er sendt gennem ImageGen2 . Og mens de smarte GIF’er udviser nogle store aktuelle begrænsninger, som diskuteres i hele forskningspapiret , er AI-forskere stadig begejstrede for, hvordan Genies generaliserbare “grundlæggende verdensmodellering” kunne hjælpe med at superlade maskinlæring fremadrettet.

Under kølerhjelmen

Mens Genies output ved et blik ligner det, der kunne komme fra en grundlæggende 2D-spilmotor, tegner modellen faktisk ikke sprites og koder en spilbar platformer på samme måde som en menneskelig spiludvikler. I stedet behandler systemet dets startbillede (eller billeder) som frames af en video og genererer et bedste bud på, hvordan hele den næste frame (eller frames) skal se ud, når den gives et specifikt input.

For at etablere den model startede Genie med 200.000 timers offentlige internetspilvideoer, som blev filtreret ned til 30.000 timers standardiseret video fra “hundredvis af 2D-spil.” De individuelle frames fra disse videoer blev derefter tokeniseret til en 200 millioner-parameter model, som en maskinlæringsalgoritme nemt kunne arbejde med.

Et billede som dette, genereret via tekstprompt til en billedgenerator, kan tjene som udgangspunkt for Genies verdensopbygning.

Et eksempel på interaktiv bevægelse aktiveret af Genie fra startbilledet ovenfor (Klik

Med den latente handlingsmodel etableret, genererer Genie derefter en “dynamikmodel”, der kan tage et hvilket som helst antal vilkårlige rammer og latente handlinger og generere et kvalificeret gæt om, hvordan den næste frame skal se ud givet ethvert potentielt input. Denne endelige model ender med 10,7 milliarder parametre trænet på 942 milliarder tokens, selvom Genies resultater tyder på, at selv større modeller ville generere bedre resultater.

Tidligere arbejde med at generere lignende interaktive modeller ved brug af generativ AI har været afhængig af brugen af ”ground truth action labels” eller tekstbeskrivelser af træningsdata for at hjælpe med at guide deres maskinlæringsalgoritmer. Genie adskiller sig fra dette arbejde i sin evne til at “træne uden handling eller tekstanmærkninger,” ved at udlede de latente handlinger bag en video ved hjælp af kun disse timers tokeniserede videoframes.

“Evnen til at generalisere til så betydelige inputs [uden for distribution] understreger robustheden af vores tilgang og værdien af at træne på data i stor målestok, hvilket ikke ville have været muligt med reelle handlinger som input,” skrev Genie-teamet i sit forskningspapir.

Posted on marts 5, 2024

News

admin

Googles Genie-model skaber interaktive 2D-verdener ud fra et enkelt billede

Under kølerhjelmen

Skriv et svar Annuller svar

Infinite Craft: Sådan får du religion

Apple lancerer iOS 17.4 med nye iPhone-emoji, Apple Podcasts-udskrifter, ændringer for brugere i EU og mere