Googlen Genie-malli luo interaktiivisia 2D-maailmoja yhdestä kuvasta

Googlen Genie-malli luo interaktiivisia 2D-maailmoja yhdestä kuvasta

teksti kuvat video audio äskettäin julkistettu Genie-malli

DeepMindin Genie-ilmoitussivulla on runsaasti GIF-näytteitä yksinkertaisista alustatyylisistä peleistä, jotka on luotu staattisista aloituskuvista (lasten luonnoksista, tosielämän valokuvista jne.) tai jopa ImageGen2:n kautta lähetetyistä tekstikehotteista . Ja vaikka nuo näppärän näköiset GIF-kuvat ohittavat joitain suuria nykyisiä rajoituksia, joita käsitellään koko tutkimuspaperissa , tekoälytutkijat ovat edelleen innoissaan siitä, kuinka Genien yleistettävä ”maailmanperustainen mallinnus” voisi auttaa tehostamaan koneoppimista eteenpäin.

Konepellin alle

Vaikka Genien tulos näyttää yhdellä silmäyksellä samanlaiselta kuin 2D-peruspelimoottorista, malli ei itse asiassa piirrä spritejä ja koodaa pelattavaa tasohyppelyä samalla tavalla kuin ihmispelien kehittäjä. Sen sijaan järjestelmä käsittelee aloituskuvaansa (tai -kuvia) videon kehyksinä ja luo parhaan arvauksen siitä, miltä koko seuraavan kehyksen (tai kehysten) pitäisi näyttää, kun sille annetaan tietty syöte.

Tämän mallin luomiseksi Genie aloitti 200 000 tunnilla julkisia Internet-pelivideoita, jotka suodatettiin 30 000 tunniksi standardoitua videota ”sadoista 2D-peleistä”. Näiden videoiden yksittäiset kehykset merkittiin sitten 200 miljoonan parametrin mittaiseksi. malli, jonka kanssa koneoppimisalgoritmi voisi helposti toimia.

Tällainen kuva, joka on luotu tekstikehotteen avulla kuvageneraattoriin, voi toimia lähtökohtana Genien maailmanrakentamiselle.
Esimerkki Genien mahdollistamasta interaktiivisesta liikkeestä yllä olevasta aloituskuvasta (Klikkaa

Kun piilevä toimintamalli on luotu, Genie luo sitten ”dynamiikkamallin”, joka voi ottaa minkä tahansa määrän mielivaltaisia ​​kehyksiä ja piileviä toimia ja tuottaa valistuneen arvauksen siitä, miltä seuraavan kehyksen pitäisi näyttää mahdollisella syötteellä. Tämä lopullinen malli päätyy 10,7 miljardiin parametriin, jotka on koulutettu 942 miljardiin tokeniin, vaikka Genien tulokset viittaavat siihen, että jopa suuremmat mallit tuottaisivat parempia tuloksia.

Aikaisempi työ samankaltaisten interaktiivisten mallien luomiseksi generatiivisen tekoälyn avulla on tukeutunut ”pohjaisten totuuden toimintotunnisteiden” tai koulutustietojen tekstikuvausten käyttämiseen koneoppimisalgoritmien ohjaamiseksi. Genie erottuu tästä työstä kyvyllään ”harjoitella ilman toimintaa tai tekstimerkintöjä” ja päättelee videon takana piilevät toiminnot käyttämällä vain niitä tuntikausia tokenoituja videoruutuja.

”Kyky yleistää sellaisiin merkittäviin [jakelun ulkopuolisiin] syötteisiin korostaa lähestymistapamme vankuutta ja suuren mittakaavan datan koulutuksen arvoa, mikä ei olisi ollut mahdollista todellisilla toimilla syötteenä”, Genie-tiimi kirjoitti. tutkimuspaperissaan.

Vastaa

Sähköpostiosoitettasi ei julkaista. Pakolliset kentät on merkitty *