Googlen Genie-malli luo interaktiivisia 2D-maailmoja yhdestä kuvasta
teksti kuvat video audio äskettäin julkistettu Genie-malli
DeepMindin Genie-ilmoitussivulla on runsaasti GIF-näytteitä yksinkertaisista alustatyylisistä peleistä, jotka on luotu staattisista aloituskuvista (lasten luonnoksista, tosielämän valokuvista jne.) tai jopa ImageGen2:n kautta lähetetyistä tekstikehotteista . Ja vaikka nuo näppärän näköiset GIF-kuvat ohittavat joitain suuria nykyisiä rajoituksia, joita käsitellään koko tutkimuspaperissa , tekoälytutkijat ovat edelleen innoissaan siitä, kuinka Genien yleistettävä ”maailmanperustainen mallinnus” voisi auttaa tehostamaan koneoppimista eteenpäin.
Konepellin alle
Vaikka Genien tulos näyttää yhdellä silmäyksellä samanlaiselta kuin 2D-peruspelimoottorista, malli ei itse asiassa piirrä spritejä ja koodaa pelattavaa tasohyppelyä samalla tavalla kuin ihmispelien kehittäjä. Sen sijaan järjestelmä käsittelee aloituskuvaansa (tai -kuvia) videon kehyksinä ja luo parhaan arvauksen siitä, miltä koko seuraavan kehyksen (tai kehysten) pitäisi näyttää, kun sille annetaan tietty syöte.
Tämän mallin luomiseksi Genie aloitti 200 000 tunnilla julkisia Internet-pelivideoita, jotka suodatettiin 30 000 tunniksi standardoitua videota ”sadoista 2D-peleistä”. Näiden videoiden yksittäiset kehykset merkittiin sitten 200 miljoonan parametrin mittaiseksi. malli, jonka kanssa koneoppimisalgoritmi voisi helposti toimia.
Kun piilevä toimintamalli on luotu, Genie luo sitten ”dynamiikkamallin”, joka voi ottaa minkä tahansa määrän mielivaltaisia kehyksiä ja piileviä toimia ja tuottaa valistuneen arvauksen siitä, miltä seuraavan kehyksen pitäisi näyttää mahdollisella syötteellä. Tämä lopullinen malli päätyy 10,7 miljardiin parametriin, jotka on koulutettu 942 miljardiin tokeniin, vaikka Genien tulokset viittaavat siihen, että jopa suuremmat mallit tuottaisivat parempia tuloksia.
Aikaisempi työ samankaltaisten interaktiivisten mallien luomiseksi generatiivisen tekoälyn avulla on tukeutunut ”pohjaisten totuuden toimintotunnisteiden” tai koulutustietojen tekstikuvausten käyttämiseen koneoppimisalgoritmien ohjaamiseksi. Genie erottuu tästä työstä kyvyllään ”harjoitella ilman toimintaa tai tekstimerkintöjä” ja päättelee videon takana piilevät toiminnot käyttämällä vain niitä tuntikausia tokenoituja videoruutuja.
”Kyky yleistää sellaisiin merkittäviin [jakelun ulkopuolisiin] syötteisiin korostaa lähestymistapamme vankuutta ja suuren mittakaavan datan koulutuksen arvoa, mikä ei olisi ollut mahdollista todellisilla toimilla syötteenä”, Genie-tiimi kirjoitti. tutkimuspaperissaan.
Vastaa