Model Google Genie tworzy interaktywne światy 2D z jednego obrazu
tekst obrazy wideo audio niedawno zaprezentowany model Genie
Strona ogłoszeń DeepMind Genie zawiera wiele przykładowych plików GIF przedstawiających proste gry platformowe, wygenerowanych na podstawie statycznych obrazów początkowych (szkice dzieci, zdjęcia z prawdziwego świata itp.) lub nawet podpowiedzi tekstowych przesłanych przez ImageGen2 . I choć te elegancko wyglądające GIF-y przyćmiewają niektóre główne obecne ograniczenia omówione w pełnym artykule badawczym , badacze sztucznej inteligencji wciąż są podekscytowani tym, jak dające się uogólnić „podstawowe modelowanie świata” opracowane przez Genie może pomóc w usprawnieniu uczenia maszynowego w przyszłości.
Pod maską
Chociaż wydajność Genie na pierwszy rzut oka wygląda podobnie do tego, co mogłoby pochodzić z podstawowego silnika gry 2D, model w rzeczywistości nie rysuje ikonek i nie koduje grywalnej platformówki w taki sam sposób, w jaki mógłby to zrobić twórca gier ludzkich. Zamiast tego system traktuje początkowy obraz (lub obrazy) jako klatki wideo i generuje najlepsze przypuszczenie, jak powinna wyglądać cała następna klatka (lub klatki) po otrzymaniu określonych danych wejściowych.
Aby ustalić ten model, Genie zaczął od 200 000 godzin filmów z publicznych gier internetowych, które zostały przefiltrowane do 30 000 godzin standaryzowanego wideo z „setek gier 2D”. model, z którym algorytm uczenia maszynowego mógłby z łatwością pracować.


Po ustaleniu modelu działań ukrytych Genie generuje następnie „model dynamiki”, który może przyjąć dowolną liczbę dowolnych klatek i ukrytych działań oraz wygenerować uzasadnione przypuszczenie, jak powinna wyglądać następna klatka, biorąc pod uwagę potencjalne dane wejściowe. Ten ostateczny model zawiera 10,7 miliarda parametrów wyszkolonych na 942 miliardach tokenów, chociaż wyniki Genie sugerują, że nawet większe modele generowałyby lepsze wyniki.
Poprzednie prace nad generowaniem podobnych interaktywnych modeli przy użyciu generatywnej sztucznej inteligencji opierały się na używaniu „etykiet akcji opartych na faktach” lub tekstowych opisach danych szkoleniowych, aby pomóc w kierowaniu algorytmami uczenia maszynowego. Genie różni się od tej pracy możliwością „trenowania bez akcji i adnotacji tekstowych”, wnioskowania o ukrytych działaniach za filmem na podstawie jedynie godzin tokenizowanych klatek wideo.
„Możliwość uogólniania na tak znacząco [poza dystrybucją] dane wejściowe podkreśla solidność naszego podejścia i wartość szkolenia na danych na dużą skalę, co nie byłoby wykonalne przy zastosowaniu rzeczywistych działań jako danych wejściowych” – napisał zespół Genie w swoim artykule badawczym.
Dodaj komentarz