Das Genie-Modell von Google erstellt interaktive 2D-Welten aus einem einzigen Bild

Das Genie-Modell von Google erstellt interaktive 2D-Welten aus einem einzigen Bild

Text Bilder Video Audio Kürzlich vorgestelltes Genie-Modell

Die Genie-Ankündigungsseite von DeepMind zeigt zahlreiche Beispiel-GIFs einfacher Plattformspiele, die aus statischen Startbildern (Skizzen von Kindern, Fotos aus der realen Welt usw.) oder sogar über ImageGen2 weitergeleiteten Textaufforderungen generiert wurden . Und während diese schick aussehenden GIFs einige wichtige aktuelle Einschränkungen beschönigen, die im vollständigen Forschungsbericht besprochen werden , sind KI-Forscher immer noch gespannt darauf, wie Genies verallgemeinerbare „grundlegende Weltmodellierung“ dazu beitragen könnte, maschinelles Lernen in Zukunft zu beschleunigen.

Unter der Haube

Während die Ausgabe von Genie auf den ersten Blick dem ähnelt, was von einer einfachen 2D-Spiel-Engine kommen könnte, zeichnet das Modell nicht wirklich Sprites und programmiert einen spielbaren Plattformer auf die gleiche Weise, wie es ein menschlicher Spieleentwickler tun würde. Stattdessen behandelt das System sein Startbild (oder seine Startbilder) als Frames eines Videos und generiert eine bestmögliche Schätzung, wie der gesamte nächste Frame (oder die nächsten Frames) bei einer bestimmten Eingabe aussehen sollten.

Um dieses Modell zu etablieren, begann Genie mit 200.000 Stunden öffentlicher Internet-Gaming-Videos, die auf 30.000 Stunden standardisiertes Video aus „Hunderten von 2D-Spielen“ heruntergefiltert wurden. Die einzelnen Frames dieser Videos wurden dann in einen 200-Millionen-Parameter tokenisiert Modell, mit dem ein Algorithmus für maschinelles Lernen problemlos arbeiten könnte.

Ein Bild wie dieses, das über eine Textaufforderung an einen Bildgenerator generiert wird, kann als Ausgangspunkt für Genies Weltaufbau dienen.
Ein Beispiel für interaktive Bewegungen, die Genie aus dem obigen Startbild ermöglicht (Klicken Sie auf

Nachdem das latente Aktionsmodell erstellt wurde, generiert Genie dann ein „Dynamikmodell“, das eine beliebige Anzahl beliebiger Frames und latenter Aktionen verwenden und eine fundierte Vermutung darüber generieren kann, wie der nächste Frame angesichts möglicher Eingaben aussehen sollte. Dieses endgültige Modell verfügt am Ende über 10,7 Milliarden Parameter, die auf 942 Milliarden Token trainiert wurden, obwohl die Ergebnisse von Genie darauf hindeuten, dass sogar größere Modelle bessere Ergebnisse liefern würden.

Frühere Arbeiten zur Generierung ähnlicher interaktiver Modelle mithilfe generativer KI stützten sich auf die Verwendung von „Ground Truth Action Labels“ oder Textbeschreibungen von Trainingsdaten, um ihre Algorithmen für maschinelles Lernen zu steuern. Genie unterscheidet sich von dieser Arbeit durch seine Fähigkeit, „ohne Aktion oder Textanmerkungen zu trainieren“, indem es die latenten Aktionen hinter einem Video nur mithilfe dieser Stunden tokenisierter Videobilder ableitet.

„Die Fähigkeit, auf solche erheblich [außerhalb der Verteilung liegenden] Eingaben zu verallgemeinern, unterstreicht die Robustheit unseres Ansatzes und den Wert des Trainings auf großen Datenmengen, was mit realen Aktionen als Eingabe nicht möglich gewesen wäre“, schrieb das Genie-Team in seiner Forschungsarbeit.

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert