Google の Genie モデルは、単一の画像からインタラクティブな 2D 世界を作成します

Google の Genie モデルは、単一の画像からインタラクティブな 2D 世界を作成します

テキスト画像ビデオオーディオ最近発表された Genie モデル

DeepMind のGenie 発表ページには、静的な開始画像 (子供のスケッチ、現実世界の写真など)、またはImageGen2 を介して渡されたテキスト プロンプトから生成された、シンプルなプラットフォーム スタイルのゲームのサンプル GIF が多数表示されています。そして、これらの見栄えの良い GIF は、研究論文全文で議論されている現在の主要な制限の一部をごまかしていますが、AI 研究者は、Genie の一般化可能な「基礎的な世界モデリング」が今後の機械学習をどのように強化できるかについて依然として興奮しています。

フードの下

Genie の出力は、一見すると基本的な 2D ゲーム エンジンから得られるものと似ているように見えますが、このモデルは人間のゲーム開発者と同じ方法で実際にスプライトを描画したり、プレイ可能なプラットフォーマーをコーディングしたりするわけではありません。代わりに、システムは開始画像をビデオのフレームとして扱い、特定の入力が与えられたときに次のフレーム全体がどのように見えるかについての最良の推測を生成します。

このモデルを確立するために、Genie は 200,000 時間の公開インターネット ゲーム ビデオから開始し、これを「数百の 2D ゲーム」からの 30,000 時間の標準ビデオに絞り込みました。その後、これらのビデオの個々のフレームが 2 億のパラメータにトークン化されました。機械学習アルゴリズムが簡単に動作できるモデル。

画像ジェネレーターへのテキスト プロンプトを介して生成されたこのような画像は、Genie の世界構築の開始点として機能します。
上記の開始画像から Genie によって有効になるインタラクティブな動きのサンプル (クリック

潜在アクション モデルが確立されると、Genie は任意の数のフレームと潜在アクションを取り込み、潜在的な入力が与えられた場合に次のフレームがどのように見えるかについて知識に基づいた推測を生成できる「ダイナミクス モデル」を生成します。この最終モデルは、最終的に 9,420 億個のトークンでトレーニングされた 107 億個のパラメーターになりますが、Genie の結果は、さらに大きなモデルでもより良い結果が得られることを示唆しています。

生成 AI を使用して同様のインタラクティブ モデルを生成するこれまでの研究は、機械学習アルゴリズムのガイドに役立つ「グラウンド トゥルース アクション ラベル」またはトレーニング データのテキスト記述の使用に依存していました。Genie は、「アクションやテキスト注釈なしでトレーニング」する機能でその作品とは異なり、数時間のトークン化されたビデオ フレームのみを使用してビデオの背後にある潜在的なアクションを推測します。

「このような大幅な(分布外の)入力を一般化できる能力は、私たちのアプローチの堅牢性と、実際のアクションを入力として使用した場合には実現不可能だった大規模データでのトレーニングの価値を強調しています」と Genie チームは書いています。その研究論文では。

Posted on
News

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です