Google の Genie モデルは、単一の画像からインタラクティブな 2D 世界を作成します

DeepMind のGenie 発表ページには、静的な開始画像 (子供のスケッチ、現実世界の写真など)、または ImageGen2 を介して渡されたテキストプロンプトから生成された、シンプルなプラットフォームスタイルのゲームのサンプル GIF が多数表示されています。そして、これらの見栄えの良い GIF は、研究論文全文で議論されている現在の主要な制限の一部をごまかしていますが、AI 研究者は、Genie の一般化可能な「基礎的な世界モデリング」が今後の機械学習をどのように強化できるかについて依然として興奮しています。

フードの下

Genie の出力は、一見すると基本的な 2D ゲームエンジンから得られるものと似ているように見えますが、このモデルは人間のゲーム開発者と同じ方法で実際にスプライトを描画したり、プレイ可能なプラットフォーマーをコーディングしたりするわけではありません。代わりに、システムは開始画像をビデオのフレームとして扱い、特定の入力が与えられたときに次のフレーム全体がどのように見えるかについての最良の推測を生成します。

このモデルを確立するために、Genie は 200,000 時間の公開インターネットゲームビデオから開始し、これを「数百の 2D ゲーム」からの 30,000 時間の標準ビデオに絞り込みました。その後、これらのビデオの個々のフレームが 2 億のパラメータにトークン化されました。機械学習アルゴリズムが簡単に動作できるモデル。

画像ジェネレーターへのテキストプロンプトを介して生成されたこのような画像は、Genie の世界構築の開始点として機能します。

上記の開始画像から Genie によって有効になるインタラクティブな動きのサンプル (クリック

潜在アクションモデルが確立されると、Genie は任意の数のフレームと潜在アクションを取り込み、潜在的な入力が与えられた場合に次のフレームがどのように見えるかについて知識に基づいた推測を生成できる「ダイナミクスモデル」を生成します。この最終モデルは、最終的に 9,420 億個のトークンでトレーニングされた 107 億個のパラメーターになりますが、Genie の結果は、さらに大きなモデルでもより良い結果が得られることを示唆しています。

生成 AI を使用して同様のインタラクティブモデルを生成するこれまでの研究は、機械学習アルゴリズムのガイドに役立つ「グラウンドトゥルースアクションラベル」またはトレーニングデータのテキスト記述の使用に依存していました。Genie は、「アクションやテキスト注釈なしでトレーニング」する機能でその作品とは異なり、数時間のトークン化されたビデオフレームのみを使用してビデオの背後にある潜在的なアクションを推測します。

「このような大幅な（分布外の）入力を一般化できる能力は、私たちのアプローチの堅牢性と、実際のアクションを入力として使用した場合には実現不可能だった大規模データでのトレーニングの価値を強調しています」と Genie チームは書いています。その研究論文では。

Posted on 3月 5, 2024

News

admin

Google の Genie モデルは、単一の画像からインタラクティブな 2D 世界を作成します

フードの下

コメントを残すコメントをキャンセル

無限のクラフト: 宗教を手に入れる方法

Apple、新しい iPhone 絵文字、Apple Podcasts トランスクリプト、EU 内のユーザー向けの変更などを備えた iOS 17.4 を発表

フードの下

コメントを残す コメントをキャンセル

無限のクラフト: 宗教を手に入れる方法

Apple、新しい iPhone 絵文字、Apple Podcasts トランスクリプト、EU 内のユーザー向けの変更などを備えた iOS 17.4 を発表

コメントを残すコメントをキャンセル