谷歌的 Genie 模型從單一圖像創建互動式 2D 世界

谷歌的 Genie 模型從單一圖像創建互動式 2D 世界

文字圖片視訊音訊最近推出的 Genie 模型

DeepMind 的Genie 公告頁面顯示了大量由靜態起始圖像(兒童草圖、現實世界照片等)生成的簡單平台式遊戲的 GIF 範例,甚至是透過ImageGen2 傳遞的文字提示。雖然這些看起來很漂亮的 GIF 掩蓋了完整研究論文中討論的一些當前的主要局限性,但人工智慧研究人員仍然對 Genie 的通用「基礎世界模型」如何幫助推動機器學習的發展感到興奮。

在引擎蓋下

雖然 Genie 的輸出乍看之下與基本 2D 遊戲引擎的輸出相似,但該模型實際上並不像人類遊戲開發人員那樣繪製精靈並編寫可玩的平台遊戲。相反,系統將其起始影像(或多個影像)視為視訊幀,並在給定特定輸入時產生整個下一幀(或多個幀)應該是什麼樣子的最佳猜測。

為了建立這個模型,Genie 從 200,000 小時的公共互聯網遊戲視頻開始,從“數百個 2D 遊戲”中過濾出 30,000 小時的標準化視頻。然後,這些視頻中的各個幀被標記為 2 億個參數機器學習演算法可以輕鬆使用的模型。

像這樣的圖像是透過圖像生成器的文字提示生成的,可以作為 Genie 世界構建的起點。
由上面的起始圖像中的 Genie 啟用的交互式移動範例(單擊

在建立潛在動作模型後,Genie 會產生一個“動態模型”,該模型可以採用任意數量的任意幀和潛在動作,並在給定任何潛在輸入的情況下生成對下一幀應該是什麼樣子的有根據的猜測。最終模型最終在 9,420 億個代幣上訓練了 107 億個參數,儘管 Genie 的結果表明更大的模型會產生更好的結果。

先前使用生成式人工智慧產生類似互動模型的工作依賴於使用「真實動作標籤」或訓練資料的文字描述來幫助指導他們的機器學習演算法。Genie 與這項工作的區別在於它能夠“在沒有動作或文字註釋的情況下進行訓練”,只使用標記化視訊畫面的幾個小時來推斷影片背後的潛在動作。

Genie 團隊寫道:“泛化到如此顯著的[分佈外]輸入的能力強調了我們方法的穩健性以及大規模數據訓練的價值,而如果以實際行動作為輸入,這是不可行的。”在其研究論文中。

發佈留言

發佈留言必須填寫的電子郵件地址不會公開。 必填欄位標示為 *