Модель Genie від Google створює інтерактивні 2D-світи з одного зображення

Модель Genie від Google створює інтерактивні 2D-світи з одного зображення

текст зображення відео аудіо нещодавно представлена ​​модель Genie

Сторінка анонсу Genie від DeepMind демонструє безліч зразків GIF-файлів простих ігор у стилі платформи, згенерованих із статичних початкових зображень (дитячих замальовок, реальних фотографій тощо) або навіть текстових підказок, переданих через ImageGen2 . І хоча ці вишукані GIF-файли приховують деякі основні поточні обмеження, які обговорюються в повній дослідницькій статті , дослідники штучного інтелекту все ще в захваті від того, як узагальнене «основне моделювання світу» Genie може допомогти вдосконалити машинне навчання в майбутньому.

Під капотом

Хоча результати Genie на перший погляд виглядають схожими на те, що може вийти з базового движка 2D-ігор, модель насправді не малює спрайти та не кодує ігровий платформер так само, як це може зробити розробник ігор-людей. Натомість система розглядає своє початкове зображення (або зображення) як кадри відео та генерує найкраще припущення про те, як має виглядати весь наступний кадр (або кадри) за певного введення.

Щоб встановити цю модель, Genie почала з 200 000 годин загальнодоступних ігрових відео в Інтернеті, які були відфільтровані до 30 000 годин стандартизованого відео із «сотень 2D-ігор». Окремі кадри з цих відео потім були токенізовані в 200 мільйонів параметрів. модель, з якою легко працюватиме алгоритм машинного навчання.

Таке зображення, створене за допомогою текстової підказки генератору зображень, може слугувати відправною точкою для створення світу Genie.
Зразок інтерактивного руху, увімкненого Genie, із початкового зображення вище (клацніть

Після встановлення моделі прихованої дії Genie генерує «динамічну модель», яка може приймати будь-яку кількість довільних кадрів і прихованих дій і генерувати обґрунтоване припущення про те, як має виглядати наступний кадр за будь-яких потенційних вхідних даних. Ця остаточна модель має 10,7 мільярдів параметрів, навчених на 942 мільярдах токенів, хоча результати Genie показують, що навіть більші моделі дадуть кращі результати.

Попередня робота зі створення подібних інтерактивних моделей за допомогою генеративного штучного інтелекту покладалася на використання «міток наземних істинних дій» або текстових описів навчальних даних, щоб допомогти керувати їхніми алгоритмами машинного навчання. Genie відрізняє себе від цієї роботи своєю здатністю «тренуватися без дій або текстових анотацій», виводячи приховані дії за відео, використовуючи лише ті години токенізованих відеокадрів.

«Можливість узагальнювати такі вхідні дані, що значно [поза розповсюдженням], підкреслює надійність нашого підходу та цінність навчання великомасштабним даним, що було б неможливо здійснити за реальних дій у якості вхідних даних», — написала команда Genie. у своїй дослідницькій роботі.

Залишити відповідь

Ваша e-mail адреса не оприлюднюватиметься. Обов’язкові поля позначені *