Модель Genie от Google создает интерактивные 2D-миры из одного изображения

текст изображения видео аудио недавно представленная модель Genie

На странице объявлений DeepMind Genie показано множество примеров GIF-файлов простых платформенных игр, созданных на основе статических стартовых изображений (детских эскизов, реальных фотографий и т. д.) или даже текстовых подсказок, переданных через ImageGen2 . И хотя эти привлекательные GIF-файлы замалчивают некоторые основные текущие ограничения, которые обсуждаются в полной исследовательской работе , исследователи ИИ по-прежнему воодушевлены тем, как обобщаемое «фундаментальное моделирование мира» Genie может помочь ускорить машинное обучение в будущем.

Под капотом

Хотя результаты Genie на первый взгляд похожи на то, что может получить базовый 2D-игровой движок, на самом деле модель не рисует спрайты и не кодирует игровой платформер так, как это мог бы делать человек-разработчик игр. Вместо этого система рассматривает свое начальное изображение (или изображения) как кадры видео и генерирует наилучшее предположение о том, как должен выглядеть весь следующий кадр (или кадры) при наличии определенных входных данных.

Чтобы создать эту модель, Genie начала с 200 000 часов общедоступных игровых видеороликов в Интернете, которые были отфильтрованы до 30 000 часов стандартизированного видео из «сотни 2D-игр». модель, с которой мог бы легко работать алгоритм машинного обучения.

Подобное изображение, созданное с помощью текстовой подсказки генератору изображений, может служить отправной точкой для построения мира Genie.

Пример интерактивного движения, активированного Genie, на стартовом изображении выше (нажмите

После создания модели скрытого действия Genie затем генерирует «модель динамики», которая может использовать любое количество произвольных кадров и скрытых действий и генерировать обоснованное предположение о том, как должен выглядеть следующий кадр с учетом любых потенциальных входных данных. Эта окончательная модель имеет 10,7 миллиардов параметров, обученных на 942 миллиардах токенов, хотя результаты Genie показывают, что даже более крупные модели дадут лучшие результаты.

Предыдущая работа по созданию аналогичных интерактивных моделей с использованием генеративного ИИ основывалась на использовании «меток основных действий» или текстовых описаний обучающих данных, которые помогают направлять алгоритмы машинного обучения. Genie отличается от этой работы своей способностью «тренироваться без действий и текстовых аннотаций», выявляя скрытые действия за видео, используя только часы токенизированных видеокадров.

«Возможность обобщать столь значительные [внераспределенные] входные данные подчеркивает надежность нашего подхода и ценность обучения на крупномасштабных данных, что было бы невозможно с реальными действиями в качестве входных данных», — написала команда Genie. в своей исследовательской работе.

Под капотом

Добавить комментарий Отменить ответ