El modelo Genie de Google crea mundos 2D interactivos a partir de una sola imagen

texto imágenes vídeo audio modelo Genie presentado recientemente

La página de anuncios Genie de DeepMind muestra muchos GIF de muestra de juegos simples de estilo plataforma generados a partir de imágenes iniciales estáticas (bocetos de niños, fotografías del mundo real, etc.) o incluso mensajes de texto pasados a través de ImageGen2 . Y aunque esos GIF de aspecto elegante pasan por alto algunas de las principales limitaciones actuales que se analizan en el artículo de investigación completo , los investigadores de IA todavía están entusiasmados con cómo el «modelado mundial fundamental» generalizable de Genie podría ayudar a potenciar el aprendizaje automático en el futuro.

Bajo el capó

Si bien la producción de Genie parece similar a primera vista a lo que podría provenir de un motor de juego 2D básico, el modelo en realidad no dibuja sprites ni codifica un juego de plataformas jugable de la misma manera que lo haría un desarrollador de juegos humano. En cambio, el sistema trata su imagen (o imágenes) inicial como fotogramas de un vídeo y genera una mejor estimación de cómo debería verse el siguiente fotograma (o fotogramas) cuando se le proporciona una entrada específica.

Para establecer ese modelo, Genie comenzó con 200.000 horas de videos de juegos públicos de Internet, que se filtraron hasta 30.000 horas de video estandarizado de «cientos de juegos 2D». Los fotogramas individuales de esos videos luego se tokenizaron en un parámetro de 200 millones. modelo con el que un algoritmo de aprendizaje automático podría funcionar fácilmente.

Una imagen como esta, generada mediante un mensaje de texto en un generador de imágenes, puede servir como punto de partida para la construcción del mundo de Genie.

Una muestra de movimiento interactivo habilitado por Genie en la imagen inicial de arriba (haga clic en

Una vez establecido el modelo de acción latente, Genie genera un «modelo dinámico» que puede tomar cualquier número de fotogramas arbitrarios y acciones latentes y generar una suposición fundamentada sobre cómo debería verse el siguiente fotograma dada cualquier entrada potencial. Este modelo final termina con 10,7 mil millones de parámetros entrenados en 942 mil millones de tokens, aunque los resultados de Genie sugieren que modelos aún más grandes generarían mejores resultados.

Trabajos anteriores sobre la generación de modelos interactivos similares utilizando IA generativa se han basado en el uso de «etiquetas de acción reales» o descripciones de texto de datos de entrenamiento para ayudar a guiar sus algoritmos de aprendizaje automático. Genie se diferencia de ese trabajo en su capacidad de “entrenar sin acciones ni anotaciones de texto”, infiriendo las acciones latentes detrás de un video usando nada más que esas horas de fotogramas de video tokenizados.

«La capacidad de generalizar a entradas tan significativas [fuera de distribución] subraya la solidez de nuestro enfoque y el valor de la capacitación en datos a gran escala, que no habría sido factible con acciones reales como entrada», escribió el equipo de Genie. en su trabajo de investigación.

Posted on marzo 5, 2024

News

admin

El modelo Genie de Google crea mundos 2D interactivos a partir de una sola imagen

Bajo el capó

Deja una respuesta Cancelar la respuesta

Infinite Craft: Cómo conseguir religión

Apple lanza iOS 17.4 con nuevos emoji de iPhone, transcripciones de Apple Podcasts, cambios para usuarios de la UE y más