El modelo Genie de Google crea mundos 2D interactivos a partir de una sola imagen
texto imágenes vídeo audio modelo Genie presentado recientemente
La página de anuncios Genie de DeepMind muestra muchos GIF de muestra de juegos simples de estilo plataforma generados a partir de imágenes iniciales estáticas (bocetos de niños, fotografías del mundo real, etc.) o incluso mensajes de texto pasados a través de ImageGen2 . Y aunque esos GIF de aspecto elegante pasan por alto algunas de las principales limitaciones actuales que se analizan en el artículo de investigación completo , los investigadores de IA todavía están entusiasmados con cómo el «modelado mundial fundamental» generalizable de Genie podría ayudar a potenciar el aprendizaje automático en el futuro.
Bajo el capó
Si bien la producción de Genie parece similar a primera vista a lo que podría provenir de un motor de juego 2D básico, el modelo en realidad no dibuja sprites ni codifica un juego de plataformas jugable de la misma manera que lo haría un desarrollador de juegos humano. En cambio, el sistema trata su imagen (o imágenes) inicial como fotogramas de un vídeo y genera una mejor estimación de cómo debería verse el siguiente fotograma (o fotogramas) cuando se le proporciona una entrada específica.
Para establecer ese modelo, Genie comenzó con 200.000 horas de videos de juegos públicos de Internet, que se filtraron hasta 30.000 horas de video estandarizado de «cientos de juegos 2D». Los fotogramas individuales de esos videos luego se tokenizaron en un parámetro de 200 millones. modelo con el que un algoritmo de aprendizaje automático podría funcionar fácilmente.


Una vez establecido el modelo de acción latente, Genie genera un «modelo dinámico» que puede tomar cualquier número de fotogramas arbitrarios y acciones latentes y generar una suposición fundamentada sobre cómo debería verse el siguiente fotograma dada cualquier entrada potencial. Este modelo final termina con 10,7 mil millones de parámetros entrenados en 942 mil millones de tokens, aunque los resultados de Genie sugieren que modelos aún más grandes generarían mejores resultados.
Trabajos anteriores sobre la generación de modelos interactivos similares utilizando IA generativa se han basado en el uso de «etiquetas de acción reales» o descripciones de texto de datos de entrenamiento para ayudar a guiar sus algoritmos de aprendizaje automático. Genie se diferencia de ese trabajo en su capacidad de “entrenar sin acciones ni anotaciones de texto”, infiriendo las acciones latentes detrás de un video usando nada más que esas horas de fotogramas de video tokenizados.
«La capacidad de generalizar a entradas tan significativas [fuera de distribución] subraya la solidez de nuestro enfoque y el valor de la capacitación en datos a gran escala, que no habría sido factible con acciones reales como entrada», escribió el equipo de Genie. en su trabajo de investigación.
Deja una respuesta