O modelo Genie do Google cria mundos 2D interativos a partir de uma única imagem
texto imagens vídeo áudio modelo Genie recentemente revelado
A página de anúncio do Genie da DeepMind mostra muitos exemplos de GIFs de jogos simples de estilo de plataforma gerados a partir de imagens iniciais estáticas (desenhos infantis, fotografias do mundo real, etc.) ou até mesmo prompts de texto passados pelo ImageGen2 . E embora esses GIFs elegantes encobrem algumas das principais limitações atuais discutidas no artigo de pesquisa completo , os pesquisadores de IA ainda estão entusiasmados com a forma como a “modelagem mundial fundamental” generalizável do Genie pode ajudar a turbinar o aprendizado de máquina no futuro.
Sob o capô
Embora o resultado do Genie pareça semelhante ao que pode vir de um mecanismo de jogo 2D básico, o modelo na verdade não desenha sprites e codifica um jogo de plataforma jogável da mesma forma que um desenvolvedor de jogos humano faria. Em vez disso, o sistema trata sua imagem (ou imagens) inicial como quadros de um vídeo e gera uma melhor estimativa de como todo o próximo quadro (ou quadros) deve parecer quando recebe uma entrada específica.
Para estabelecer esse modelo, a Genie começou com 200 mil horas de vídeos públicos de jogos na Internet, que foram filtrados para 30 mil horas de vídeo padronizado de “centenas de jogos 2D”. modelo com o qual um algoritmo de aprendizado de máquina poderia trabalhar facilmente.
Com o modelo de ação latente estabelecido, o Genie gera então um “modelo dinâmico” que pode pegar qualquer número de quadros arbitrários e ações latentes e gerar uma estimativa fundamentada sobre como deve ser o próximo quadro, dada qualquer entrada potencial. Este modelo final termina com 10,7 mil milhões de parâmetros treinados em 942 mil milhões de tokens, embora os resultados do Genie sugiram que modelos ainda maiores gerariam melhores resultados.
Trabalhos anteriores sobre a geração de modelos interativos semelhantes usando IA generativa basearam-se no uso de “rótulos de ações reais” ou descrições de texto de dados de treinamento para ajudar a orientar seus algoritmos de aprendizado de máquina. O Genie se diferencia desse trabalho por sua capacidade de “treinar sem ação ou anotações de texto”, inferindo as ações latentes por trás de um vídeo usando nada além daquelas horas de quadros de vídeo tokenizados.
“A capacidade de generalizar para insumos tão significativos [fora da distribuição] ressalta a robustez de nossa abordagem e o valor do treinamento em dados de grande escala, o que não teria sido viável com ações reais como insumos”, escreveu a equipe do Genie. em seu artigo de pesquisa.
Deixe um comentário