O novo gerador de imagens de IA da OpenAI ultrapassa os limites em detalhes e solicita fidelidade
Na quarta-feira, a OpenAI anunciou o DALL-E 3, a versão mais recente de seu modelo de síntese de imagens de IA que apresenta integração total com ChatGPT . O DALL-E 3 renderiza imagens seguindo de perto descrições complexas e lidando com a geração de texto na imagem (como etiquetas e sinais), o que desafiava os modelos anteriores. Atualmente em pré-visualização de pesquisa, estará disponível para clientes ChatGPT Plus e Enterprise no início de outubro.
Como seu antecessor , o DALLE-3 é um gerador de texto para imagem que cria novas imagens com base em descrições escritas chamadas prompts. Embora a OpenAI não tenha divulgado detalhes técnicos sobre o DALL-E 3, o modelo de IA no centro das versões anteriores do DALL-E foi treinado em milhões de imagens criadas por artistas e fotógrafos humanos, algumas delas licenciadas de sites de ações como o Shutterstock . É provável que o DALL-E 3 siga a mesma fórmula, mas com novas técnicas de treinamento e mais tempo de treinamento computacional.
A julgar pelos exemplos fornecidos pela OpenAI em seu blog promocional, o DALL-E 3 parece ser um modelo de síntese de imagem radicalmente mais capaz do que qualquer outro disponível em termos de seguir instruções. Embora os exemplos do OpenAI tenham sido escolhidos a dedo por sua eficácia, eles parecem seguir as instruções imediatas de maneira fiel e convincente, renderizando objetos com deformações mínimas. Comparado ao DALL-E 2 , o OpenAI diz que o DALL-E 3 refina pequenos detalhes, como mãos, de forma mais eficaz, criando imagens envolventes por padrão, “sem necessidade de hacks ou engenharia imediata”.
Em comparação, Midjourney , um modelo concorrente de síntese de imagem de IA de outro fornecedor, renderiza bem detalhes fotorrealistas, mas ainda requer muitos ajustes contra-intuitivos com prompts para obter qualquer controle sobre a saída da imagem.
O DALL-E 3 também parece lidar com texto em imagens de uma forma que seu antecessor não conseguia (alguns modelos concorrentes como Stable Diffusion XL e DeepFloyd estão cada vez melhores nisso). Por exemplo, um prompt que incluía as palavras “Uma ilustração de um abacate sentado na cadeira de um terapeuta, dizendo ‘Sinto-me tão vazio por dentro’ com um buraco do tamanho de um caroço no centro”, criou um abacate de desenho animado com a citação do personagem perfeitamente encapsulado em um balão de fala.
Notavelmente, a OpenAI afirma que o DALL-E 3 foi “construído nativamente” no ChatGPT e chegará como um recurso integrado do ChatGPT Plus, permitindo refinamentos de conversação nas imagens de uma forma que usará o assistente de IA como parceiro de brainstorming. Isso também significa que o ChatGPT será capaz de gerar imagens com base no contexto da conversa atual, o que pode levar a novos recursos. O assistente Bing Chat AI da Microsoft, também baseado na tecnologia OpenAI, é capaz de gerar imagens em conversas desde março.
Deixe um comentário