O novo gerador de imagens de IA da OpenAI ultrapassa os limites em detalhes e solicita fidelidade

O novo gerador de imagens de IA da OpenAI ultrapassa os limites em detalhes e solicita fidelidade

Na quarta-feira, a OpenAI anunciou o DALL-E 3, a versão mais recente de seu modelo de síntese de imagens de IA que apresenta integração total com ChatGPT . O DALL-E 3 renderiza imagens seguindo de perto descrições complexas e lidando com a geração de texto na imagem (como etiquetas e sinais), o que desafiava os modelos anteriores. Atualmente em pré-visualização de pesquisa, estará disponível para clientes ChatGPT Plus e Enterprise no início de outubro.

Como seu antecessor , o DALLE-3 é um gerador de texto para imagem que cria novas imagens com base em descrições escritas chamadas prompts. Embora a OpenAI não tenha divulgado detalhes técnicos sobre o DALL-E 3, o modelo de IA no centro das versões anteriores do DALL-E foi treinado em milhões de imagens criadas por artistas e fotógrafos humanos, algumas delas licenciadas de sites de ações como o Shutterstock . É provável que o DALL-E 3 siga a mesma fórmula, mas com novas técnicas de treinamento e mais tempo de treinamento computacional.

A julgar pelos exemplos fornecidos pela OpenAI em seu blog promocional, o DALL-E 3 parece ser um modelo de síntese de imagem radicalmente mais capaz do que qualquer outro disponível em termos de seguir instruções. Embora os exemplos do OpenAI tenham sido escolhidos a dedo por sua eficácia, eles parecem seguir as instruções imediatas de maneira fiel e convincente, renderizando objetos com deformações mínimas. Comparado ao DALL-E 2 , o OpenAI diz que o DALL-E 3 refina pequenos detalhes, como mãos, de forma mais eficaz, criando imagens envolventes por padrão, “sem necessidade de hacks ou engenharia imediata”.

Nenhum
Nenhum
Nenhum
Nenhum
Nenhum
Nenhum
Nenhum
Nenhum
Nenhum

Em comparação, Midjourney , um modelo concorrente de síntese de imagem de IA de outro fornecedor, renderiza bem detalhes fotorrealistas, mas ainda requer muitos ajustes contra-intuitivos com prompts para obter qualquer controle sobre a saída da imagem.

O DALL-E 3 também parece lidar com texto em imagens de uma forma que seu antecessor não conseguia (alguns modelos concorrentes como Stable Diffusion XL e DeepFloyd estão cada vez melhores nisso). Por exemplo, um prompt que incluía as palavras “Uma ilustração de um abacate sentado na cadeira de um terapeuta, dizendo ‘Sinto-me tão vazio por dentro’ com um buraco do tamanho de um caroço no centro”, criou um abacate de desenho animado com a citação do personagem perfeitamente encapsulado em um balão de fala.

Notavelmente, a OpenAI afirma que o DALL-E 3 foi “construído nativamente” no ChatGPT e chegará como um recurso integrado do ChatGPT Plus, permitindo refinamentos de conversação nas imagens de uma forma que usará o assistente de IA como parceiro de brainstorming. Isso também significa que o ChatGPT será capaz de gerar imagens com base no contexto da conversa atual, o que pode levar a novos recursos. O assistente Bing Chat AI da Microsoft, também baseado na tecnologia OpenAI, é capaz de gerar imagens em conversas desde março.

Deixe um comentário

O seu endereço de email não será publicado. Campos obrigatórios marcados com *