A atualização do ChatGPT permite que sua IA “veja, ouça e fale”, de acordo com OpenAI

Na segunda-feira, a OpenAI anunciou uma atualização significativa para ChatGPT que permite que seus modelos de IA GPT-3.5 e GPT-4 analisem imagens e reajam a elas como parte de uma conversa de texto. Além disso, o aplicativo móvel ChatGPT adicionará opções de síntese de fala que, quando combinadas com seus recursos de reconhecimento de fala existentes, permitirão conversas totalmente verbais com o assistente de IA, afirma OpenAI.
A OpenAI está planejando lançar esses recursos no ChatGPT para assinantes Plus e Enterprise “nas próximas duas semanas”. Ele também observa que a síntese de fala está chegando apenas para iOS e Android, e o reconhecimento de imagem estará disponível na interface da web e no aplicativos móveis.
OpenAI afirma que o novo recurso de reconhecimento de imagem no ChatGPT permite aos usuários fazer upload de uma ou mais imagens para conversação, usando os modelos GPT-3.5 ou GPT-4. Em sua postagem promocional no blog , a empresa afirma que o recurso pode ser usado para uma variedade de aplicações cotidianas: desde descobrir o que há para o jantar tirando fotos da geladeira e da despensa, até solucionar por que sua churrasqueira não liga. Ele também diz que os usuários podem usar a tela sensível ao toque do dispositivo para circular partes da imagem nas quais gostariam que o ChatGPT se concentrasse.



Em seu site, a OpenAI disponibiliza um vídeo promocional que ilustra uma hipotética troca com ChatGPT onde um usuário pergunta como levantar um assento de bicicleta, fornecendo fotos, além de um manual de instruções e uma imagem da caixa de ferramentas do usuário. ChatGPT reage e orienta o usuário como concluir o processo. Nós mesmos não testamos esse recurso, portanto sua eficácia no mundo real é desconhecida.
Então, como isso funciona? A OpenAI não divulgou detalhes técnicos de como o GPT-4 ou sua versão multimodal, GPT-4V , operam nos bastidores, mas com base em pesquisas conhecidas de IA de terceiros (incluindo a parceira da OpenAI, a Microsoft ), os modelos de IA multimodais normalmente transformam texto e imagens em um espaço de codificação compartilhado, que lhes permite processar vários tipos de dados através da mesma rede neural. OpenAI pode usar CLIP para preencher a lacuna entre dados visuais e de texto de uma forma que alinhe representações de imagem e texto no mesmo espaço latente , uma espécie de teia vetorizada de relacionamentos de dados. Essa técnica poderia permitir que o ChatGPT fizesse deduções contextuais em textos e imagens, embora isso seja especulativo de nossa parte.
Enquanto isso, no mundo do áudio, o novo recurso de síntese de voz do ChatGPT permite conversas faladas de ida e volta com o ChatGPT, impulsionadas pelo que a OpenAI chama de “novo modelo de conversão de texto em fala”, embora a conversão de texto em fala tenha sido resolvida por um muito tempo. Assim que o recurso for implementado, a empresa afirma que os usuários podem ativá-lo optando por conversas de voz nas configurações do aplicativo e, em seguida, selecionando entre cinco vozes sintéticas diferentes com nomes como “Juniper”, “Sky”, “Cove”,”Ember ”, e “Breeze”. A OpenAI afirma que essas vozes foram criadas em colaboração com dubladores profissionais.
O Whisper da OpenAI, um sistema de reconhecimento de voz de código aberto que abordamos em setembro do ano passado, continuará a lidar com a transcrição da entrada de fala do usuário. O Whisper foi integrado ao aplicativo ChatGPT para iOS desde seu lançamento em maio. A OpenAI lançou o aplicativo ChatGPT para Android com capacidade semelhante em julho.
Deixe um comentário