Dizer ao modelo de IA para “respirar fundo” faz com que as pontuações em matemática subam no estudo

Dizer ao modelo de IA para “respirar fundo” faz com que as pontuações em matemática subam no estudo

Os pesquisadores do Google DeepMind desenvolveram recentemente uma técnica para melhorar a habilidade matemática em modelos de linguagem de IA como o ChatGPT , usando outros modelos de IA para melhorar os prompts – as instruções escritas que dizem ao modelo de IA o que fazer. Descobriu-se que o uso do incentivo ao estilo humano melhorou dramaticamente as habilidades matemáticas, em linha com resultados anteriores.

Em um artigo chamado “ Large Language Models as Optimizers “listado este mês no arXiv, os cientistas da DeepMind apresentaram Optimization by PROmpting (OPRO), um método para melhorar o desempenho de grandes modelos de linguagem (LLMs), como ChatGPT da OpenAI e PaLM 2 do Google. A nova abordagem contorna as limitações dos otimizadores tradicionais baseados em matemática, usando linguagem natural para orientar os LLMs na resolução de problemas. “Linguagem natural” é uma maneira elegante de dizer a fala humana cotidiana.

“Em vez de definir formalmente o problema de otimização e derivar a etapa de atualização com um solucionador programado”, escrevem os pesquisadores, “descrevemos o problema de otimização em linguagem natural e, em seguida, instruímos o LLM a gerar iterativamente novas soluções com base na descrição do problema e no previamente encontraram soluções.”

Normalmente, no aprendizado de máquina, técnicas que usam algoritmos como otimizadores baseados em derivativos atuam como um guia para melhorar o desempenho de um modelo de IA. Imagine o desempenho de um modelo como uma curva em um gráfico: o objetivo é encontrar o ponto mais baixo dessa curva porque é onde o modelo comete menos erros. Ao usar a inclinação da curva para fazer ajustes, o otimizador ajuda o modelo a se aproximar cada vez mais do ponto baixo ideal, tornando-o mais preciso e eficiente em qualquer tarefa para a qual foi projetado.

Em vez de depender de definições matemáticas formais para realizar esta tarefa, o OPRO usa “meta-prompts” descritos em linguagem natural para preparar o cenário para o processo de otimização. O LLM então gera soluções candidatas com base na descrição do problema e nas soluções anteriores, e as testa atribuindo a cada uma delas uma pontuação de qualidade.

No OPRO, dois grandes modelos de linguagem desempenham papéis diferentes: um marcador LLM avalia a função objetivo, como precisão, enquanto um otimizador LLM gera novas soluções com base em resultados anteriores e uma descrição em linguagem natural. Diferentes pares de LLMs de pontuador e otimizador são avaliados, incluindo modelos como variantes PaLM 2 e GPT . OPRO pode otimizar prompts para o LLM do marcador fazendo com que o otimizador gere iterativamente prompts de pontuação mais alta. Essas pontuações ajudam o sistema a identificar as melhores soluções, que são então adicionadas de volta ao ‘meta-prompt’ para a próxima rodada de otimização.

“Respire fundo e trabalhe nisso passo a passo”

Talvez a parte mais intrigante do estudo da DeepMind seja o impacto de frases específicas no resultado. Frases como “vamos pensar passo a passo” levaram cada modelo de IA a produzir resultados mais precisos quando testados em conjuntos de dados de problemas matemáticos. (Esta técnica tornou-se amplamente conhecida em maio de 2022 graças a um artigo agora famoso intitulado “ Large Language Models are Zero-Shot Reasoners .”)

Considere um problema simples, como “Beth assa quatro lotes de duas dúzias de biscoitos em uma semana. Se esses cookies forem compartilhados igualmente entre 16 pessoas, quantos cookies cada pessoa consome?” O artigo de 2022 descobriu que, em vez de apenas alimentar um chatbot com um problema de palavras como esse, você o prefixaria com “Vamos pensar passo a passo passo” e cole o problema. A precisão dos resultados do modelo de IA quase sempre melhora e funciona bem com ChatGPT.

Curiosamente, neste último estudo, os pesquisadores da DeepMind descobriram que “Respire fundo e trabalhe neste problema passo a passo” é o prompt mais eficaz quando usado com o modelo de linguagem PaLM 2 do Google. A frase alcançou a pontuação máxima de precisão de 80,2 por cento em testes contra GSM8K , que é um conjunto de dados de problemas de matemática do ensino fundamental. Em comparação, o PaLM 2, sem qualquer aviso especial, obteve apenas 34% de precisão no GSM8K, e o clássico prompt “Vamos pensar passo a passo” obteve 71,8% de precisão.

Então, por que isso funciona? Obviamente, grandes modelos de linguagem não conseguem respirar fundo porque não têm pulmões nem corpo. Eles também não pensam e raciocinam como os humanos. O “raciocínio” que eles fazem (e “raciocínio” é um termo controverso entre alguns, embora seja facilmente usado como um termo artístico em IA) é emprestado de um enorme conjunto de dados de frases linguísticas extraídas de livros e da web. Isso inclui coisas como fóruns de perguntas e respostas, que incluem muitos exemplos de “ vamos respirar fundo ” ou “pense passo a passo ” antes de mostrar soluções fundamentadas com mais cuidado. Essas frases podem ajudar o LLM a obter melhores respostas ou produzir melhores exemplos de raciocínio ou resolução de problemas a partir do conjunto de dados que absorveu em sua rede neural durante o treinamento.

Embora descobrir as melhores maneiras de dar incentivo humano aos LLMs seja um pouco confuso para nós, isso não é um problema para o OPRO porque a técnica utiliza grandes modelos de linguagem para descobrir essas frases de estímulo mais eficazes. Os pesquisadores da DeepMind acreditam que a maior vitória do OPRO é sua capacidade de examinar muitos prompts possíveis para encontrar aquele que fornece os melhores resultados para um problema específico. Isto poderia permitir que as pessoas produzissem resultados muito mais úteis ou precisos a partir de LLMs no futuro.

Deixe um comentário

O seu endereço de email não será publicado. Campos obrigatórios marcados com *