Como o ChatGPT transformou a IA generativa em uma “ferramenta para qualquer coisa”

Como o ChatGPT transformou a IA generativa em uma “ferramenta para qualquer coisa”

O diretor de tecnologia de uma startup de robótica me disse no início deste ano: “Pensamos que teríamos que trabalhar muito para construir o ‘ChatGPT para robótica’. Em vez disso, acontece que, em muitos casos, ChatGPT é ChatGPT para robótica.”

Até recentemente, os modelos de IA eram ferramentas especializadas. Usar IA em uma área específica, como a robótica, significava gastar tempo e dinheiro criando modelos de IA especificamente e apenas para aquela área. Por exemplo, o AlphaFold do Google, um modelo de IA para prever o enovelamento de proteínas, foi treinado usando dados de estrutura de proteínas e só é útil para trabalhar com estruturas de proteínas.

Portanto, este fundador pensou que, para beneficiar da IA ​​generativa, a empresa de robótica precisaria de criar os seus próprios modelos especializados de IA generativa para robótica. Em vez disso, a equipe descobriu que, em muitos casos, eles poderiam usar o ChatGPT pronto para uso para controlar seus robôs sem que a IA tivesse sido treinada especificamente para isso.

Já ouvi coisas semelhantes de tecnólogos que trabalham em tudo, desde seguros de saúde até design de semicondutores. Para criar o ChatGPT, um chatbot que permite aos humanos usar IA generativa simplesmente conversando, a OpenAI precisava mudar grandes modelos de linguagem (LLMs) como o GPT3 para se tornar mais responsivo à interação humana.

Mas talvez inadvertidamente, essas mesmas mudanças permitiram que os sucessores do GPT3, como GPT3.5 e GPT4, fossem usados ​​como ferramentas poderosas de processamento de informações de uso geral – ferramentas que não dependem do conhecimento no qual o modelo de IA foi originalmente treinado ou os aplicativos para os quais o modelo foi treinado. Isso requer o uso dos modelos de IA de uma maneira completamente diferente: programação em vez de bate-papo, novos dados em vez de treinamento. Mas está abrindo caminho para que a IA se torne de uso geral, em vez de especializada, mais como uma “ferramenta para qualquer coisa”.

Como chegamos aqui?

Fundamentos: probabilidade, descida de gradiente e ajuste fino

Vamos falar um pouco sobre como funcionam os LLMs que potencializam a IA generativa e como eles são treinados.

LLMs como GPT4 são probabilísticos; eles pegam uma entrada e prevêem a probabilidade de palavras e frases relacionadas a essa entrada. Eles então geram uma saída que provavelmente será apropriada dada a entrada. É como um preenchimento automático muito sofisticado: pegue um texto e me diga o que vem a seguir. Fundamentalmente, significa que a IA generativa não vive num contexto de “certo e errado”, mas sim de “mais e menos provável”.

Ser probabilístico tem pontos fortes e fracos. Os pontos fracos são bem conhecidos: a IA generativa pode ser imprevisível e inexata, propensa não apenas a produzir resultados ruins, mas também a produzi-los de maneiras que você nunca esperaria. Mas também significa que a IA pode ser imprevisivelmente poderosa e flexível de uma forma que os sistemas tradicionais baseados em regras não podem ser. Precisamos apenas moldar essa aleatoriedade de uma forma útil.

Aqui está uma analogia. Antes da mecânica quântica, os físicos pensavam que o universo funcionava de maneira previsível e determinística. A aleatoriedade do mundo quântico foi um choque no início, mas aprendemos a abraçar a estranheza quântica e depois a usá-la na prática. O tunelamento quântico é fundamentalmente estocástico, mas pode ser guiado para que as partículas saltem em padrões previsíveis. Foi isso que levou aos semicondutores e aos chips que alimentam o dispositivo sobre o qual você está lendo este artigo. Não aceite apenas que Deus joga dados com o universo – aprenda como jogar os dados.

A mesma coisa se aplica à IA. Treinamos as redes neurais das quais os LLMs são feitos usando uma técnica chamada “gradiente descendente”. O gradiente descendente analisa as saídas que um modelo está produzindo, compara isso com os dados de treinamento e, em seguida, calcula uma “direção” para ajustar os parâmetros da rede neural para que as saídas se tornem “mais” corretas – ou seja, para se parecerem mais com os dados de treinamento a IA é dada. No caso do nosso preenchimento automático mágico, uma resposta mais correta significa um texto de saída com maior probabilidade de seguir a entrada.

A matemática probabilística é uma ótima maneira de os computadores lidarem com palavras; calcular a probabilidade de algumas palavras seguirem outras palavras é apenas contar, e “quantas” é muito mais fácil para um computador trabalhar do que “mais certas ou mais erradas”. Produza resultados, compare com os dados de treinamento e ajuste. Enxágue e repita, fazendo muitas melhorias pequenas e incrementais, e eventualmente você transformará uma rede neural que cospe jargões em algo que produz frases coerentes. E esta técnica também pode ser adaptada a imagens, sequências de DNA e muito mais.

Deixe um comentário

O seu endereço de email não será publicado. Campos obrigatórios marcados com *