A revolução generativa da IA começou – como chegamos lá?
O progresso em sistemas de inteligência artificial muitas vezes parece ser cíclico. A cada poucos anos, os computadores de repente são capazes de fazer algo que nunca foram capazes de fazer antes. “Aqui!” Os verdadeiros crentes na IA proclamam: “A era da inteligência artificial geral está próxima!” “Bobagem!”, dizem os céticos. “Lembra dos carros autônomos?”
A verdade geralmente está em algum lugar no meio.
Estamos em outro ciclo, desta vez com IA generativa. As manchetes da mídia são dominadas por notícias sobre a arte da inteligência artificial, mas também há um progresso sem precedentes em muitas áreas completamente díspares. Em tudo, desde vídeo a biologia, programação, redação, tradução e muito mais, a IA está avançando no mesmo ritmo incrível.
Por que tudo isso está acontecendo agora?
Você pode estar familiarizado com os últimos desenvolvimentos no mundo da IA. Você já viu trabalhos premiados, ouviu entrevistas de pessoas mortas e leu sobre avanços na dobragem de proteínas. Mas esses novos sistemas de IA não criam apenas demonstrações legais em laboratórios de pesquisa. Eles estão evoluindo rapidamente para ferramentas práticas e verdadeiros produtos comerciais que qualquer pessoa pode usar.
Há uma razão pela qual tudo aconteceu de uma vez. Todas as conquistas são baseadas em uma nova classe de modelos de IA que são mais flexíveis e poderosos do que qualquer coisa que já existiu. Como eles foram usados pela primeira vez para tarefas de linguagem, como responder a perguntas e escrever ensaios, eles são frequentemente chamados de modelos de linguagem grandes (LLMs). GPT3 da OpenAI, BERT do Google, etc. são todos LLMs.
Mas esses modelos são extremamente flexíveis e adaptáveis. As mesmas estruturas matemáticas provaram ser tão úteis em visão computacional, biologia e muito mais que alguns pesquisadores passaram a chamá-las de “modelos mestres” para melhor articular seu papel na IA moderna.
De onde vieram esses modelos básicos e como eles romperam com a linguagem para conduzir o que vemos na IA hoje?
Base dos modelos de fundação
Existe uma trindade sagrada no aprendizado de máquina: modelos, dados e cálculos. Modelos são algoritmos que recebem entrada e produzem saída. Os dados referem-se aos exemplos nos quais os algoritmos são treinados. Para aprender algo, deve haver dados suficientes com integridade suficiente para que os algoritmos possam produzir um resultado útil. Os modelos devem ser flexíveis o suficiente para refletir a complexidade dos dados. E, finalmente, deve haver poder de computação suficiente para executar os algoritmos.
A primeira revolução moderna da IA ocorreu com o aprendizado profundo em 2012, quando começou a resolver problemas de visão computacional com redes neurais convolucionais (CNNs). As CNNs são semelhantes em estrutura ao córtex visual. Eles existem desde a década de 1990, mas ainda não foram práticos devido às altas demandas de poder de computação.
No entanto, em 2006, a Nvidia lançou o CUDA, uma linguagem de programação que permitia que as GPUs fossem usadas como supercomputadores de uso geral. Em 2009, pesquisadores de IA de Stanford apresentaram o Imagenet, uma coleção de imagens rotuladas usadas para treinar algoritmos de visão computacional. Em 2012, a AlexNet combinou CNNs treinadas em GPU com dados da Imagenet para criar o melhor classificador visual que o mundo já viu. O aprendizado profundo e a inteligência artificial surgiram de lá.
CNN, o conjunto de dados ImageNet e GPUs foram a combinação mágica que abriu enormes avanços na visão computacional. O ano de 2012 provocou um boom no interesse pelo aprendizado profundo e gerou setores inteiros, como os relacionados à direção autônoma. Mas rapidamente percebemos que havia limites para essa geração de aprendizado profundo. As CNNs eram boas para a visão, mas outras áreas não tiveram seu avanço na modelagem. Uma grande lacuna estava no processamento de linguagem natural (NLP), ou seja, fazer com que os computadores entendessem e trabalhassem com a linguagem humana normal em vez de código.
O problema de compreender e trabalhar com a linguagem é fundamentalmente diferente do problema de trabalhar com imagens. A linguagem de processamento requer trabalhar com sequências de palavras onde a ordem é importante. Um gato ainda é um gato, não importa onde esteja na imagem, mas há uma grande diferença entre “este leitor aprenderá sobre IA” e “IA aprenderá sobre este leitor”.
Até recentemente, os pesquisadores contavam com modelos como redes neurais recorrentes (RNNs) e memória de curto prazo de longo prazo (LSTM) para processar e analisar dados em tempo hábil. Esses modelos foram eficazes no reconhecimento de sequências curtas, como palavras faladas de frases curtas, mas tiveram dificuldades com frases e parágrafos mais longos. Só que a memória desses modelos não foi desenvolvida o suficiente para captar a complexidade e riqueza de ideias e conceitos que surgem ao combinar frases em parágrafos e ensaios. Eles eram ótimos para assistentes de voz simples no estilo Siri e Alexa, mas nada mais.
Obter os dados certos para o treinamento foi outro desafio. O ImageNet era um conjunto de 100.000 imagens rotuladas que exigia um esforço humano significativo, principalmente estudantes de pós-graduação e funcionários do Amazon Mechanical Turk, para criar. E o ImageNet foi realmente inspirado e modelado em um projeto mais antigo chamado WordNet que estava tentando criar um conjunto de dados rotulados para o vocabulário em inglês. Embora não haja escassez de texto na Internet, gerar um conjunto de dados significativo para treinar um computador a lidar com a linguagem humana além das palavras individuais é incrivelmente demorado. E os atalhos que você cria para um aplicativo nos mesmos dados podem não se aplicar a outra tarefa.
Deixe um comentário