Cómo ChatGPT convirtió la IA generativa en una “herramienta para cualquier cosa”

Cómo ChatGPT convirtió la IA generativa en una “herramienta para cualquier cosa”

El director de tecnología de una startup de robótica me dijo a principios de este año: “Pensamos que tendríamos que trabajar mucho para construir ‘ChatGPT para robótica’. En cambio, resulta que, en muchos casos, ChatGPT es ChatGPT para robótica”.

Hasta hace poco, los modelos de IA eran herramientas especializadas. Usar la IA en un área particular, como la robótica, significaba gastar tiempo y dinero en crear modelos de IA específicamente y sólo para esa área. Por ejemplo, AlphaFold de Google, un modelo de inteligencia artificial para predecir el plegamiento de proteínas, se entrenó utilizando datos de la estructura de las proteínas y solo es útil para trabajar con estructuras de proteínas.

Entonces, este fundador pensó que para beneficiarse de la IA generativa, la empresa de robótica necesitaría crear sus propios modelos de IA generativa especializados para robótica. En cambio, el equipo descubrió que, en muchos casos, podían utilizar ChatGPT disponible para controlar sus robots sin que la IA hubiera sido entrenada específicamente para ello.

He escuchado cosas similares de tecnólogos que trabajan en todo, desde seguros médicos hasta diseño de semiconductores. Para crear ChatGPT, un chatbot que permite a los humanos usar IA generativa simplemente manteniendo una conversación, OpenAI necesitaba cambiar modelos de lenguaje grandes (LLM) como GPT3 para que respondieran mejor a la interacción humana.

Pero quizás sin darse cuenta, estos mismos cambios permiten que los sucesores de GPT3, como GPT3.5 y GPT4, se utilicen como poderosas herramientas de procesamiento de información de propósito general, herramientas que no dependen del conocimiento en el que se entrenó originalmente el modelo de IA o las aplicaciones para las que se entrenó el modelo. Esto requiere utilizar los modelos de IA de una manera completamente diferente: programando en lugar de chatear, nuevos datos en lugar de entrenamiento. Pero está abriendo el camino para que la IA se convierta en una herramienta de uso general en lugar de especializada, más bien una “herramienta para cualquier cosa”.

¿Cómo llegamos aquí?

Fundamentos: probabilidad, descenso de gradiente y ajuste fino

Tomémonos un momento para hablar de cómo funcionan los LLM que impulsan la IA generativa y cómo se entrenan.

Los LLM como GPT4 son probabilísticos; toman una entrada y predicen la probabilidad de palabras y frases relacionadas con esa entrada. Luego generan un resultado que es más probable que sea apropiado dada la entrada. Es como una función de autocompletar muy sofisticada: toma un texto y cuéntame lo que sigue. Fundamentalmente, significa que la IA generativa no vive en un contexto de «bien y mal», sino más bien «más y menos probable».

Ser probabilístico tiene fortalezas y debilidades. Las debilidades son bien conocidas: la IA generativa puede ser impredecible e inexacta, propensa no sólo a producir malos resultados, sino también a producirlos de maneras que nunca se esperaría. Pero también significa que la IA puede ser impredeciblemente poderosa y flexible en formas que los sistemas tradicionales basados ​​en reglas no pueden ser. Sólo necesitamos darle forma a esa aleatoriedad de una manera útil.

He aquí una analogía. Antes de la mecánica cuántica, los físicos pensaban que el universo funcionaba de manera predecible y determinista. La aleatoriedad del mundo cuántico fue un shock al principio, pero aprendimos a aceptar la rareza cuántica y luego usarla de manera práctica. El túnel cuántico es fundamentalmente estocástico, pero puede guiarse de manera que las partículas salten siguiendo patrones predecibles. Esto es lo que llevó a que los semiconductores y los chips alimentaran el dispositivo en el que estás leyendo este artículo. No acepte simplemente que Dios juega a los dados con el universo: aprenda a cargar los dados.

Lo mismo se aplica a la IA. Entrenamos las redes neuronales que componen los LLM utilizando una técnica llamada «descenso de gradiente». El descenso de gradiente analiza los resultados que produce un modelo, los compara con los datos de entrenamiento y luego calcula una «dirección» para ajustar los parámetros de la red neuronal para que los resultados sean «más» correctos, es decir, para que se parezcan más a los datos de entrenamiento. Se da la IA. En el caso de nuestro autocompletado mágico, una respuesta más correcta significa generar un texto que es más probable que siga a la entrada.

Las matemáticas probabilísticas son una excelente manera para que las computadoras manejen palabras; Calcular la probabilidad de que algunas palabras sigan a otras es simplemente contar, y para una computadora es mucho más fácil trabajar con “cuántas” que con “más correctas o más incorrectas”. Produzca resultados, compárelos con los datos de entrenamiento y ajústelos. Enjuague y repita, haciendo muchas mejoras pequeñas e incrementales, y eventualmente convertirá una red neuronal que escupe galimatías en algo que produce oraciones coherentes. Y esta técnica también se puede adaptar a imágenes, secuencias de ADN y más.

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *