Decirle al modelo de IA que «respire profundamente» hace que las puntuaciones en matemáticas se disparen en el estudio
Los investigadores de Google DeepMind desarrollaron recientemente una técnica para mejorar la capacidad matemática en modelos de lenguaje de IA como ChatGPT mediante el uso de otros modelos de IA para mejorar las indicaciones: las instrucciones escritas que le dicen al modelo de IA qué hacer. Descubrió que el uso de estímulos al estilo humano mejoraba drásticamente las habilidades matemáticas, en línea con resultados anteriores.
En un artículo llamado » Large Language Models as Optimizers » publicado este mes en arXiv, los científicos de DeepMind introdujeron la optimización mediante PROmpting (OPRO), un método para mejorar el rendimiento de grandes modelos de lenguaje (LLM) como ChatGPT de OpenAI y PaLM 2 de Google. El nuevo enfoque evita las limitaciones de los optimizadores tradicionales basados en matemáticas mediante el uso de lenguaje natural para guiar a los LLM en la resolución de problemas. El “lenguaje natural” es una forma elegante de decir el habla humana cotidiana.
«En lugar de definir formalmente el problema de optimización y derivar el paso de actualización con un solucionador programado», escriben los investigadores, «describimos el problema de optimización en lenguaje natural, luego instruimos al LLM para que genere de forma iterativa nuevas soluciones basadas en la descripción del problema y en la experiencia previa». soluciones encontradas”.
Normalmente, en el aprendizaje automático, las técnicas que utilizan algoritmos como optimizadores basados en derivados actúan como guía para mejorar el rendimiento de un modelo de IA. Imagine el desempeño de un modelo como una curva en un gráfico: el objetivo es encontrar el punto más bajo de esta curva porque ahí es donde el modelo comete la menor cantidad de errores. Al utilizar la pendiente de la curva para realizar ajustes, el optimizador ayuda al modelo a acercarse cada vez más a ese punto bajo ideal, haciéndolo más preciso y eficiente en cualquier tarea para la que esté diseñado.
En lugar de depender de definiciones matemáticas formales para realizar esta tarea, OPRO utiliza “metaindicaciones” descritas en lenguaje natural para preparar el escenario para el proceso de optimización. Luego, el LLM genera soluciones candidatas basadas en la descripción del problema y las soluciones anteriores, y las prueba asignando a cada una una puntuación de calidad.
En OPRO, dos grandes modelos de lenguaje desempeñan funciones diferentes: un LLM de puntuación evalúa la función objetivo, como la precisión, mientras que un LLM de optimizador genera nuevas soluciones basadas en resultados anteriores y una descripción en lenguaje natural. Se evalúan diferentes pares de LLM de anotador y optimizador, incluidos modelos como PaLM 2 y variantes GPT . OPRO puede optimizar las indicaciones para el LLM del anotador haciendo que el optimizador genere de forma iterativa indicaciones de puntuación más alta. Estas puntuaciones ayudan al sistema a identificar las mejores soluciones, que luego se vuelven a agregar al ‘metamensaje’ para la siguiente ronda de optimización.
“Respira hondo y trabaja esto paso a paso”
Quizás la parte más intrigante del estudio de DeepMind es el impacto de frases específicas en el resultado. Frases como “pensemos paso a paso” impulsaron a cada modelo de IA a producir resultados más precisos cuando se compararon con conjuntos de datos de problemas matemáticos. (Esta técnica se hizo ampliamente conocida en mayo de 2022 gracias a un artículo ahora famoso titulado “Los modelos de lenguajes grandes son razonadores de tiro cero ”).
Considere un problema sencillo, como por ejemplo: “Beth hornea cuatro o dos docenas de galletas en una semana. Si estas cookies se comparten por igual entre 16 personas, ¿cuántas cookies consume cada persona? paso” y luego pegue el problema. La precisión de los resultados del modelo de IA casi siempre mejora y funciona bien con ChatGPT.
Curiosamente, en este último estudio, los investigadores de DeepMind descubrieron que «Respire profundamente y trabaje en este problema paso a paso» es el mensaje más eficaz cuando se utiliza con el modelo de lenguaje PaLM 2 de Google. La frase logró la máxima puntuación de precisión del 80,2 por ciento en las pruebas contra GSM8K , que es un conjunto de datos de problemas matemáticos escritos en la escuela primaria. En comparación, PaLM 2, sin ningún aviso especial, obtuvo sólo un 34 por ciento de precisión en GSM8K, y el clásico mensaje «Pensemos paso a paso» obtuvo un 71,8 por ciento de precisión.
Entonces, ¿por qué funciona esto? Obviamente, los modelos de lenguaje grandes no pueden respirar profundamente porque no tienen pulmones ni cuerpo. Tampoco piensan ni razonan como los humanos. El “razonamiento” que hacen (y “razonamiento” es un término polémico entre algunos, aunque se usa fácilmente como un término técnico en IA) lo toman prestado de un conjunto masivo de datos de frases lingüísticas extraídas de libros y de la web. Eso incluye cosas como foros de preguntas y respuestas, que incluyen muchos ejemplos de » respiremos profundamente » o «pensemos paso a paso » antes de mostrar soluciones más cuidadosamente razonadas. Esas frases pueden ayudar al LLM a obtener mejores respuestas o producir mejores ejemplos de razonamiento o resolución de problemas a partir del conjunto de datos que absorbió en su red neuronal durante el entrenamiento.
Aunque encontrar las mejores formas de brindar a los LLM un estímulo similar al humano nos resulta un poco desconcertante, eso no es un problema para OPRO porque la técnica utiliza grandes modelos de lenguaje para descubrir estas frases motivadoras más efectivas. Los investigadores de DeepMind creen que la mayor ventaja de OPRO es su capacidad de examinar muchas indicaciones posibles para encontrar la que ofrezca los mejores resultados para un problema específico. Esto podría permitir a las personas producir resultados mucho más útiles o precisos a partir de los LLM en el futuro.
Deja una respuesta