Dire al modello di intelligenza artificiale di “fare un respiro profondo” fa aumentare i punteggi di matematica nello studio

Dire al modello di intelligenza artificiale di “fare un respiro profondo” fa aumentare i punteggi di matematica nello studio

I ricercatori di Google DeepMind hanno recentemente sviluppato una tecnica per migliorare le capacità matematiche nei modelli linguistici di intelligenza artificiale come ChatGPT utilizzando altri modelli di intelligenza artificiale per migliorare i suggerimenti, ovvero le istruzioni scritte che dicono al modello di intelligenza artificiale cosa fare. Si è scoperto che l’uso dell’incoraggiamento in stile umano ha migliorato notevolmente le abilità matematiche, in linea con i risultati precedenti.

In un articolo intitolato “ Large Language Models as Optimizers “elencato questo mese su arXiv, gli scienziati di DeepMind hanno introdotto l’ottimizzazione tramite PROmpting (OPRO), un metodo per migliorare le prestazioni di modelli linguistici di grandi dimensioni (LLM) come ChatGPT di OpenAI e PaLM 2 di Google. Il nuovo approccio aggira i limiti dei tradizionali ottimizzatori basati sulla matematica utilizzando il linguaggio naturale per guidare gli LLM nella risoluzione dei problemi. Il “linguaggio naturale” è un modo elegante per esprimere il linguaggio umano quotidiano.

“Invece di definire formalmente il problema di ottimizzazione e derivare la fase di aggiornamento con un risolutore programmato”, scrivono i ricercatori, “descriviamo il problema di ottimizzazione in linguaggio naturale, quindi istruiamo il LLM a generare in modo iterativo nuove soluzioni basate sulla descrizione del problema e sulle precedenti soluzioni. trovato soluzioni.”

In genere, nell’apprendimento automatico, le tecniche che utilizzano algoritmi come gli ottimizzatori basati su derivati ​​fungono da guida per migliorare le prestazioni di un modello di intelligenza artificiale. Immagina la prestazione di un modello come una curva su un grafico: l’obiettivo è trovare il punto più basso su questa curva perché è lì che il modello commette meno errori. Utilizzando la pendenza della curva per apportare modifiche, l’ottimizzatore aiuta il modello ad avvicinarsi sempre di più al punto minimo ideale, rendendolo più preciso ed efficiente in qualunque attività sia progettato per svolgere.

Invece di fare affidamento su definizioni matematiche formali per eseguire questo compito, OPRO utilizza “meta-prompt” descritti in linguaggio naturale per preparare il terreno al processo di ottimizzazione. Il LLM genera quindi soluzioni candidate in base alla descrizione del problema e alle soluzioni precedenti e le mette alla prova assegnando a ciascuna un punteggio di qualità.

In OPRO, due grandi modelli linguistici svolgono ruoli diversi: uno scorer LLM valuta la funzione obiettivo come l’accuratezza, mentre un ottimizzatore LLM genera nuove soluzioni basate sui risultati passati e una descrizione del linguaggio naturale. Vengono valutati diversi accoppiamenti di LLM scorer e ottimizzatore, inclusi modelli come PaLM 2 e varianti GPT . OPRO può ottimizzare i prompt per il punteggio LLM facendo in modo che l’ottimizzatore generi in modo iterativo prompt con punteggio più alto. Questi punteggi aiutano il sistema a identificare le soluzioni migliori, che vengono poi aggiunte nuovamente al “meta-prompt” per il successivo ciclo di ottimizzazione.

“Fai un respiro profondo e lavora su questo passo dopo passo”

Forse la parte più intrigante dello studio DeepMind è l’impatto di frasi specifiche sull’output. Frasi come “pensiamo passo dopo passo” hanno spinto ciascun modello di intelligenza artificiale a produrre risultati più accurati quando testato rispetto a set di dati di problemi di matematica. (Questa tecnica è diventata ampiamente nota nel maggio 2022 grazie a un articolo ormai famoso intitolato “ Large Language Models are Zero-Shot Reasoners .”)

Consideriamo un semplice problema verbale, ad esempio: “Beth prepara quattro dozzine di lotti di biscotti in una settimana. Se questi cookie vengono condivisi equamente tra 16 persone, quanti cookie consuma ciascuna persona? step”e quindi incollare il problema. La precisione dei risultati del modello AI migliora quasi sempre e funziona bene con ChatGPT.

È interessante notare che in questo ultimo studio i ricercatori di DeepMind hanno scoperto che “Fai un respiro profondo e lavora su questo problema passo dopo passo” è il suggerimento più efficace se utilizzato con il modello linguistico PaLM 2 di Google. La frase ha ottenuto il punteggio massimo di precisione dell’80,2% nei test contro GSM8K , che è un insieme di dati di problemi di parole matematiche delle scuole elementari. In confronto, PaLM 2, senza alcuna guida speciale, ha ottenuto solo il 34% di precisione su GSM8K, e il classico messaggio “Pensiamo passo dopo passo” ha ottenuto una precisione del 71,8%.

Allora perché funziona? Ovviamente, i grandi modelli linguistici non possono fare un respiro profondo perché non hanno polmoni né corpo. Nemmeno loro pensano e ragionano come gli umani. Il “ragionamento” che fanno (e “ragionamento” è un termine controverso tra alcuni, sebbene sia prontamente usato come termine artistico nell’intelligenza artificiale) è preso in prestito da un enorme insieme di dati di frasi linguistiche recuperate dai libri e dal web. Ciò include cose come i forum di domande e risposte, che includono molti esempi di ” facciamo un respiro profondo ” o “pensiamo passo dopo passo ” prima di mostrare soluzioni più attentamente ragionate. Queste frasi possono aiutare il LLM a ottenere risposte migliori o produrre esempi migliori di ragionamento o risoluzione di problemi dal set di dati assorbito nella sua rete neurale durante l’addestramento.

Anche se trovare i modi migliori per offrire ai LLM un incoraggiamento di tipo umano è un po’ sconcertante per noi, non è un problema per OPRO perché la tecnica utilizza modelli linguistici di grandi dimensioni per scoprire queste frasi di suggerimento più efficaci. I ricercatori di DeepMind ritengono che il più grande vantaggio di OPRO sia la sua capacità di vagliare molti possibili suggerimenti per trovare quello che fornisce i migliori risultati per un problema specifico. Ciò potrebbe consentire alle persone di produrre risultati molto più utili o accurati dai LLM in futuro.

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *