Att säga till AI-modellen att ”ta ett djupt andetag” får mattepoängen att stiga i höjden i studierna

Google DeepMind-forskare utvecklade nyligen en teknik för att förbättra matematisk förmåga i AI-språkmodeller som ChatGPT genom att använda andra AI-modeller för att förbättra prompten – de skriftliga instruktionerna som talar om för AI-modellen vad den ska göra. Den fann att uppmuntran av mänsklig stil förbättrade matematiska färdigheter dramatiskt, i linje med tidigare resultat.

I en artikel som heter ” Large Language Models as Optimizers ” som listades denna månad på arXiv, introducerade DeepMind-forskare Optimization by PROmpting (OPRO), en metod för att förbättra prestandan för stora språkmodeller (LLM) som OpenAI:s ChatGPT och Googles PaLM 2. Detta ett nytt tillvägagångssätt kringgår begränsningarna hos traditionella matematikbaserade optimerare genom att använda naturligt språk för att vägleda LLM:er i problemlösning. ”Naturligt språk” är ett fint sätt att säga vardagligt mänskligt tal.

”Istället för att formellt definiera optimeringsproblemet och härleda uppdateringssteget med en programmerad lösare,” skriver forskarna, ”beskriver vi optimeringsproblemet på naturligt språk, och instruerar sedan LLM att iterativt generera nya lösningar baserat på problembeskrivningen och den tidigare hittat lösningar.”

I maskininlärning fungerar vanligtvis tekniker som använder algoritmer som derivatbaserade optimerare som en guide för att förbättra en AI-modells prestanda. Föreställ dig en modells prestanda som en kurva på en graf: Målet är att hitta den lägsta punkten på denna kurva eftersom det är där modellen gör minst misstag. Genom att använda kurvans lutning för att göra justeringar hjälper optimeraren modellen att komma närmare och närmare den idealiska lågpunkten, vilket gör den mer exakt och effektiv vid vilken uppgift den än är designad för att utföra.

Istället för att förlita sig på formella matematiska definitioner för att utföra denna uppgift, använder OPRO ”meta-prompter” som beskrivs på naturligt språk för att sätta scenen för optimeringsprocessen. LLM genererar sedan kandidatlösningar baserat på problemets beskrivning och tidigare lösningar, och den testar dem genom att tilldela var och en ett kvalitetspoäng.

I OPRO spelar två stora språkmodeller olika roller: en poänggivande LLM utvärderar den objektiva funktionen såsom noggrannhet, medan en optimerare LLM genererar nya lösningar baserade på tidigare resultat och en naturlig språkbeskrivning. Olika parningar av poängsättare och optimerare LLM:er utvärderas, inklusive modeller som PaLM 2 och GPT- varianter. OPRO kan optimera uppmaningar för poängtagarens LLM genom att låta optimeraren iterativt generera uppmaningar med högre poäng. Dessa poäng hjälper systemet att identifiera de bästa lösningarna, som sedan läggs tillbaka till ”meta-prompten” för nästa optimeringsrunda.

”Ta ett djupt andetag och arbeta med detta steg för steg”

Den kanske mest spännande delen av DeepMind-studien är effekten av specifika fraser på resultatet. Fraser som ”låt oss tänka steg för steg” fick varje AI-modell att producera mer exakta resultat när de testades mot matematiska problemdatauppsättningar. (Denna teknik blev allmänt känd i maj 2022 tack vare en numera berömd artikel med titeln ” Large Language Models are Zero-Shot Reasoners .” )

Tänk på ett enkelt ordproblem, som ”Beth bakar fyra tvådussin satser kakor på en vecka. Om dessa cookies delas lika mellan 16 personer, hur många cookies konsumerar varje person?” Tidningen 2022 upptäckte att istället för att bara mata en chatbot med ett ordproblem som detta av sig själv, skulle du istället prefixa det med ”Låt oss tänka steg för steg step” och klistra sedan in problemet. Noggrannheten i AI-modellens resultat förbättras nästan alltid, och den fungerar bra med ChatGPT.

Intressant nog, i den här senaste studien fann DeepMind-forskare att ”Ta ett djupt andetag och arbeta med det här problemet steg för steg” är den mest effektiva uppmaningen när den används med Googles språkmodell PaLM 2. Frasen uppnådde högsta noggrannhetspoäng på 80,2 procent i tester mot GSM8K , som är en datamängd med matematiska ordproblem i grundskolan. Som jämförelse fick PaLM 2, utan någon speciell uppmaning, endast 34 procents noggrannhet på GSM8K, och den klassiska ”Låt oss tänka steg för steg”-prompten fick 71,8 procents noggrannhet.

Så varför fungerar detta? Uppenbarligen kan stora språkmodeller inte ta ett djupt andetag eftersom de inte har lungor eller kroppar. De tänker och resonerar inte som människor heller. Vilket ”resonemang” de gör (och ”resonemang” är ett omtvistat begrepp bland vissa, även om det lätt används som ett konstbegrepp inom AI) är lånat från en massiv datauppsättning språkfraser skrapade från böcker och webben. Det inkluderar saker som fråge- och svarsforum, som innehåller många exempel på ” låt oss ta ett djupt andetag ” eller ”tänka steg för steg ” innan vi visar mer noggrant motiverade lösningar. Dessa fraser kan hjälpa LLM att få bättre svar eller producera bättre exempel på resonemang eller problemlösning från den datauppsättning som den absorberade i sitt neurala nätverk under träning.

Även om det är lite förbryllande för oss att utarbeta de bästa sätten att ge LLM:s människoliknande uppmuntran, är det inte ett problem för OPRO eftersom tekniken använder stora språkmodeller för att upptäcka dessa mer effektiva uppmaningsfraser. DeepMind-forskare tror att den största vinsten för OPRO är dess förmåga att sålla igenom många möjliga uppmaningar för att hitta den som ger bäst resultat för ett specifikt problem. Detta kan göra det möjligt för människor att producera mycket mer användbara eller korrekta resultat från LLMs i framtiden.

Posted on september 20, 2023

News

admin

Att säga till AI-modellen att ”ta ett djupt andetag” får mattepoängen att stiga i höjden i studierna

”Ta ett djupt andetag och arbeta med detta steg för steg”

Lämna ett svar Avbryt svar

Åtgärda Rainbow Six Siege-felet "Det gick inte att synkronisera prestationer".

Hur man ändrar storleken på det virtuella minnet i Windows 11