At bede AI-modellen om at “tage en dyb indånding” får matematikresultaterne til at stige i studiet

Google DeepMind-forskere udviklede for nylig en teknik til at forbedre matematiske evner i AI-sprogmodeller som ChatGPT ved at bruge andre AI-modeller til at forbedre prompting – de skriftlige instruktioner, der fortæller AI-modellen, hvad den skal gøre. Den fandt ud af, at brugen af menneskelig opmuntring forbedrede matematiske færdigheder dramatisk i overensstemmelse med tidligere resultater.

I et papir kaldet ” Large Language Models as Optimizers “, som blev opført i denne måned på arXiv, introducerede DeepMind-forskere Optimization by PROmpting (OPRO), en metode til at forbedre ydeevnen af store sprogmodeller (LLM’er) såsom OpenAI’s ChatGPT og Googles PaLM 2. ny tilgang omgår begrænsningerne af traditionelle matematik-baserede optimeringsværktøjer ved at bruge naturligt sprog til at vejlede LLM’er i problemløsning. “Natursprog” er en fancy måde at sige dagligdags tale på.

“I stedet for formelt at definere optimeringsproblemet og udlede opdateringstrinnet med en programmeret løser,” skriver forskerne, “beskriver vi optimeringsproblemet i naturligt sprog, og instruerer derefter LLM til iterativt at generere nye løsninger baseret på problembeskrivelsen og den tidligere fundet løsninger.”

Typisk i maskinlæring fungerer teknikker, der bruger algoritmer, såsom derivatbaserede optimeringsværktøjer, som en guide til at forbedre en AI-models ydeevne. Forestil dig en models præstation som en kurve på en graf: Målet er at finde det laveste punkt på denne kurve, fordi det er der, modellen laver færrest fejl. Ved at bruge kurvens hældning til at foretage justeringer hjælper optimeringsværktøjet modellen med at komme tættere og tættere på det ideelle lavpunkt, hvilket gør den mere præcis og effektiv til enhver opgave, den er designet til at udføre.

I stedet for at stole på formelle matematiske definitioner til at udføre denne opgave, bruger OPRO “meta-prompts” beskrevet i naturligt sprog til at sætte scenen for optimeringsprocessen. LLM’en genererer derefter kandidatløsninger baseret på problemets beskrivelse og tidligere løsninger, og den tester dem ved at tildele hver en kvalitetsscore.

I OPRO spiller to store sprogmodeller forskellige roller: en scorer LLM evaluerer den objektive funktion såsom nøjagtighed, mens en optimizer LLM genererer nye løsninger baseret på tidligere resultater og en naturlig sprogbeskrivelse. Forskellige parringer af score- og optimerings-LLM’er evalueres, inklusive modeller som PaLM 2- og GPT- varianter. OPRO kan optimere prompter for scoreren LLM ved at lade optimeringsværktøjet iterativt generere prompter med højere score. Disse scores hjælper systemet med at identificere de bedste løsninger, som derefter tilføjes tilbage til ‘meta-prompten’ til næste optimeringsrunde.

“Tag en dyb indånding og arbejd på dette trin for trin”

Den måske mest spændende del af DeepMind-undersøgelsen er virkningen af specifikke sætninger på outputtet. Sætninger som “lad os tænke trin for trin” fik hver AI-model til at producere mere nøjagtige resultater, når de blev testet i forhold til matematiske problemdatasæt. (Denne teknik blev almindeligt kendt i maj 2022 takket være et nu berømt papir med titlen ” Store sprogmodeller er nul-skudsresonanser .”)

Overvej et simpelt ordproblem, såsom: “Beth bager fire to dusin partier småkager på en uge. Hvis disse cookies deles ligeligt mellem 16 personer, hvor mange cookies indtager hver person så?” Avisen fra 2022 opdagede, at i stedet for bare at fodre en chatbot med et ordproblem som dette af sig selv, ville du i stedet forsætte det med ”Lad os tænke trin for step” og indsæt derefter problemet. Nøjagtigheden af AI-modellens resultater forbedres næsten altid, og det fungerer godt med ChatGPT.

Interessant nok fandt DeepMind-forskere i denne seneste undersøgelse “Tag en dyb indånding og arbejd på dette problem trin for trin” for at være den mest effektive prompt, når den bruges sammen med Googles PaLM 2-sprogmodel. Sætningen opnåede den højeste nøjagtighedsscore på 80,2 procent i test mod GSM8K , som er et datasæt af matematikordproblemer i folkeskolen. Til sammenligning opnåede PaLM 2, uden nogen speciel prompt, kun 34 procent nøjagtighed på GSM8K, og den klassiske “Lad os tænke trin for trin”-prompt opnåede 71,8 procent nøjagtighed.

Så hvorfor virker dette? Det er klart, at store sprogmodeller ikke kan tage en dyb indånding, fordi de ikke har lunger eller krop. De tænker og ræsonnerer heller ikke som mennesker. Hvad “ræsonnement” de laver (og “ræsonnement” er et omstridt udtryk blandt nogle, selvom det let bruges som et kunstudtryk i AI) er lånt fra et massivt datasæt af sprogsætninger skrabet fra bøger og nettet. Det inkluderer ting som Q&A-fora, som indeholder mange eksempler på ” lad os tage en dyb indånding ” eller “tænke trin for trin “, før vi viser mere omhyggeligt begrundede løsninger. Disse sætninger kan hjælpe LLM med at finde bedre svar eller producere bedre eksempler på ræsonnement eller problemløsning fra det datasæt, det absorberede i sit neurale netværk under træning.

Selvom det er lidt forvirrende for os at finde de bedste måder at give LLM’er menneskelignende opmuntring på, er det ikke et problem for OPRO, fordi teknikken bruger store sprogmodeller til at opdage disse mere effektive tilskyndelsessætninger. DeepMind-forskere mener, at den største gevinst for OPRO er dens evne til at gennemsøge mange mulige prompter for at finde den, der giver de bedste resultater for et specifikt problem. Dette kunne give folk mulighed for at producere langt mere nyttige eller nøjagtige resultater fra LLM’er i fremtiden.

Posted on september 20, 2023

News

admin

At bede AI-modellen om at “tage en dyb indånding” får matematikresultaterne til at stige i studiet

“Tag en dyb indånding og arbejd på dette trin for trin”

Skriv et svar Annuller svar

Ret Rainbow Six Siege "Failed to Synchronize Achievements"-fejl

Sådan ændres Windows 11 Virtual Memory Størrelse