Door het AI-model te vertellen ‘diep adem te halen’, stijgen de wiskundescores tijdens het studeren

Google DeepMind-onderzoekers hebben onlangs een techniek ontwikkeld om de wiskundige vaardigheden in AI-taalmodellen zoals ChatGPT te verbeteren door andere AI-modellen te gebruiken om de prompting te verbeteren: de schriftelijke instructies die het AI-model vertellen wat het moet doen. Het bleek dat het gebruik van menselijke aanmoediging de wiskundige vaardigheden dramatisch verbeterde, in lijn met eerdere resultaten.

In een artikel met de titel ‘ Large Language Models as Optimizers ‘, deze maand op arXiv vermeld, introduceerden wetenschappers van DeepMind Optimization by PROmpting (OPRO), een methode om de prestaties van grote taalmodellen (LLM’s) zoals OpenAI’s ChatGPT en Google’s PaLM 2 te verbeteren. nieuwe aanpak omzeilt de beperkingen van traditionele op wiskunde gebaseerde optimizers door natuurlijke taal te gebruiken om LLM’s te begeleiden bij het oplossen van problemen. ‘Natuurlijke taal’ is een mooie manier om alledaagse menselijke spraak te zeggen.

“In plaats van het optimalisatieprobleem formeel te definiëren en de updatestap af te leiden met een geprogrammeerde oplosser”, schrijven de onderzoekers, “beschrijven we het optimalisatieprobleem in natuurlijke taal en instrueren we de LLM vervolgens om iteratief nieuwe oplossingen te genereren op basis van de probleembeschrijving en de eerder oplossingen gevonden.”

Bij machinaal leren fungeren technieken die algoritmen gebruiken, zoals op derivaten gebaseerde optimizers, doorgaans als leidraad voor het verbeteren van de prestaties van een AI-model. Stel je de prestaties van een model voor als een curve in een grafiek: het doel is om het laagste punt op deze curve te vinden, omdat het model daar de minste fouten maakt. Door de helling van de curve te gebruiken om aanpassingen te maken, helpt de optimizer het model steeds dichter bij dat ideale dieptepunt te komen, waardoor het nauwkeuriger en efficiënter wordt bij welke taak het ook is ontworpen.

In plaats van te vertrouwen op formele wiskundige definities om deze taak uit te voeren, gebruikt OPRO “meta-prompts” beschreven in natuurlijke taal om de weg vrij te maken voor het optimalisatieproces. De LLM genereert vervolgens kandidaat-oplossingen op basis van de beschrijving van het probleem en eerdere oplossingen, en test deze door aan elk een kwaliteitsscore toe te kennen.

In OPRO spelen twee grote taalmodellen verschillende rollen: een scorer-LLM evalueert de objectieve functie zoals nauwkeurigheid, terwijl een optimizer-LLM nieuwe oplossingen genereert op basis van resultaten uit het verleden en een beschrijving van natuurlijke taal. Er worden verschillende combinaties van scorer- en optimizer-LLM’s geëvalueerd, waaronder modellen als PaLM 2- en GPT- varianten. OPRO kan prompts voor de LLM van de scorer optimaliseren door de optimizer iteratief hoger scorende prompts te laten genereren. Deze scores helpen het systeem bij het identificeren van de beste oplossingen, die vervolgens weer worden toegevoegd aan de ‘meta-prompt’ voor de volgende optimalisatieronde.

“Haal diep adem en werk hier stap voor stap aan”

Misschien wel het meest intrigerende deel van het DeepMind-onderzoek is de impact van specifieke zinnen op de output. Uitdrukkingen als ‘laten we stap voor stap nadenken’ zorgden ervoor dat elk AI-model nauwkeurigere resultaten produceerde wanneer het werd getest aan de hand van datasets voor wiskundige problemen. (Deze techniek werd in mei 2022 algemeen bekend dankzij een inmiddels beroemd artikel met de titel ‘ Large Language Models are Zero-Shot Reasoners ’.)

Denk eens aan een eenvoudig woordprobleem, zoals: ‘Beth bakt vier twintig batches koekjes in een week. Als deze cookies gelijkelijk onder 16 mensen worden verdeeld, hoeveel cookies consumeert elke persoon dan? In het artikel uit 2022 werd ontdekt dat je, in plaats van een chatbot alleen maar een woordprobleem als dit op zichzelf te geven, er in plaats daarvan het voorvoegsel aan toevoegt: ‘Laten we stap voor stap nadenken’. stap” en plak vervolgens het probleem. De nauwkeurigheid van de resultaten van het AI-model verbetert bijna altijd, en het werkt goed met ChatGPT.

Interessant is dat DeepMind-onderzoekers in dit laatste onderzoek ontdekten dat “Haal diep adem en werk stap voor stap aan dit probleem” de meest effectieve prompt is bij gebruik met het PaLM 2-taalmodel van Google. De zinsnede behaalde de hoogste nauwkeurigheidsscore van 80,2 procent in tests met GSM8K , een dataset van wiskundige woordproblemen op de basisschool. Ter vergelijking: PaLM 2 scoorde, zonder speciale aanwijzingen, slechts 34 procent nauwkeurigheid op GSM8K, en de klassieke ‘Laten we stap voor stap nadenken’-prompt scoorde een nauwkeurigheid van 71,8 procent.

Dus waarom werkt dit? Het is duidelijk dat grote taalmodellen niet diep kunnen ademhalen omdat ze geen longen of lichaam hebben. Ze denken en redeneren ook niet als mensen. Het ‘redeneren’ dat ze doen (en ‘redeneren’ is onder sommigen een controversiële term, hoewel het gemakkelijk wordt gebruikt als een kunstterm in AI) is ontleend aan een enorme dataset van taaluitdrukkingen die uit boeken en het internet zijn geschraapt. Dat omvat zaken als vraag- en antwoordforums, die veel voorbeelden bevatten van ‘ laten we diep ademhalen ‘ of ‘ stap voor stap nadenken ‘ voordat we zorgvuldiger beredeneerde oplossingen laten zien. Deze zinnen kunnen de LLM helpen betere antwoorden te vinden of betere voorbeelden van redeneren of probleemoplossing te produceren op basis van de dataset die hij tijdens de training in zijn neurale netwerk heeft opgenomen.

Hoewel het voor ons enigszins verwarrend is om de beste manieren te vinden om LLM’s mensachtige aanmoedigingen te geven, is dat geen probleem voor OPRO, omdat de techniek gebruik maakt van grote taalmodellen om deze effectievere aanmoedigingszinnen te ontdekken. DeepMind-onderzoekers denken dat de grootste overwinning voor OPRO het vermogen is om vele mogelijke aanwijzingen te doorzoeken om degene te vinden die de beste resultaten oplevert voor een specifiek probleem. Hierdoor zouden mensen in de toekomst veel nuttiger en nauwkeuriger resultaten kunnen behalen met LLM’s.

Posted on september 20, 2023

News

admin

Door het AI-model te vertellen ‘diep adem te halen’, stijgen de wiskundescores tijdens het studeren

“Haal diep adem en werk hier stap voor stap aan”

Geef een reactie Reactie annuleren

De fout 'Kan prestaties niet synchroniseren' van Rainbow Six Siege repareren

Hoe u de virtuele geheugengrootte van Windows 11 kunt wijzigen