Jei dirbtinio intelekto modeliui liepiama „giliai įkvėpti“, matematikos rezultatai studijuojant sparčiai auga
„Google DeepMind“ tyrėjai neseniai sukūrė metodą, skirtą AI kalbos modelių, pvz., „ChatGPT“ matematiniams gebėjimams pagerinti , naudodami kitus AI modelius, kad pagerintų raginimą – rašytines instrukcijas, kuriose AI modeliui nurodoma, ką daryti. Nustatyta, kad naudojant žmogiškąjį skatinimą, matematikos įgūdžiai labai pagerėjo, kaip ir ankstesni rezultatai.
Straipsnyje, pavadintame „ Didieji kalbų modeliai kaip optimizatoriai “, kuris šį mėnesį pateikiamas „arXiv“, „DeepMind“ mokslininkai pristatė optimizavimą naudojant PROmpting (OPRO), metodą, skirtą pagerinti didelių kalbų modelių (LLM), tokių kaip OpenAI ChatGPT ir Google PaLM 2, veikimą. naujas požiūris apeina tradicinių matematikos optimizavimo priemonių apribojimus, naudodamas natūralią kalbą, kad padėtų LLM sprendžiant problemas. „Natūrali kalba“ yra įmantrus būdas pasakyti kasdienę žmogaus kalbą.
„Užuot formaliai apibrėžę optimizavimo problemą ir išvedę atnaujinimo žingsnį su užprogramuotu sprendėju“, – rašo mokslininkai, – optimizavimo problemą aprašome natūralia kalba, tada nurodome LLM kartotiškai generuoti naujus sprendimus, remiantis problemos aprašymu ir anksčiau pateikta informacija. rado sprendimus“.
Paprastai mašininio mokymosi metodai, naudojantys algoritmus, pvz., išvestiniais optimizatoriais, veikia kaip vadovas, kaip pagerinti AI modelio veikimą. Įsivaizduokite modelio veikimą kaip kreivę grafike: tikslas yra rasti žemiausią šios kreivės tašką, nes čia modelis daro mažiausiai klaidų. Naudodamas kreivės nuolydį koregavimui, optimizavimo priemonė padeda modeliui priartėti prie idealaus žemiausio taško, todėl jis tampa tikslesnis ir efektyvesnis atliekant bet kokią užduotį, kuriai jis skirtas.
Užuot pasikliaudamas formaliais matematiniais apibrėžimais, kad atliktų šią užduotį, OPRO naudoja natūralia kalba aprašytus „meta raginimus“, kad nustatytų optimizavimo proceso etapą. Tada LLM, remdamasis problemos aprašymu ir ankstesniais sprendimais, sugeneruoja galimus sprendimus ir juos išbando kiekvienam priskirdamas kokybės balą.
OPRO sistemoje du dideli kalbos modeliai atlieka skirtingus vaidmenis: taškų rinkėjas LLM įvertina tikslo funkciją, pvz., tikslumą, o optimizavimo LLM generuoja naujus sprendimus, pagrįstus ankstesniais rezultatais ir natūralios kalbos aprašymu. Įvertinamos skirtingos taškų rinkimo ir optimizavimo LLM poros, įskaitant tokius modelius kaip PaLM 2 ir GPT variantai. OPRO gali optimizuoti taškų surinkėjo LLM raginimus, optimizuotojui pakartodamas generuojant aukštesnio balo raginimus. Šie balai padeda sistemai nustatyti geriausius sprendimus, kurie vėliau įtraukiami į „meta raginimą“ kitam optimizavimo etapui.
„Giliai įkvėpk ir dirbk šiuo klausimu žingsnis po žingsnio“
Bene labiausiai intriguojanti „DeepMind“ tyrimo dalis yra konkrečių frazių įtaka rezultatui. Frazės, pvz., „Galvokime žingsnis po žingsnio“, paskatino kiekvieną AI modelį gauti tikslesnius rezultatus, kai jis buvo išbandytas pagal matematikos problemų duomenų rinkinius. (Šis metodas plačiai išgarsėjo 2022 m. gegužės mėn. dėl dabar žinomo popieriaus pavadinimu „ Didelių kalbų modeliai yra nuliniai .“)
Apsvarstykite paprastą žodinę užduotį, pavyzdžiui: „Per savaitę Betė iškepa keturias dvi dešimtis sausainių partijų. Jei šie slapukai dalijami 16 žmonių po lygiai, kiek slapukų suvartoja kiekvienas žmogus?“ 2022 m. laikraštis atrado, kad užuot tiesiog pateikę pokalbių robotui tokią žodinę problemą kaip ši, prieš ją turėtumėte įrašyti „Pagalvokime žingsnis po žingsnio“. žingsnis“ ir įklijuokite problemą. Dirbtinio intelekto modelio rezultatų tikslumas beveik visada gerėja ir jis gerai veikia su ChatGPT.
Įdomu tai, kad šiame naujausiame tyrime „DeepMind“ mokslininkai nustatė, kad „Giliai įkvėpkite ir žingsnis po žingsnio spręskite šią problemą“ yra veiksmingiausias raginimas naudojant „Google“ PaLM 2 kalbos modelį. Frazė pasiekė aukščiausią 80,2 proc. tikslumo balą atliekant testus su GSM8K , kuris yra vidurinės mokyklos matematikos tekstinių problemų duomenų rinkinys. Palyginimui, PaLM 2 be jokių specialių raginimų GSM8K surinko tik 34 procentų tikslumą, o klasikinis raginimas „Galvokime žingsnis po žingsnio“ – 71,8 procento.
Taigi kodėl tai veikia? Akivaizdu, kad didelės kalbos modeliai negali giliai įkvėpti, nes neturi plaučių ar kūno. Jie taip pat nemąsto ir nesupranta taip, kaip žmonės. Tai, ką jie daro „protauti“ (ir „samprotavimas“ yra ginčytinas terminas tarp kai kurių, nors jis lengvai naudojamas kaip meno terminas dirbtiniu intelektu), yra pasiskolinta iš didžiulio kalbinių frazių duomenų rinkinio, išskobto iš knygų ir interneto. Tai apima tokius dalykus kaip klausimų ir atsakymų forumai, kuriuose yra daug pavyzdžių „ giliai įkvėpkime “ arba „pagalvokime žingsnis po žingsnio “ prieš rodydami atidžiau pagrįstus sprendimus. Šios frazės gali padėti LLM gauti geresnius atsakymus arba pateikti geresnius samprotavimo ar problemų sprendimo pavyzdžius iš duomenų rinkinio, kurį jis absorbavo į savo neuroninį tinklą mokymo metu.
Nors mums šiek tiek glumina rasti geriausius būdus, kaip suteikti LLM žmogišką padrąsinimą, OPRO tai nėra problema, nes ši technika naudoja didelius kalbos modelius, kad atrastų šias veiksmingesnes raginimo frazes. „DeepMind“ tyrinėtojai mano, kad didžiausias OPRO laimėjimas yra jo gebėjimas atsijoti daugybę galimų raginimų ir rasti tą, kuris duoda geriausius rezultatus konkrečiai problemai spręsti. Tai leistų žmonėms ateityje pateikti daug naudingesnių ar tikslesnių LLM rezultatų.
Parašykite komentarą