Liekot AI modelim “dziļi ieelpot”, matemātikas rezultāti mācībās pieaug
Google DeepMind pētnieki nesen izstrādāja paņēmienu, lai uzlabotu matemātikas spējas AI valodas modeļos, piemēram, ChatGPT , izmantojot citus AI modeļus, lai uzlabotu pamudinājumus — rakstiskas instrukcijas, kas AI modelim norāda, kā rīkoties. Tika konstatēts, ka, izmantojot cilvēka stila iedrošinājumu, matemātikas prasmes ievērojami uzlabojās atbilstoši iepriekšējiem rezultātiem.
Rakstā ar nosaukumu “ Lielie valodu modeļi kā optimizētāji ”, kas šomēnes tika uzskaitīts vietnē arXiv, DeepMind zinātnieki iepazīstināja ar optimizāciju, izmantojot PROmpting (OPRO), kas ir metode, lai uzlabotu lielu valodu modeļu (LLM), piemēram, OpenAI ChatGPT un Google PaLM 2, veiktspēju. jaunā pieeja apiet tradicionālo uz matemātiku balstīto optimizētāju ierobežojumus, izmantojot dabisko valodu, lai palīdzētu LLM problēmu risināšanā. “Dabiskā valoda” ir izdomāts veids, kā pateikt ikdienas cilvēka runu.
“Tā vietā, lai formāli definētu optimizācijas problēmu un atvasinātu atjaunināšanas soli ar programmētu risinātāju,” raksta pētnieki, “mēs aprakstām optimizācijas problēmu dabiskā valodā, pēc tam uzdodam LLM iteratīvi ģenerēt jaunus risinājumus, pamatojoties uz problēmas aprakstu un iepriekš. atrada risinājumus.”
Parasti mašīnmācībā metodes, kurās tiek izmantoti algoritmi, piemēram, uz atvasinājumiem balstīti optimizētāji, darbojas kā ceļvedis AI modeļa veiktspējas uzlabošanai. Iedomājieties modeļa veiktspēju kā līkni grafikā: mērķis ir atrast šīs līknes zemāko punktu, jo tur modelis pieļauj vismazāk kļūdu. Izmantojot līknes slīpumu, lai veiktu korekcijas, optimizētājs palīdz modelim tuvoties ideālajam zemākajam punktam, padarot to precīzāku un efektīvāku jebkura uzdevuma veikšanai.
Tā vietā, lai paļautos uz formālām matemātiskām definīcijām, lai veiktu šo uzdevumu, OPRO izmanto “meta uzvednes”, kas aprakstītas dabiskā valodā, lai iestatītu optimizācijas procesa posmu. Pēc tam LLM ģenerē risinājumu kandidātus, pamatojoties uz problēmas aprakstu un iepriekšējiem risinājumiem, un pārbauda tos, katram piešķirot kvalitātes rādītāju.
Programmā OPRO divi lieli valodu modeļi spēlē dažādas lomas: punktu skaitītājs LLM novērtē mērķa funkciju, piemēram, precizitāti, savukārt optimizētājs LLM ģenerē jaunus risinājumus, pamatojoties uz pagātnes rezultātiem un dabiskās valodas aprakstu. Tiek novērtēti dažādi punktu skaitītāju un optimizētāju LLM pāri, tostarp tādi modeļi kā PaLM 2 un GPT varianti. OPRO var optimizēt uzvednes vērtētājam LLM, optimizētājam iteratīvi ģenerējot uzvednes ar augstāku punktu skaitu. Šie rādītāji palīdz sistēmai noteikt labākos risinājumus, kas pēc tam tiek pievienoti atpakaļ “meta uzvednei” nākamajai optimizācijas kārtai.
“Ievelciet dziļu elpu un strādājiet pie šī soli pa solim”
Varbūt visintriģējošākā DeepMind pētījuma daļa ir konkrētu frāžu ietekme uz rezultātu. Frāzes, piemēram, “domāsim soli pa solim”, pamudināja katru AI modeli iegūt precīzākus rezultātus, pārbaudot to ar matemātikas problēmu datu kopām. (Šis paņēmiens kļuva plaši pazīstams 2022. gada maijā, pateicoties tagad slavenajam dokumentam ar nosaukumu “ Lielo valodu modeļi ir nevainojami ”.)
Apsveriet vienkāršu vārdu uzdevumu, piemēram, “Beta nedēļas laikā izcep četras divas desmitas cepumu partijas. Ja šie sīkfaili tiek vienādi sadalīti 16 personām, cik daudz cepumu patērē katrs cilvēks?” 2022. gada raksts atklāja, ka tā vietā, lai tikai ievadītu tērzēšanas robotu ar tādu vārdu problēmu, kā šī pati par sevi, jūs tā vietā pievienojat to ar prefiksu “Padomāsim soli pa solim. solis” un pēc tam ielīmējiet problēmu. AI modeļa rezultātu precizitāte gandrīz vienmēr uzlabojas, un tas labi darbojas ar ChatGPT.
Interesanti, ka šajā jaunākajā pētījumā DeepMind pētnieki atklāja, ka “Ievelciet dziļu elpu un soli pa solim strādājiet pie šīs problēmas” ir visefektīvākā uzvedne, ja to lieto kopā ar Google PaLM 2 valodas modeli. Frāze sasniedza augstāko precizitātes punktu — 80,2 procenti, veicot testus pret GSM8K — datu kopu par matemātikas matemātikas uzdevumiem, kas tiek rādīti klasēs. Salīdzinājumam, PaLM 2 bez īpaša pamudinājuma ieguva tikai 34 procentu precizitāti uz GSM8K, un klasiskā uzvedne “Domāsim soli pa solim” sasniedza 71,8 procentu precizitāti.
Tātad, kāpēc tas darbojas? Acīmredzot lielas valodas modeļi nevar dziļi elpot, jo tiem nav ne plaušu, ne ķermeņa. Viņi arī nedomā un nedomā tāpat kā cilvēki. Tas, ko viņi dara (un “sadomāšana” ir strīdīgs termins starp dažiem, lai gan to viegli izmanto kā mākslas terminu AI), ir aizgūts no milzīgas valodas frāžu datu kopas, kas iegūta no grāmatām un tīmekļa. Tas ietver tādas lietas kā jautājumu un atbilžu forumi, kuros ir iekļauti daudzi piemēri “ dziļi ieelposim ” vai “padomāsim soli pa solim ”, pirms parādām rūpīgāk pamatotus risinājumus. Šīs frāzes var palīdzēt LLM iegūt labākas atbildes vai radīt labākus argumentācijas vai problēmu risināšanas piemērus no datu kopas, ko tas apmācību laikā absorbēja savā neironu tīklā.
Lai gan mums ir nedaudz mulsinoši izstrādāt labākos veidus, kā sniegt LLM cilvēkiem līdzīgu iedrošinājumu, OPRO tā nav problēma, jo šī tehnika izmanto lielus valodu modeļus, lai atklātu šīs efektīvākās pamudināšanas frāzes. DeepMind pētnieki uzskata, ka lielākais OPRO ieguvums ir tā spēja izsijāt daudzas iespējamās uzvednes, lai atrastu to, kas sniedz vislabākos rezultātus konkrētai problēmai. Tas varētu ļaut cilvēkiem nākotnē iegūt daudz noderīgākus vai precīzākus rezultātus no LLM.
Atbildēt