Když řeknete modelu AI, aby se „zhluboka nadechl“, matematické skóre ve studiu prudce stoupá
Výzkumníci Google DeepMind nedávno vyvinuli techniku ke zlepšení matematických schopností v jazykových modelech AI, jako je ChatGPT , pomocí jiných modelů AI ke zlepšení nabádání – písemných pokynů, které modelu AI říkají, co má dělat. Zjistilo se, že používání povzbuzování v lidském stylu dramaticky zlepšilo matematické dovednosti, v souladu s dřívějšími výsledky.
V článku nazvaném „ Large Language Models as Optimizers “ uvedeném tento měsíc na arXiv představili vědci z DeepMind Optimization by PROmpting (OPRO), metodu ke zlepšení výkonu velkých jazykových modelů (LLM), jako jsou ChatGPT od OpenAI a PaLM 2 od Googlu. nový přístup obchází omezení tradičních matematických optimalizátorů pomocí přirozeného jazyka k vedení LLM při řešení problémů. „Přirozený jazyk“ je skvělý způsob, jak vyslovit každodenní lidskou řeč.
„Namísto formálního definování optimalizačního problému a odvození kroku aktualizace pomocí naprogramovaného řešiče,“ píší výzkumníci, „popíšeme optimalizační problém v přirozeném jazyce a poté instruujeme LLM, aby iterativně generovalo nová řešení na základě popisu problému a předchozího našel řešení.“
Ve strojovém učení obvykle techniky využívající algoritmy, jako jsou optimalizátory založené na derivátech, slouží jako vodítko pro zlepšení výkonu modelu AI. Představte si výkon modelu jako křivku na grafu: Cílem je najít nejnižší bod na této křivce, protože tam model dělá nejméně chyb. Pomocí sklonu křivky k úpravám pomáhá optimalizátor modelu přiblížit se k ideálnímu dolnímu bodu, takže je přesnější a efektivnější při jakémkoli úkolu, pro který je navržen.
Namísto spoléhání se na formální matematické definice při provádění tohoto úkolu používá OPRO „meta-výzvy“ popsané v přirozeném jazyce, aby připravila půdu pro proces optimalizace. LLM poté generuje kandidátská řešení na základě popisu problému a předchozích řešení a testuje je tak, že každému přiřadí skóre kvality.
V OPRO hrají dva velké jazykové modely různé role: skórovací LLM hodnotí cílovou funkci, jako je přesnost, zatímco optimalizační LLM generuje nová řešení na základě minulých výsledků a popisu přirozeného jazyka. Vyhodnocují se různé páry hodnoticích a optimalizačních LLM, včetně modelů jako PaLM 2 a varianty GPT . OPRO může optimalizovat výzvy pro skórovací LLM tím, že optimalizátor iterativně generuje výzvy s vyšším skóre. Tato skóre pomáhají systému identifikovat nejlepší řešení, která jsou poté přidána zpět do „meta-výzvy“ pro další kolo optimalizace.
„Zhluboka se nadechněte a pracujte na tom krok za krokem“
Snad nejzajímavější částí studie DeepMind je dopad konkrétních frází na výstup. Fráze jako „přemýšlejme krok za krokem“ podnítily každý model umělé inteligence k získání přesnějších výsledků při testování s datovými sadami matematických problémů. (Tato technika se stala široce známou v květnu 2022 díky nyní známému článku s názvem „ Large Language Models are Zero-Shot Reasoners .)
Zvažte jednoduchou slovní úlohu, například: „Beth upeče čtyři dvě desítky várek sušenek za týden. Pokud jsou tyto soubory cookie sdíleny mezi 16 lidmi rovným dílem, kolik souborů cookie každý zkonzumuje?“ V novinách z roku 2022 se objevilo, že místo toho, abyste chatbotovi jen nakrmili slovní problém, jako je tento, místo toho byste před něj dali „Pojďme přemýšlet krok za krok“ a poté vložte problém. Přesnost výsledků modelu AI se téměř vždy zlepšuje a funguje dobře s ChatGPT.
Je zajímavé, že v této nejnovější studii výzkumníci z DeepMind zjistili, že „zhluboka se nadechněte a pracujte na tomto problému krok za krokem“ jako nejúčinnější výzva při použití s jazykovým modelem PaLM 2 Google. Tato fráze dosáhla nejvyššího skóre přesnosti 80,2 procenta v testech proti GSM8K , což je soubor dat školních matematických slovních úloh. Pro srovnání, PaLM 2 bez zvláštního pobízení dosáhl na GSM8K pouze 34procentní přesnosti a klasická výzva „Přemýšlejme krok za krokem“ dosáhla přesnosti 71,8 procenta.
Proč to tedy funguje? Je zřejmé, že velké jazykové modely se nemohou zhluboka nadechnout, protože nemají plíce ani těla. Nemyslí a neuvažují jako lidé. To, co „uvažování“ dělají (a „uvažování“ je mezi některými diskutabilní termín, ačkoli se v AI snadno používá jako termín umění), je vypůjčeno z masivního datového souboru jazykových frází seškrábaných z knih a webu. To zahrnuje věci jako fóra otázek a odpovědí, která obsahují mnoho příkladů „ pojďme se zhluboka nadechnout “ nebo „přemýšlejte krok za krokem “, než ukážeme pečlivěji zdůvodněná řešení. Tyto fráze mohou pomoci LLM získat lepší odpovědi nebo vytvořit lepší příklady uvažování nebo řešení problémů ze souboru dat, který absorboval do své neuronové sítě během tréninku.
I když je pro nás nalezení nejlepších způsobů, jak LLM povzbuzovat lidsky, trochu matoucí, pro OPRO to není problém, protože tato technika využívá velké jazykové modely k objevení těchto účinnějších povzbuzujících frází. Výzkumníci z DeepMind se domnívají, že největší výhrou pro OPRO je jeho schopnost probírat se mnoha možnými výzvami, aby našli tu, která dává nejlepší výsledky pro konkrétní problém. To by lidem mohlo v budoucnu umožnit produkovat mnohem užitečnější nebo přesnější výsledky z LLM.
Napsat komentář