Tekoälymallin käskeminen ”hengittää syvään” saa matematiikan tulokset nousemaan tutkimuksessa
Google DeepMind -tutkijat kehittivät äskettäin tekniikan parantaakseen matemaattisia kykyjä tekoälyn kielimalleissa, kuten ChatGPT:ssä , käyttämällä muita tekoälymalleja kehotteiden parantamiseen – kirjallisia ohjeita, jotka kertovat tekoälymallille, mitä tehdä. Se havaitsi, että inhimillisen rohkaisun käyttö paransi matemaattisia taitoja dramaattisesti aiempien tulosten mukaisesti.
Tässä kuussa arXiv-palvelussa listatussa asiakirjassa ” Large Language Models as Optimizers ” DeepMind-tutkijat esittelivät Optimization by PROmptingin (OPRO), menetelmän, jolla parannetaan suurten kielimallien (LLM), kuten OpenAI:n ChatGPT:n ja Googlen PaLM 2:n, suorituskykyä. uusi lähestymistapa ohittaa perinteisten matemaattisten optimoijien rajoitukset käyttämällä luonnollista kieltä ohjaamaan LLM:itä ongelmanratkaisussa. ”Luonnollinen kieli” on hieno tapa sanoa jokapäiväistä ihmisen puhetta.
”Sen sijaan, että määrittelisimme optimointiongelman muodollisesti ja johtaisimme päivitysvaiheen ohjelmoidulla ratkaisijalla”, tutkijat kirjoittavat, ”kuvaamme optimointiongelmaa luonnollisella kielellä ja sitten ohjeistamme LLM:ää luomaan iteratiivisesti uusia ratkaisuja ongelman kuvauksen ja aiemmin esitetyn perusteella. löytyi ratkaisuja.”
Tyypillisesti koneoppimisessa algoritmeja, kuten johdannaisiin perustuvia optimoijia, käyttävät tekniikat toimivat oppaana tekoälymallin suorituskyvyn parantamiseen. Kuvittele mallin suorituskyky käyränä kaaviossa: Tavoitteena on löytää tämän käyrän alin kohta, koska siinä malli tekee vähiten virheitä. Käyttämällä säätöjen tekemiseen käyrän kaltevuutta optimoija auttaa mallia pääsemään lähemmäs tätä ihanteellista matalaa pistettä, mikä tekee siitä tarkemman ja tehokkaamman kaikissa tehtävissä, joihin se on suunniteltu.
Sen sijaan, että luottaisi muodollisiin matemaattisiin määritelmiin tämän tehtävän suorittamisessa, OPRO käyttää ”meta-kehotteita”, jotka on kuvattu luonnollisella kielellä, asettaakseen vaiheen optimointiprosessille. LLM luo sitten ratkaisuehdokkaat ongelman kuvauksen ja aikaisempien ratkaisujen perusteella ja testaa niitä antamalla jokaiselle laatupisteen.
OPRO:ssa kahdella suurella kielimallilla on eri rooli: pisteytys LLM arvioi tavoitefunktion, kuten tarkkuuden, kun taas optimoija LLM luo uusia ratkaisuja aiempien tulosten ja luonnollisen kielen kuvauksen perusteella. Erilaisia maalintekijän ja optimoijan LLM-pareja arvioidaan, mukaan lukien mallit, kuten PaLM 2 ja GPT variantit. OPRO voi optimoida kehotteet pisteytyksen LLM:lle antamalla optimoijan iteratiivisesti generoida korkeamman pistemäärän kehotteita. Nämä pisteet auttavat järjestelmää tunnistamaan parhaat ratkaisut, jotka sitten lisätään takaisin ”meta-kehotteeseen” seuraavaa optimointikierrosta varten.
”Vedä syvään henkeä ja tee tätä askel askeleelta”
Ehkä kiehtovin osa DeepMind-tutkimuksesta on tiettyjen lauseiden vaikutus tulokseen. Lauseet, kuten ”ajattelemme askel askeleelta”, saivat jokaisen tekoälymallin tuottamaan tarkempia tuloksia, kun niitä testattiin matemaattisten ongelmatietojen kanssa. (Tämä tekniikka tuli laajalti tunnetuksi toukokuussa 2022 nyt kuuluisan paperin ” Large Language Models are Zero-Shot Reasoners ” ansiosta .)
Harkitse yksinkertaista sanatehtävää, kuten ”Beth leipoo neljä kaksikymmentä erää keksejä viikossa. Jos nämä evästeet jaetaan 16 henkilön kesken tasapuolisesti, kuinka monta evästettä kukin ihminen kuluttaa?” Vuoden 2022 lehti havaitsi, että sen sijaan, että syöttäisit chatbotille tällaisen sanaongelman itsestään, sen eteen tulisi liittää ”Mietitään askel kerrallaan” vaihe” ja liitä sitten ongelma. Tekoälymallin tulosten tarkkuus paranee lähes aina, ja se toimii hyvin ChatGPT:n kanssa.
Mielenkiintoista on, että tässä viimeisimmässä tutkimuksessa DeepMind-tutkijat havaitsivat, että ”Vedä syvään henkeä ja työskentele tämän ongelman parissa askel askeleelta” on tehokkain kehote, kun sitä käytetään Googlen PaLM 2 -kielimallin kanssa. Lause saavutti parhaan 80,2 prosentin tarkkuuden testeissä GSM8K:ta vastaan , joka on luokkakoulujen matemaattisten sanatehtävien tietojoukko. Vertailun vuoksi, PaLM 2, ilman erityisiä kehotuksia, sai vain 34 prosentin tarkkuuden GSM8K:ssa ja klassinen ”Ajattele askel askeleelta” -kehote sai 71,8 prosentin tarkkuuden.
Joten miksi tämä toimii? On selvää, että suuret kielimallit eivät voi hengittää syvään, koska niillä ei ole keuhkoja tai kehoa. He eivät myöskään ajattele ja päättele kuten ihmiset. Se, mitä ”päättely” he tekevät (ja ”päättely” on kiistanalainen termi joidenkin keskuudessa, vaikka sitä käytetään helposti tekoälyn taiteen terminä) on lainattu valtavasta tietojoukosta kielilauseita, jotka on hakattu kirjoista ja verkosta. Tämä sisältää asioita, kuten Q&A-foorumit, jotka sisältävät monia esimerkkejä ” hengitetään syvään ” tai ”ajattelemme askel askeleelta ” ennen kuin näytät tarkemmin perusteltuja ratkaisuja. Nämä lauseet voivat auttaa LLM:ää löytämään parempia vastauksia tai tuottamaan parempia esimerkkejä päättelystä tai ongelmanratkaisusta tietojoukosta, jonka se absorboi hermoverkkoonsa koulutuksen aikana.
Vaikka parhaiden tapojen selvittäminen LLM:ien inhimilliseen rohkaisuun on meille hieman hämmentävää, se ei ole OPRO:lle ongelma, koska tekniikka käyttää suuria kielimalleja löytääkseen nämä tehokkaammat kehotuslauseet. DeepMind-tutkijat uskovat, että OPRO:n suurin voitto on sen kyky seuloa monia mahdollisia kehotteita löytääkseen se, joka antaa parhaat tulokset tiettyyn ongelmaan. Tämä voisi antaa ihmisille mahdollisuuden tuottaa paljon hyödyllisempiä tai tarkempia tuloksia LLM:istä tulevaisuudessa.
Vastaa