Kuidas ChatGPT muutis generatiivse tehisintellekti kõigeks tööriistaks
Robootika idufirma tehnoloogiajuht ütles mulle selle aasta alguses: “Arvasime, et peame tegema palju tööd, et luua “ChatGPT robootika jaoks”. Selle asemel selgub, et paljudel juhtudel on ChatGPT robootika ChatGPT.
Kuni viimase ajani olid AI mudelid spetsiaalsed tööriistad. AI kasutamine teatud valdkonnas, nagu robootika, tähendas aja ja raha kulutamist spetsiaalselt ja ainult selle valdkonna jaoks mõeldud tehisintellektimudelite loomisele. Näiteks Google’i AlphaFold, AI-mudel valkude voltimise ennustamiseks, koolitati valgu struktuuri andmete põhjal ja see on kasulik ainult valgu struktuuridega töötamiseks.
Seega arvas see asutaja, et generatiivsest tehisintellektist kasu saamiseks peaks robootikaettevõte looma robootika jaoks oma spetsiaalsed generatiivsed AI mudelid. Selle asemel avastas meeskond, et paljudel juhtudel saavad nad oma robotite juhtimiseks kasutada valmis ChatGPT-d, ilma et tehisintellekt oleks selleks spetsiaalselt koolitatud.
Olen kuulnud sarnaseid asju tehnoloogidelt, kes tegelevad kõigega alates tervisekindlustusest kuni pooljuhtide projekteerimiseni. Et luua ChatGPT, vestlusrobot, mis võimaldab inimestel kasutada generatiivset tehisintellekti lihtsalt vesteldes, pidi OpenAI muutma suuri keelemudeleid (LLM-e), nagu GPT3, et reageerida inimestega suhtlemisele paremini.
Kuid võib-olla tahtmatult võimaldavad need samad muudatused GPT3 järglasi, nagu GPT3.5 ja GPT4, kasutada võimsate üldotstarbeliste teabetöötlustööriistadena – tööriistadena, mis ei sõltu teadmistest, mille põhjal tehisintellekti mudel algselt koolitati või rakendused, mille jaoks mudel on koolitatud. Selleks on vaja AI-mudeleid kasutada täiesti erineval viisil – vestlemise asemel programmeerimine, treenimise asemel uued andmed. Kuid see avab tee AI-le, et saada üldotstarbeliseks, mitte spetsialiseerunud, pigem “millegi tööriistaks”.
Kuidas me siia sattusime?
Põhialused: tõenäosus, gradient laskumine ja peenhäälestus
Võtkem hetk, et puudutada, kuidas generatiivset tehisintellekti toidavad LLM-id töötavad ja kuidas neid koolitatakse.
LLM-id nagu GPT4 on tõenäosuslikud; nad võtavad sisendi ja ennustavad selle sisendiga seotud sõnade ja fraaside tõenäosust. Seejärel genereerivad nad väljundi, mis on sisendit arvestades kõige sobivam. See on nagu väga keerukas automaatne täitmine: võtke teksti ja andke mulle, mis järgmiseks tuleb. Põhimõtteliselt tähendab see, et generatiivne tehisintellekt ei ela “õige ja vale” kontekstis, vaid pigem “üha vähem tõenäolisemalt”.
Tõenäosuslikkusel on tugevad ja nõrgad küljed. Nõrkused on hästi teada: generatiivne tehisintellekt võib olla ettearvamatu ja ebatäpne, mitte ainult ei tooda halba väljundit, vaid toodab seda viisil, mida te kunagi oodata ei oskaks. Kuid see tähendab ka seda, et tehisintellekt võib olla ettearvamatult võimas ja paindlik viisil, mida traditsioonilised reeglipõhised süsteemid olla ei saa. Peame lihtsalt seda juhuslikkust kasulikul viisil kujundama.
Siin on analoogia. Enne kvantmehaanikat arvasid füüsikud, et universum töötab ennustataval ja deterministlikul viisil. Kvantmaailma juhuslikkus tuli alguses šokina, kuid õppisime kvantveidrusi omaks võtma ja seejärel praktiliselt kasutama. Kvanttunneldamine on põhimõtteliselt stohhastiline, kuid seda saab juhtida nii, et osakesed hüppavad ennustatavate mustrite järgi. See viis selleni, et pooljuhid ja kiibid toidavad seadet, mille kohta seda artiklit loete. Ärge lihtsalt leppige sellega, et Jumal mängib universumiga täringuid – õppige täringut laadima.
Sama kehtib AI kohta. Koolitame närvivõrke, millest LLM-id koosnevad, kasutades tehnikat, mida nimetatakse “gradiendi laskumiseks”. Gradiendi laskumine vaatleb mudeli väljastatavaid väljundeid, võrdleb neid treeningandmetega ja arvutab seejärel “suuna”, et kohandada närvivõrgu parameetreid nii, et väljundid muutuksid “õigemaks” – see tähendab, et need näeksid välja rohkem koolitusandmete moodi. AI on antud. Meie maagilise automaatse täitmise puhul tähendab õigem vastus väljundteksti, mis tõenäoliselt järgib sisendit.
Tõenäosuslik matemaatika on suurepärane viis, kuidas arvutid sõnadega hakkama saavad; Arvutamine, kui tõenäoline on, et mõned sõnad järgivad teisi sõnu, on lihtsalt loendamine ja “kui paljudega” on arvutil palju lihtsam töötada kui “õigem või rohkem vale”. Looge väljund, võrrelge treeningandmetega ja kohandage. Loputage ja korrake, tehes palju väikeseid järk-järgulisi täiustusi ja lõpuks muudate jama välja ajava närvivõrgu millekski, mis loob sidusaid lauseid. Ja seda tehnikat saab kohandada ka piltide, DNA järjestuste ja muu jaoks.
Lisa kommentaar