Generatiivne AI revolutsioon on alanud – kuidas me selleni jõudsime?

Tehisintellektisüsteemide areng näib sageli olevat tsükliline. Iga paari aasta tagant suudavad arvutid ühtäkki teha midagi, mida nad pole kunagi varem suutnud. “Siin!” kuulutavad tõelised tehisintellekti uskujad: “Üldtehisintellekti ajastu on käes!” “Jama!” ütlevad skeptikud. “Kas mäletate isejuhtivaid autosid?”
Tõde on tavaliselt kuskil keskel.
Oleme teises tsüklis, seekord generatiivse AI-ga. Meedia pealkirjades domineerivad uudised tehisintellekti kunsti kohta, kuid enneolematuid edusamme on näha ka paljudes täiesti erinevates valdkondades. Tehisintellekt edeneb sama uskumatu kiirusega kõiges alates videost kuni bioloogia, programmeerimise, kirjutamise, tõlkimise ja muuni.
Miks see kõik praegu toimub?
Võib-olla olete tuttav AI maailma viimaste arengutega. Olete näinud auhinnatud tööd, kuulnud intervjuusid surnud inimestelt ja lugenud läbimurretest valkude voltimise vallas. Kuid need uued AI-süsteemid ei loo ainult lahedaid demosid uurimislaborites. Need arenevad kiiresti praktilisteks tööriistadeks ja tõelisteks kaubanduslikeks toodeteks, mida igaüks saab kasutada.
Sellel on põhjus, miks see kõik korraga juhtus. Kõik saavutused põhinevad uuel AI mudelitel, mis on paindlikumad ja võimsamad kui miski varem. Kuna neid kasutati esmakordselt keeleülesannete jaoks, nagu küsimustele vastamine ja esseede kirjutamine, nimetatakse neid sageli suurteks keelemudeliteks (LLM). OpenAI GPT3, Google’i BERT jne on kõik LLM-id.
Kuid need mudelid on äärmiselt paindlikud ja kohandatavad. Samad matemaatilised struktuurid on osutunud nii kasulikuks arvutinägemises, bioloogias ja mujal, et mõned teadlased on hakanud neid nimetama “meistermudeliteks”, et paremini sõnastada nende rolli tänapäevases tehisintellektis.
Kust need põhimudelid tulid ja kuidas nad keelest välja murdsid, et juhtida seda, mida me tänapäeval AI-s näeme?
Vundamendi mudelite alused
Masinõppes on püha kolmainsus: mudelid, andmed ja arvutused. Mudelid on algoritmid, mis võtavad sisendi ja toodavad väljundit. Andmed viitavad näidetele, mille põhjal algoritme treenitakse. Selleks, et midagi õppida, peab olema piisavalt andmeid piisava täielikkusega, et algoritmid saaksid anda kasuliku tulemuse. Mudelid peaksid olema piisavalt paindlikud, et kajastada andmete keerukust. Ja lõpuks, algoritmide käitamiseks peab olema piisavalt arvutusvõimsust.
Esimene kaasaegne tehisintellekti revolutsioon toimus süvaõppega 2012. aastal, mil alustati arvutinägemisprobleemide lahendamist konvolutsiooniliste närvivõrkude (CNN) abil. CNN-id on struktuurilt sarnased visuaalse ajukoorega. Neid on kasutatud alates 1990. aastatest, kuid arvutusvõimsuse kõrgete nõudmiste tõttu pole need siiani praktilised olnud.
2006. aastal andis Nvidia aga välja programmeerimiskeele CUDA, mis võimaldas GPU-sid kasutada üldotstarbeliste superarvutitena. 2009. aastal tutvustasid Stanfordi tehisintellekti teadlased Imageneti, märgistatud kujutiste kogumit, mida kasutatakse arvutinägemisalgoritmide treenimiseks. 2012. aastal ühendas AlexNet GPU-ga koolitatud CNN-id Imageneti andmetega, et luua parim visuaalne klassifikaator, mida maailm on kunagi näinud. Süvaõpe ja tehisintellekt puhkesid sealt välja.
CNN, ImageNeti andmestik ja GPU-d olid maagiline kombinatsioon, mis avas tohutu edu arvutinägemises. 2012. aastal kutsus esile huvi sügava õppimise vastu ja tekitas terveid tööstusharusid, näiteks autonoomse juhtimisega seotud tööstusharusid. Kuid mõistsime kiiresti, et sellel sügava õppimise põlvkonnal on piirid. CNN-id olid nägemise jaoks head, kuid teistes valdkondades polnud modelleerimisel läbimurret. Üks tohutu lünk oli loomuliku keele töötlemises (NLP), see tähendab, et arvutid mõistsid ja töötaksid tavalise inimkeele, mitte koodiga.
Keele mõistmise ja sellega töötamise probleem erineb põhimõtteliselt piltidega töötamise probleemist. Töötlemiskeel nõuab töötamist sõnajadadega, kus järjekord on oluline. Kass on ikka kass, olenemata sellest, kus ta pildil asub, kuid „see lugeja õpib tundma tehisintellekti” ja „AI õpib tundma seda lugejat” vahel on suur erinevus.
Kuni viimase ajani toetusid teadlased andmete õigeaegseks töötlemiseks ja analüüsimiseks sellistele mudelitele nagu korduvad närvivõrgud (RNN) ja pikaajaline lühiajaline mälu (LSTM). Need mudelid tuvastasid tõhusalt lühikesi järjestusi, näiteks lühikestest fraasidest räägitud sõnu, kuid neil oli raskusi pikemate lausete ja lõikudega. Lihtsalt nende mudelite mälu ei olnud piisavalt arenenud, et tabada lausete lõikudeks ja esseedeks liitmisel tekkivate ideede ja kontseptsioonide keerukust ja rikkust. Need olid suurepärased Siri ja Alexa stiilis lihtsate hääleassistentide jaoks, kuid ei midagi enamat.
Teine väljakutse oli koolituse jaoks õigete andmete hankimine. ImageNet oli 100 000 märgistatud pildi kogum, mille loomine nõudis märkimisväärset inimlikku pingutust, peamiselt kraadiõppurid ja Amazon Mechanical Turki töötajad. Ja ImageNet oli tegelikult inspireeritud ja modelleeritud vanema projekti nimega WordNet , mis üritas luua ingliskeelse sõnavara jaoks märgistatud andmekogumit. Kuigi Internetis pole tekstipuudust, on sisuka andmestiku loomine, et õpetada arvutit inimkeelega peale üksikute sõnade hakkama saama, uskumatult aeganõudev. Ja otseteed, mille loote ühe rakenduse jaoks samadel andmetel, ei pruugi kehtida mõne teise ülesande puhul.
Lisa kommentaar