Prasidėjo generacinė AI revoliucija – kaip mes ten atsidūrėme?
Dirbtinio intelekto sistemų pažanga dažnai atrodo cikliška. Kas kelerius metus kompiuteriai staiga sugeba padaryti tai, ko niekada anksčiau nebuvo pavykę. „Štai!“ tikri AI tikintieji skelbia: „Artėjo dirbtinio bendrojo intelekto amžius! „Nesąmonė!“ – sako skeptikai. „Prisimeni savarankiškai vairuojančius automobilius?
Tiesa dažniausiai slypi kažkur per vidurį.
Mes esame kitame cikle, šį kartą su generatyviuoju AI. Žiniasklaidos antraštėse dominuoja naujienos apie dirbtinio intelekto meną, tačiau yra ir precedento neturinčios pažangos daugelyje visiškai skirtingų sričių. Dirbtinis intelektas vystosi tokiu pat neįtikėtinu greičiu, pradedant vaizdo įrašais ir baigiant biologija, programavimu, rašymu, vertimu ir kt.
Kodėl visa tai vyksta dabar?
Galbūt esate susipažinę su naujausiais AI pasaulio pokyčiais. Matėte apdovanojimus pelniusį darbą, girdėjote mirusių žmonių interviu ir skaitėte apie baltymų lankstymo proveržius. Tačiau šios naujos AI sistemos ne tik kuria puikias demonstracines versijas tyrimų laboratorijose. Jie greitai virsta praktiniais įrankiais ir tikrais komerciniais produktais, kuriuos gali naudoti bet kas.
Yra priežastis, kodėl viskas įvyko iš karto. Visi pasiekimai pagrįsti naujos klasės dirbtinio intelekto modeliais, kurie yra lankstesni ir galingesni nei bet kas anksčiau. Kadangi jie pirmą kartą buvo naudojami atliekant kalbos užduotis, pavyzdžiui, atsakant į klausimus ir rašant esė, jie dažnai vadinami dideliais kalbos modeliais (LLM). GPT3 iš OpenAI, BERT iš Google ir kt. yra LLM.
Tačiau šie modeliai yra itin lankstūs ir pritaikomi. Tos pačios matematinės struktūros pasirodė esančios tokios naudingos kompiuterinės regos, biologijos ir kitose srityse, kad kai kurie tyrinėtojai jas ėmė vadinti „pagrindiniais modeliais“, kad geriau apibūdintų jų vaidmenį šiuolaikiniame AI.
Iš kur atsirado šie pagrindiniai modeliai ir kaip jie išsiskyrė iš kalbos, kad paskatintų tai, ką šiandien matome AI?
Pamatų modelių pagrindas
Mašininiame mokyme yra šventoji trejybė: modeliai, duomenys ir skaičiavimai. Modeliai yra algoritmai, kurie priima įvestį ir sukuria išvestį. Duomenys yra susiję su pavyzdžiais, kuriais remiantis mokomi algoritmai. Norint ką nors išmokti, turi būti pakankamai išsamių duomenų, kad algoritmai galėtų duoti naudingų rezultatų. Modeliai turi būti pakankamai lankstūs, kad atspindėtų duomenų sudėtingumą. Ir galiausiai, turi būti pakankamai skaičiavimo galios algoritmams paleisti.
Pirmoji šiuolaikinė dirbtinio intelekto revoliucija įvyko su giliu mokymusi 2012 m., kai buvo pradėtos spręsti kompiuterinio matymo problemos naudojant konvoliucinius neuroninius tinklus (CNN). CNN struktūra yra panaši į regos žievę. Jie buvo naudojami nuo 1990-ųjų, bet dar nebuvo praktiški dėl didelių skaičiavimo galios reikalavimų.
Tačiau 2006 m. „Nvidia“ išleido CUDA – programavimo kalbą, kuri leido GPU naudoti kaip bendrosios paskirties superkompiuterius. 2009 m. Stanfordo dirbtinio intelekto tyrinėtojai pristatė „Imagenet“ – paženklintų vaizdų rinkinį, naudojamą kompiuterinio regėjimo algoritmams mokyti. 2012 m. „AlexNet“ sujungė GPU apmokytus CNN su „Imagenet“ duomenimis, kad sukurtų geriausią vaizdinį klasifikatorių, kokį tik yra matęs pasaulis. Iš ten išsiveržė gilus mokymasis ir dirbtinis intelektas.
CNN, „ImageNet“ duomenų rinkinys ir GPU buvo stebuklingas derinys, atvėręs didžiulę kompiuterinio matymo pažangą. 2012 m. paskatino susidomėjimo giliu mokymusi bumą ir pagimdė ištisas pramonės šakas, pavyzdžiui, susijusias su autonominiu vairavimu. Tačiau greitai supratome, kad šios gilaus mokymosi kartos ribos. CNN buvo naudingas regėjimui, tačiau kitose srityse modeliavimo proveržio nebuvo. Viena didžiulė spraga buvo natūralios kalbos apdorojime (NLP), ty siekiant, kad kompiuteriai suprastų ir veiktų normalia žmogaus kalba, o ne kodu.
Kalbos supratimo ir darbo su ja problema iš esmės skiriasi nuo darbo su vaizdais problemos. Apdorojimo kalba reikalauja dirbti su žodžių sekomis, kuriose tvarka yra svarbi. Katė vis tiek yra katė, nesvarbu, kur ji yra paveikslėlyje, tačiau yra didelis skirtumas tarp „šis skaitytojas sužinos apie AI“ ir „AI sužinos apie šį skaitytuvą“.
Dar visai neseniai mokslininkai rėmėsi tokiais modeliais kaip pasikartojantys neuroniniai tinklai (RNN) ir ilgalaikė trumpalaikė atmintis (LSTM), kad galėtų laiku apdoroti ir analizuoti duomenis. Šie modeliai buvo veiksmingi atpažįstant trumpas sekas, pvz., ištartus žodžius iš trumpų frazių, tačiau jiems buvo sunku su ilgesniais sakiniais ir pastraipomis. Tiesiog šių modelių atmintis nebuvo pakankamai išvystyta, kad užfiksuotų idėjų ir sąvokų, kylančių derinant sakinius į pastraipas ir esė, sudėtingumą ir turtingumą. Jie puikiai tiko paprastiems balso padėjėjams Siri ir Alexa stiliaus, bet nieko daugiau.
Kitas iššūkis buvo gauti reikiamus duomenis mokymui. „ImageNet“ buvo 100 000 pažymėtų vaizdų rinkinys, kuriam sukurti prireikė didelių žmogaus pastangų, daugiausia absolventų ir „Amazon Mechanical Turk“ darbuotojų. Ir „ImageNet“ iš tikrųjų buvo įkvėptas ir sukurtas pagal senesnį projektą „ WordNet“ , kuris bandė sukurti pažymėtą duomenų rinkinį anglų kalbos žodynui. Nors internete netrūksta teksto, sukurti prasmingą duomenų rinkinį, kad kompiuteris išmoktų dirbti su žmogaus kalba, išskyrus atskirus žodžius, užima neįtikėtinai daug laiko. Spartieji klavišai, kuriuos sukuriate vienai programai su tais pačiais duomenimis, gali būti netaikomi kitai užduočiai.
Parašykite komentarą