Ir sākusies ģeneratīvā AI revolūcija – kā mēs tur nokļuvām?

Ir sākusies ģeneratīvā AI revolūcija – kā mēs tur nokļuvām?

Progress mākslīgā intelekta sistēmās bieži vien šķiet ciklisks. Ik pēc dažiem gadiem datori pēkšņi spēj paveikt kaut ko tādu, ko viņi nekad agrāk nav spējuši. “Šeit!” patiesi AI ticīgie sludina: “Mākslīgā vispārējā intelekta laikmets ir klāt!” “Muļķības!” saka skeptiķi. “Atceraties pašbraucošās automašīnas?”

Patiesība parasti ir kaut kur pa vidu.

Mēs esam citā ciklā, šoreiz ar ģeneratīvo AI. Mediju virsrakstos dominē ziņas par mākslīgā intelekta mākslu, taču ir arī bezprecedenta progress daudzās pilnīgi atšķirīgās jomās. AI virzās uz priekšu tādā pašā neticamā tempā visās jomās, sākot no video līdz bioloģijai, programmēšanai, rakstīšanai, tulkošanai un citam.

Kāpēc tas viss notiek tagad?

Iespējams, esat iepazinies ar jaunākajiem sasniegumiem AI pasaulē. Jūs esat redzējis godalgotu darbu, dzirdējis intervijas no mirušiem cilvēkiem un lasījis par sasniegumiem olbaltumvielu locīšanas jomā. Taču šīs jaunās AI sistēmas ne tikai rada lieliskas demonstrācijas pētniecības laboratorijās. Tie strauji attīstās par praktiskiem instrumentiem un patiesiem komerciāliem produktiem, kurus var izmantot ikviens.

Ir iemesls, kāpēc tas viss notika uzreiz. Visi sasniegumi ir balstīti uz jaunu AI modeļu klasi, kas ir elastīgāki un jaudīgāki par jebko, kas ir bijis iepriekš. Tā kā tos vispirms izmantoja valodas uzdevumiem, piemēram, atbildēm uz jautājumiem un eseju rakstīšanai, tos bieži dēvē par lielajiem valodas modeļiem (LLM). GPT3 no OpenAI, BERT no Google utt. ir LLM.

Taču šie modeļi ir ļoti elastīgi un pielāgojami. Tās pašas matemātiskās struktūras ir izrādījušās tik noderīgas datorredzēšanā, bioloģijā un citās jomās, ka daži pētnieki ir sākuši tos saukt par “galvenajiem modeļiem”, lai labāk formulētu to lomu mūsdienu AI.

No kurienes radās šie pamata modeļi un kā tie izlauzās no valodas, lai virzītu to, ko mēs šodien redzam AI?

Pamatu modeļu pamati

Mašīnmācībā ir svētā trīsvienība: modeļi, dati un aprēķini. Modeļi ir algoritmi, kas ņem ievadi un ražo izvadi. Dati attiecas uz piemēriem, pēc kuriem tiek apmācīti algoritmi. Lai kaut ko iemācītos, ir jābūt pietiekami daudz datu ar pietiekamu pilnīgumu, lai algoritmi varētu radīt noderīgu rezultātu. Modeļiem jābūt pietiekami elastīgiem, lai atspoguļotu datu sarežģītību. Un visbeidzot, ir jābūt pietiekami daudz skaitļošanas jaudas, lai palaistu algoritmus.

Pirmā modernā mākslīgā intelekta revolūcija notika ar dziļu mācīšanos 2012. gadā, kad sākās datoru redzes problēmu risināšana ar konvolucionālajiem neironu tīkliem (CNN). CNN pēc struktūras ir līdzīgas redzes garozai. Tie ir bijuši pieejami kopš 1990. gadiem, bet vēl nav bijuši praktiski, jo ir augstas prasības attiecībā uz skaitļošanas jaudu.

Tomēr 2006. gadā Nvidia izlaida CUDA — programmēšanas valodu, kas ļāva GPU izmantot kā vispārējas nozīmes superdatorus. 2009. gadā Stenfordas AI pētnieki ieviesa Imagenet — marķētu attēlu kolekciju, ko izmanto, lai apmācītu datorredzes algoritmus. 2012. gadā AlexNet apvienoja GPU apmācītus CNN ar Imagenet datiem, lai izveidotu labāko vizuālo klasifikatoru, kādu pasaule jebkad ir redzējusi. No turienes izlauzās dziļa mācīšanās un mākslīgais intelekts.

CNN, ImageNet datu kopa un GPU bija maģiska kombinācija, kas pavēra milzīgus sasniegumus datorredzēšanā. 2012. gads izraisīja intereses uzplaukumu par dziļu mācīšanos un radīja veselas nozares, piemēram, tās, kas saistītas ar autonomo braukšanu. Taču mēs ātri sapratām, ka šai dziļās mācīšanās paaudzei ir ierobežojumi. CNN bija laba redzei, bet citās jomās nebija izrāvienu modelēšanā. Viena milzīga plaisa bija dabiskās valodas apstrādē (NLP), proti, panākt, lai datori saprastu un strādātu ar normālu cilvēka valodu, nevis kodu.

Valodas izpratnes un darba ar to problēma būtiski atšķiras no darba ar attēliem problēmas. Apstrādes valodai ir nepieciešams strādāt ar vārdu secībām, kur kārtība ir svarīga. Kaķis joprojām ir kaķis neatkarīgi no tā, kur tas atrodas attēlā, taču pastāv liela atšķirība starp “šis lasītājs uzzinās par AI” un “AI uzzinās par šo lasītāju”.

Vēl nesen pētnieki paļāvās uz tādiem modeļiem kā atkārtoti neironu tīkli (RNN) un ilgtermiņa īstermiņa atmiņa (LSTM), lai savlaicīgi apstrādātu un analizētu datus. Šie modeļi bija efektīvi, lai atpazītu īsas secības, piemēram, izrunātus vārdus no īsām frāzēm, taču tiem bija grūtības ar garākiem teikumiem un rindkopām. Vienkārši šo modeļu atmiņa nebija pietiekami attīstīta, lai aptvertu ideju un jēdzienu sarežģītību un bagātību, kas rodas, apvienojot teikumus rindkopās un esejās. Tie bija lieliski piemēroti vienkāršiem balss palīgiem Siri un Alexa stilā, taču nekas vairāk.

Vēl viens izaicinājums bija iegūt pareizos datus apmācībai. ImageNet bija 100 000 marķētu attēlu kopums, kura izveidošanai bija nepieciešamas ievērojamas cilvēku pūles, galvenokārt maģistrantiem un Amazon Mechanical Turk darbiniekiem. Un ImageNet faktiski tika iedvesmots un veidots pēc vecāka projekta WordNet , kas mēģināja izveidot marķētu datu kopu angļu valodas vārdnīcai. Lai gan internetā netrūkst teksta, jēgpilnas datu kopas ģenerēšana, lai apmācītu datoru rīkoties ar cilvēka valodu, ne tikai atsevišķiem vārdiem, ir neticami laikietilpīga. Un saīsnes, ko izveidojat vienai lietojumprogrammai uz tiem pašiem datiem, var neattiekties uz citu uzdevumu.

Atbildēt

Jūsu e-pasta adrese netiks publicēta. Obligātie lauki ir atzīmēti kā *