Kaip „ChatGPT“ generatyvųjį AI pavertė „bet ko įrankiu“

Kaip „ChatGPT“ generatyvųjį AI pavertė „bet ko įrankiu“

Šių metų pradžioje robotikos startuolio vyriausiasis technologijų pareigūnas man pasakė: „Manėme, kad turėsime daug dirbti, kad sukurtume „ChatGPT robotikai“. Vietoj to paaiškėja, kad daugeliu atvejų „ChatGPT“ yra „ChatGPT“, skirta robotikai.

Dar visai neseniai AI modeliai buvo specializuoti įrankiai. DI naudojimas tam tikroje srityje, pvz., robotikoje, reiškė laiko ir pinigų sukūrimą kuriant specialiai ir tik tai sričiai skirtus AI modelius. Pavyzdžiui, Google AlphaFold, AI modelis, skirtas prognozuoti baltymų lankstymą, buvo apmokytas naudojant baltymų struktūros duomenis ir yra naudingas tik dirbant su baltymų struktūromis.

Taigi šis įkūrėjas manė, kad norint gauti naudos iš generatyvaus AI, robotikos įmonė turės sukurti savo specializuotus generatyvius AI modelius, skirtus robotikai. Vietoj to, komanda išsiaiškino, kad daugeliu atvejų jie gali naudoti paruoštą „ChatGPT“ savo robotams valdyti, o dirbtinis intelektas niekada nebuvo tam specialiai apmokytas.

Panašių dalykų girdėjau iš technologų, dirbančių su viskuo – nuo ​​sveikatos draudimo iki puslaidininkių projektavimo. Norint sukurti „ChatGPT“ – pokalbių robotą, leidžiantį žmonėms naudoti generatyvųjį AI tiesiog pokalbio metu, „OpenAI“ turėjo pakeisti didelius kalbos modelius (LLM), pvz., GPT3, kad geriau reaguotų į žmonių sąveiką.

Tačiau galbūt netyčia dėl tų pačių pakeitimų GPT3 įpėdiniai, pvz., GPT3.5 ir GPT4, gali būti naudojami kaip galingi, bendros paskirties informacijos apdorojimo įrankiai – įrankiai, kurie nepriklauso nuo žinių, kuriomis dirbtinio intelekto modelis iš pradžių buvo apmokytas, arba programos, kurioms modelis buvo apmokytas. Tam reikia naudoti dirbtinio intelekto modelius visiškai kitaip – ​​programuoti, o ne kalbėtis, naujus duomenis, o ne mokymus. Tačiau tai atveria kelią AI tapti bendrosios paskirties, o ne specializuotu, labiau „bet kokiu įrankiu“.

Kaip mes čia atsidūrėme?

Pagrindai: tikimybė, gradiento nusileidimas ir tikslus derinimas

Skirkime šiek tiek laiko ir pakalbėkime apie tai, kaip veikia ir kaip jie mokomi LLM, teikiantys energijos generuojamąjį AI.

LLM, kaip GPT4, yra tikimybinės; jie priima įvestį ir numato žodžių ir frazių, susijusių su ta įvestimi, tikimybę. Tada jie sukuria išvestį, kuri greičiausiai bus tinkama atsižvelgiant į įvestį. Tai tarsi labai sudėtingas automatinis užbaigimas: paimkite tekstą ir pateikite, kas bus toliau. Iš esmės tai reiškia, kad generatyvus AI negyvena „teisingo ir neteisingo“ kontekste, o „labiau ir mažiau tikėtina“.

Tikimybė turi stipriąsias ir silpnąsias puses. Trūkumai yra gerai žinomi: generuojamasis AI gali būti nenuspėjamas ir netikslus, linkęs ne tik sukurti blogą produkciją, bet ir taip, kaip niekada nesitikėtum. Tačiau tai taip pat reiškia, kad AI gali būti nenuspėjamai galingas ir lankstus tokiu būdu, kokio negali būti tradicinės taisyklėmis pagrįstos sistemos. Mums tereikia naudingu būdu formuoti tą atsitiktinumą.

Čia yra analogija. Prieš kvantinę mechaniką fizikai manė, kad visata veikia nuspėjamais, deterministiniais būdais. Kvantinio pasaulio atsitiktinumas iš pradžių buvo šokas, bet išmokome priimti kvantines keistenybes, o vėliau jas panaudoti praktiškai. Kvantinis tunelis iš esmės yra stochastinis, tačiau jį galima nukreipti taip, kad dalelės šokinėtų nuspėjamais modeliais. Dėl to atsirado puslaidininkiai ir lustai, maitinantys įrenginį, apie kurį skaitote šį straipsnį. Ne tik sutikite, kad Dievas žaidžia kauliukais su visata – išmokite krauti kauliukus.

Tas pats pasakytina ir apie AI. Mes mokome neuroninius tinklus, iš kurių yra sukurti LLM, naudodami techniką, vadinamą „gradiento nusileidimu“. Gradiento nusileidimas žiūri į modelio sukuriamus išėjimus, palygina juos su mokymo duomenimis ir tada apskaičiuoja „kryptį“, kad sureguliuotų neuroninio tinklo parametrus taip, kad išėjimai taptų „teisingesni“ – tai yra, kad jie būtų panašesni į mokymo duomenis. AI duota. Mūsų stebuklingo automatinio užbaigimo atveju teisingesnis atsakymas reiškia išvesties tekstą, kuris labiau tikėtina, kad atitiks įvestį.

Tikimybinė matematika yra puikus būdas kompiuteriams tvarkyti žodžius; Suskaičiuoti, kiek tikėtina, kad kai kurie žodžiai seks po kitų žodžių, yra tik skaičiavimas, o „kiek“ kompiuteriui dirbti daug lengviau nei „labiau teisinga ar neteisinga“. Sukurkite išvestį, palyginkite su treniruočių duomenimis ir sureguliuokite. Nuplaukite ir pakartokite, atlikdami daug mažų, laipsniškų patobulinimų, o galiausiai neuroninį tinklą, kuris išspjauna beprasmybę, paversite kažkuo, sukuriančiu nuoseklius sakinius. Ir šią techniką taip pat galima pritaikyti nuotraukoms, DNR sekoms ir kt.


Warning: Undefined variable $html_req in /var/www/vhosts/4pmtech.com/httpdocs/wp-content/themes/fourpmtech/comments.php on line 79

Warning: Undefined variable $html5 in /var/www/vhosts/4pmtech.com/httpdocs/wp-content/themes/fourpmtech/comments.php on line 82

Warning: Undefined variable $html_req in /var/www/vhosts/4pmtech.com/httpdocs/wp-content/themes/fourpmtech/comments.php on line 82

Warning: Undefined variable $consent in /var/www/vhosts/4pmtech.com/httpdocs/wp-content/themes/fourpmtech/comments.php on line 86

Parašykite komentarą

El. pašto adresas nebus skelbiamas. Būtini laukeliai pažymėti *


Warning: Undefined array key "url" in /var/www/vhosts/4pmtech.com/httpdocs/wp-content/themes/fourpmtech/inc/template-functions.php on line 315