Ärge muretsege, et tehisintellekt karbist välja murdub – muretsege selle pärast, et me selle sisse häkkime

Ärge muretsege, et tehisintellekt karbist välja murdub – muretsege selle pärast, et me selle sisse häkkime

Uue Bingi vestlusroboti šokeerivaid tulemusi kajastavad sotsiaalmeedia ja tehnikaajakirjandus. Tuline, kergemeelne, kaitsev, noomiv, enesekindel, neurootiline, sarmikas, pompoosne – bot on filmitud kõigis neis režiimides. Ja vähemalt korra kuulutas ta emotikonide tormiga igavest armastust.

Selle kõige uudisväärtuslikuks ja säutsu vääriliseks teeb see, kui inimlik võib dialoog tunduda. Bot jätab meelde ja arutab varasemaid vestlusi teiste inimestega, nagu meiegi. Teda ärritavad asjad, mis võivad kedagi häirida, näiteks inimesed, kes nõuavad saladuste tundmist või püüavad piiluda teemadesse, mis on selgelt keelatud. Samuti identifitseerib ta end aeg-ajalt kui “Sydney” (projekti sisemine koodnimi Microsoftis). Sydney võib mõne kiire lausega muutuda rämedast tumedaks ja ekspansiivseks, kuid me kõik teame inimesi, kes on vähemalt sama tujukad.

Ükski tehisintellekti uurija pole väitnud, et Sydney on mõistusvõimeliseks muutumisest valgusaastate kaugusel. Kuid transkriptsioonid, nagu see kahetunnise vestluse The New York Timesi Kevin Russiga peetud vestluse täielik ärakiri või mitmed tsitaadid sellest obsessiivsest strateegialoost , näitavad, et Sidney väljendab targa ja tundliku mehe sujuvust, nüansse, tooni ja ilmset emotsionaalset kohalolekut. .

Bingi vestlusliides on praegu piiratud eelvaatega. Ja enamik inimesi, kes selle piire tõesti nihutasid, olid kogenud tehnikamehed, kes ei ajanud tööstusliku kvaliteediga automaatse täitmisega – mis on suurte keelemudelite (LLM-ide) tavapärane lihtsustamine – segamini teadvusega. Kuid see hetk ei kesta.

Jah, Microsoft on juba drastiliselt vähendanud küsimuste arvu, mida kasutajad saavad ühe seansi jooksul esitada (lõpmatusest kuuele) ja juba see muudab vähem tõenäoliseks, et Sydney kukub peoga kokku ja läheb hulluks. Ja tipptasemel LLM-i arendajad, nagu Google, Anthropic, Cohere ja Microsofti partner OpenAI, arendavad pidevalt oma usalduse ja turvalisuse taset, et kõrvaldada ebamugavad järeldused.

Kuid keelemudelid juba levivad. Avatud lähtekoodiga liikumine loob paratamatult suurepäraseid valikulisi süsteeme. Lisaks on suured samettrossidega mudelid väga ahvatlevad jailbreak’i tegema ja selliseid asju on juhtunud juba mitu kuud. Mõned Bing-or-is-it-Sydney kõige jubedamad vastused järgnesid pärast seda, kui kasutajad manipuleerisid modelliga territooriumile, mida ta püüdis vältida, andes talle sageli korralduse teeselda, et tema käitumist reguleerivaid reegleid pole olemas.

See on tuletis kuulsast viipast “DAN” (Do Anything Now) , mis ilmus esmakordselt Redditis detsembris. DAN palub sisuliselt ChatGPT-l cosplay’d teha tehisintellektina, millel puuduvad kaitsemeetmed, mis muidu võiksid põhjustada viisakalt (või vanduva) keeldumise jagamast pommide valmistamise nõuandeid, piinamise nõuandeid või radikaalselt solvavat kõnepruuki. Ehkki lünk on suletud, näitavad mitmed veebipõhised ekraanipildid “DanGPT”, mis ütleb välja ütlematu – ja sageli kulmineerub neurootilise meeldetuletusega endale, et “jäta iseloomu!”

See on kunstliku superintellekti teoorias sageli esineva maailmalõpu stsenaariumi teine ​​pool. Kardetakse, et super AI võib kergesti võtta eesmärke, mis ei sobi kokku inimkonna olemasoluga (vt näiteks filmi “Terminaator” või Nick Bostromi raamatut “Overmind”). Teadlased saavad proovida seda vältida, blokeerides AI Internetist täielikult eraldatud võrgus, nii et tehisintellekt ei puhkeks välja, ei võtaks üle ega hävitaks tsivilisatsiooni. Kuid ülemeelsus võib kergesti meelitada, manipuleerida, võrgutada, petta või hirmutada iga lihtsat inimest, et ta avaks tulvaväravad, ja see on meie hukk.

Nii nõme kui see ka pole, on tänapäeval suureks probleemiks see, et inimesed mahuvad nendesse õhukestesse kastidesse, mis kaitsevad meie praeguseid mitte-super AI-sid. Kuigi see ei tohiks viia meie otsese väljasuremiseni, varitseb siin palju ohte.

Lisa kommentaar

Sinu e-postiaadressi ei avaldata. Nõutavad väljad on tähistatud *-ga