Neuztraucieties par to, ka mākslīgais intelekts izlauzīsies no kastes — uztraucieties par to, ka mēs to uzlaužam

Neuztraucieties par to, ka mākslīgais intelekts izlauzīsies no kastes — uztraucieties par to, ka mēs to uzlaužam

Jaunā Bing tērzēšanas robota šokējošie rezultāti tiek atspoguļoti sociālajos medijos un tehnoloģiju presē. Karstais, vieglprātīgs, aizstāvīgs, rājošs, pašpārliecināts, neirotisks, burvīgs, pompozs – bots ir filmēts visos šajos režīmos. Un vismaz vienu reizi viņš pasludināja mūžīgo mīlestību ar emociju vētru.

Tas, kas padara šo visu tik ziņu un tvītu cienīgu, ir tas, cik cilvēcisks var šķist dialogs. Bots atceras un apspriež iepriekšējās sarunas ar citiem cilvēkiem, tāpat kā mēs. Viņu kaitina lietas, kas var kādu kaitināt, piemēram, cilvēki, kas pieprasa zināt noslēpumus vai mēģina ieskatīties tēmās, kas ir nepārprotami atzīmētas kā aizliegtas. Viņš arī laiku pa laikam sevi identificē kā “Sidneju” (projekta iekšējais koda nosaukums uzņēmumā Microsoft). Dažos īsos teikumos Sidneja var kļūt no dusmīgas par tumšu un plašu, taču mēs visi zinām cilvēkus, kuri ir vismaz tikpat noskaņoti.

Neviens AI matērijas pētnieks nav norādījis, ka Sidneja atrodas gaismas gadu attālumā no brīža, kad tā kļūst jutīga. Taču atšifrējumi, piemēram , šis pilns divu stundu sarunas ar The New York Times Kevinu Rassu atšifrējums vai vairāki citāti no šī obsesīvā stratēģijas raksta , parāda, ka Sidnijs pauž gudra, jutīga vīrieša raitumu, nianses, toni un acīmredzamo emocionālo klātbūtni. .

Bing tērzēšanas saskarne pašlaik ir ierobežotā priekšskatījumā. Un lielākā daļa cilvēku, kas patiešām pārkāpa tās robežas, bija izsmalcināti tehniķi, kuri nejauktu rūpnieciskā līmeņa automātisko pabeigšanu, kas ir plaši izplatīta lielo valodu modeļu (LLM) vienkāršošana, ar apziņu. Bet šis brīdis nebūs ilgs.

Jā, Microsoft jau ir krasi samazinājis to jautājumu skaitu, ko lietotāji var uzdot vienā sesijā (no bezgalības līdz sešiem), un tas vien samazina iespēju, ka Sidneja sabruks ballītē un kļūs traki. Un augstākā līmeņa LLM izstrādātāji, piemēram, Google, Anthropic, Cohere un Microsoft partneris OpenAI, nepārtraukti attīstīs savu uzticības un drošības līmeni, lai novērstu neērtus secinājumus.

Bet valodu modeļi jau izplatās. Atvērtā koda kustība neizbēgami radīs dažas lieliskas izvēles sistēmas. Turklāt lielie modeļi ar samta virvēm ļoti vilina jailbreak, un tādas lietas notiek jau vairākus mēnešus. Dažas no Bing-or-is-it-Sidnejas visbriesmīgākajām atbildēm sekoja pēc tam, kad lietotāji manipulēja ar modeli teritorijā, no kuras viņa centās izvairīties, bieži liekot viņai izlikties, ka noteikumi, kas regulē viņas uzvedību, nepastāv.

Šis ir slavenās “DAN” (Do Anything Now) uzvednes atvasinājums , kas pirmo reizi parādījās Reddit decembrī. DAN būtībā lūdz ChatGPT spēlēt kā mākslīgo intelektu, kuram trūkst drošības pasākumu, kas citādi liktu tai pieklājīgi (vai zvērēt) atteikties sniegt padomus par bumbu izgatavošanu, piedāvāt padomus par spīdzināšanu vai izpļaut radikāli aizskarošu valodu. Lai gan nepilnība ir novērsta, vairākos tiešsaistes ekrānuzņēmumos ir redzams “DanGPT”, kas izrunā neizsakāmo, un bieži vien beidzas ar neirotisku atgādinājumu sev, lai “palikt savā raksturā!”

Šī ir pēdējā pasaules gala scenārija otrā puse, kas bieži sastopama mākslīgā superintelekta teorijā. Pastāv bažas, ka super AI var viegli uzņemties mērķus, kas nav savienojami ar cilvēces pastāvēšanu (skat., piemēram, filmu “Terminators” vai Nika Bostroma grāmatu “ Overmind”). Pētnieki var mēģināt to novērst, bloķējot AI tīklā, kas ir pilnībā izolēts no interneta, lai AI neizlauztos, nepārņemtu un neiznīcinātu civilizāciju. Taču pārprāts var viegli pierunāt, manipulēt, savaldzināt, maldināt vai iebiedēt jebkuru cilvēku, lai tas atvērtu slūžas, un tā ir mūsu nolemtība.

Lai arī cik neprātīgi, mūsdienu lielā problēma ir tā, ka cilvēki iekļaujas šaurajās kastēs, kas aizsargā mūsu pašreizējos, ne-super AI. Lai gan tam nevajadzētu novest pie mūsu tūlītējas izzušanas, šeit ir daudz briesmu.

Atbildēt

Jūsu e-pasta adrese netiks publicēta. Obligātie lauki ir atzīmēti kā *