Vietnes bloķē ChatGPT tīmekļa rāpuļprogrammu pēc instrukciju parādīšanas

Bez paziņojuma OpenAI nesen savai tiešsaistes dokumentācijas vietnei pievienoja informāciju par savu tīmekļa rāpuļprogrammu GPTBot . GPTBot ir lietotāja aģenta nosaukums, ko uzņēmums izmanto, lai izgūtu tīmekļa lapas, lai apmācītu ChatGPT AI modeļus , piemēram, GPT-4 . Šīs nedēļas sākumā dažas vietnes ātri paziņoja par nodomu bloķēt GPTBot piekļuvi viņu saturam.

Jaunajā dokumentācijā OpenAI teikts, ka tīmekļa lapas, kurās izmantota rāpuļprogramma GPTBot, “var tikt izmantotas, lai uzlabotu nākotnes modeļus”, un ka atļauja GPTBot piekļūt jūsu vietnei “var palīdzēt AI modeļiem kļūt precīzākiem un uzlabot to vispārējās iespējas un drošību.”

OpenAI apgalvo, ka ir ieviesis filtrus, kas nodrošina, ka GPTBot nepiekļūs avotiem, kas atrodas aiz maksas sienām, tiem, kas apkopo personu identificējošu informāciju, vai jebkuram saturam, kas pārkāpj OpenAI politikas.

Ziņas par iespēju potenciāli bloķēt OpenAI apmācības skrāpējumus (ja tās tos ievēro) nāk pārāk vēlu, lai ietekmētu ChatGPT vai GPT-4 pašreizējos apmācības datus, kas tika notīrīti bez paziņojuma pirms gadiem. OpenAI apkopoja datus, kas beidzās 2021. gada septembrī, kas ir pašreizējais “zināšanu” ierobežojums OpenAI valodu modeļiem.

Ir vērts atzīmēt, ka jaunie norādījumi, iespējams, neliedz ChatGPT vai ChatGPT spraudņu tīmekļa pārlūkošanas versijām piekļūt pašreizējām vietnēm, lai nodotu lietotājam jaunāko informāciju. Šis punkts dokumentācijā nebija izklāstīts, un mēs sazinājāmies ar OpenAI, lai saņemtu skaidrojumu.

Atbilde ir atrodama failā robots.txt

Saskaņā ar OpenAI dokumentāciju GPTBot varēs identificēt pēc lietotāja aģenta marķiera “GPTBot” ar pilnu virkni “Mozilla/5.0 AppleWebKit/537.36 (KHTML, piemēram, Gecko; saderīgs; GPTBot/1.0; +https://openai.com /gptbot)”.

OpenAI dokumentos ir arī sniegti norādījumi par to, kā bloķēt GPTBot, lai tās nevarētu pārmeklēt vietnes, izmantojot nozares standarta failu robots.txt , kas ir teksta fails, kas atrodas vietnes saknes direktorijā un sniedz norādījumus tīmekļa rāpuļprogrammām (piemēram, tām, kuras izmanto meklētājprogrammas). ), lai neindeksētu vietni.

Tas ir tikpat vienkārši kā šīs divas rindiņas pievienošana vietnes failam robots.txt:

User-agent: GPTBot

Disallow: /

OpenAI arī saka, ka administratori var ierobežot GPTBot noteiktās vietnes daļās failā robots.txt ar dažādiem marķieriem:

User-agent: GPTBot

Allow: /directory-1/

Disallow: /directory-2/

Turklāt OpenAI ir nodrošinājis konkrētus IP adrešu blokus , no kuriem darbosies GPTBot, kurus var bloķēt arī ugunsmūri.

Neskatoties uz šo iespēju, GPTBot bloķēšana negarantēs, ka vietnes dati netiks apmācīti visos nākotnes AI modeļos. Papildus problēmām, kas saistītas ar skrāpjiem, ignorējot robots.txt failus, ir arī citas lielas izkopto vietņu datu kopas (piemēram, The Pile ), kas nav saistītas ar OpenAI. Šīs datu kopas parasti tiek izmantotas, lai apmācītu atvērtā koda (vai avotā pieejamus) LLM, piemēram, Meta’s Llama 2 .

Dažas vietnes reaģē steigā

Lai gan ChatGPT ir ārkārtīgi veiksmīgs no tehnoloģiju viedokļa, tas ir arī strīdīgs par to, kā tas bez atļaujas novāca ar autortiesībām aizsargātus datus un koncentrēja šo vērtību komerciālā produktā, kas apiet tipisko tiešsaistes publicēšanas modeli. OpenAI ir apsūdzēts (un iesūdzēts tiesā) par plaģiātismu šādā veidā.

Līdz ar to nav pārsteidzoši, ka daži cilvēki reaģē uz ziņām par iespēju potenciāli bloķēt savu saturu no turpmākajiem GPT modeļiem ar zināmu aizrautību . Piemēram, otrdien VentureBeat atzīmēja, ka The Verge , Substack rakstnieks Keisijs Ņūtons un Nīls Klārks no Clarkesworld visi teica, ka viņi bloķēs GPTBot drīz pēc tam, kad ziņas par robotu izplatījās.

Taču lieliem vietņu operatoriem izvēle bloķēt lielo valodas modeļu (LLM) rāpuļprogrammas nav tik vienkārša, kā varētu šķist. Padarot dažus LLM aklus pret noteiktiem vietņu datiem, tiks atstāti zināšanu trūkumi, kas varētu ļoti labi kalpot dažām vietnēm (piemēram, vietnēm, kas nevēlas zaudēt apmeklētājus, ja ChatGPT viņu vietā sniedz informāciju), taču tas var arī kaitēt citiem. Piemēram, ja AI tērzēšanas roboti nākotnē kļūs par primāro lietotāja interfeisu, satura bloķēšana no turpmākajiem AI modeļiem varētu samazināt vietnes vai zīmola ietekmi uz kultūru. Kā pārdomu eksperimentu iedomājieties tiešsaistes uzņēmumu, kurš paziņo, ka nevēlas, lai Google indeksētu tā vietni 2002. gadā. Tas bija pašvakcinošs solis, kad tas bija vispopulārākais informācijas atrašanas veids tiešsaistē.

Tas joprojām ir ģeneratīvās AI spēles sākums, un neatkarīgi no tā, kādā virzienā attīstās tehnoloģija vai kuras atsevišķas vietnes mēģina atteikties no AI modeļu apmācības, vismaz OpenAI nodrošina šo iespēju.

Posted on 18 augusts, 2023

News

admin

Vietnes bloķē ChatGPT tīmekļa rāpuļprogrammu pēc instrukciju parādīšanas

Atbilde ir atrodama failā robots.txt

Dažas vietnes reaģē steigā

Atbildēt Atcelt atbildi

Guidemaster: RFID bloķētāju kartes un maki, lai palīdzētu aizsargāt jūsu kartes

Dealmaster: Early Labor Day ietaupījumi Apple, Lenovo, Kindle un Google tech