Saidid hakkavad pärast juhiste ilmumist ChatGPT veebiroomaja blokeerima

Ilma ette teatamata lisas OpenAI hiljuti oma veebipõhisele dokumentatsiooni saidile üksikasju oma veebiroomiku GPTBot kohta. GPTBot on kasutajaagendi nimi, mida ettevõte kasutab veebilehtede toomiseks, et koolitada ChatGPT taga olevaid tehisintellekti mudeleid (nt GPT-4) . Selle nädala alguses teatasid mõned saidid kiiresti oma kavatsusest blokeerida GPTBoti juurdepääs nende sisule.

Uues dokumentatsioonis ütleb OpenAI, et GPTBotiga roomatud veebilehti “võib potentsiaalselt kasutada tulevaste mudelite täiustamiseks” ja et GPTBotile juurdepääsu võimaldamine teie saidile “võib aidata tehisintellekti mudelitel muutuda täpsemaks ning parandada nende üldisi võimalusi ja ohutust.”

OpenAI väidab, et on rakendanud filtreid, mis tagavad, et GPTBot ei pääse juurde tasuliste müüride taga olevatele allikatele, isikut tuvastavat teavet koguvatele allikatele või mis tahes sisule, mis rikub OpenAI eeskirju.

Uudised OpenAI koolituste blokeerimise võimalusest (kui nad neid austavad) tulevad liiga hilja, et mõjutada ChatGPT või GPT-4 praeguseid treeningandmeid, mis kaabiti aastaid tagasi ilma teatamata. OpenAI kogus andmeid, mis lõppesid 2021. aasta septembris, mis on OpenAI keelemudelite praegune teadmiste piir.

Väärib märkimist, et uued juhised ei pruugi takistada ChatGPT või ChatGPT pistikprogrammide veebisirvimise versioonidel juurdepääsu praegustele veebisaitidele, et edastada kasutajale ajakohast teavet. Seda punkti dokumentatsioonis ei selgitatud ja pöördusime selgituse saamiseks OpenAI poole.

Vastus peitub failis robots.txt

OpenAI dokumentatsiooni kohaselt on GPTBot tuvastatav kasutajaagendi tokeniga GPTBot, mille täielik string on “Mozilla/5.0 AppleWebKit/537.36 (KHTML, nagu Gecko; ühilduv; GPTBot/1.0; +https://openai.com /gptbot)”.

OpenAI dokumendid annavad juhiseid ka selle kohta, kuidas blokeerida GPTBot veebisaitidel roomamisest, kasutades tööstusstandardi faili robots.txt , mis on tekstifail, mis asub veebisaidi juurkataloogis ja juhendab veebiroomajaid (nt neid, mida kasutavad otsingumootorid). ), et seda saiti mitte indekseerida.

See on sama lihtne kui nende kahe rea lisamine saidi faili robots.txt:

User-agent: GPTBot

Disallow: /

OpenAI ütleb ka, et administraatorid saavad robots.txt failis saidi teatud osades piirata GPTBot erinevate tunnustega:

User-agent: GPTBot

Allow: /directory-1/

Disallow: /directory-2/

Lisaks on OpenAI pakkunud konkreetsed IP-aadressi plokid, millest GPTBot hakkab töötama ja mida võivad blokeerida ka tulemüürid.

Sellest valikust hoolimata ei garanteeri GPTBoti blokeerimine, et saidi andmed ei treeni kõiki tuleviku tehisintellekti mudeleid. Peale robots.txt-faile ignoreerivate kaabitsate on ka muid suuri andmekogumeid kogutud veebisaitidest (nt The Pile ), mis ei ole OpenAI-ga seotud. Neid andmekogumeid kasutatakse tavaliselt avatud lähtekoodiga (või allikas saadaolevate) LLM-ide (nt Meta’s Llama 2) koolitamiseks .

Mõned saidid reageerivad kiirustades

Kuigi ChatGPT on tehnilisest vaatenurgast metsikult edukas, on see olnud vastuoluline ka sellega, kuidas ta kraapis autoriõigustega kaitstud andmeid ilma loata ja koondas selle väärtuse kaubanduslikuks tooteks, mis hoiab kõrvale tüüpilisest veebi avaldamise mudelist. OpenAI-d on süüdistatud (ja kaevatud selle eest ) plagiaadis sel viisil.

Seetõttu pole üllatav, kui mõned inimesed reageerivad uudisele, et nad võivad potentsiaalselt blokeerida oma sisu tulevastes GPT mudelites, omamoodi ummistunud naudinguga . Näiteks teisipäeval märkis VentureBeat, et The Verge , Substacki kirjanik Casey Newton ja Neil Clarke Clarkesworldist ütlesid kõik, et blokeerivad GPTBoti varsti pärast seda, kui teated roboti kohta puhkesid.

Kuid suurte veebisaitide operaatorite jaoks ei ole suurte keelemudelite (LLM) roomajate blokeerimine nii lihtne, kui võib tunduda. Mõne LLM-i pimedaks muutmine teatud veebisaitide andmete suhtes jätab teadmiste lüngad, mis võiksid mõnda saiti väga hästi teenindada (nt saidid, mis ei taha külastajaid kaotada, kui ChatGPT nende eest teavet edastab), kuid see võib kahjustada ka teisi. Näiteks võib tulevaste tehisintellektimudelite sisu blokeerimine vähendada saidi või brändi kultuurilist jalajälge, kui tehisintellekti vestlusrobotid saavad tulevikus peamiseks kasutajaliideseks. Mõtteeksperimendina kujutlege veebiettevõtet, kes teatab, et ta ei soovi, et Google 2002. aastal tema veebisaiti indekseeriks – see oli ennasthävitav samm, kui see oli Internetist teabe leidmise kõige populaarsem tee.

See on generatiivse AI-mängu algusjärgus ja olenemata sellest, millises suunas tehnoloogia areneb – või millised üksikud saidid üritavad tehisintellektimudelite koolitusest loobuda –, pakub vähemalt OpenAI seda võimalust.

Posted on august 18, 2023

News

admin

Saidid hakkavad pärast juhiste ilmumist ChatGPT veebiroomaja blokeerima

Vastus peitub failis robots.txt

Mõned saidid reageerivad kiirustades

Lisa kommentaar Tühista vastus

Guidemaster: RFID-blokeerija kaardid ja rahakotid aitavad teie kaarte turvaliselt hoida

Dealmaster: varajase tööpäeva kokkuhoid Apple'i, Lenovo, Kindle'i ja Google'i tehnoloogiate puhul