Svetainės bando blokuoti „ChatGPT“ žiniatinklio tikrinimo programą, kai pateikiamos instrukcijos
Neseniai „OpenAI“ į savo internetinę dokumentacijos svetainę pridėjo išsamios informacijos apie savo žiniatinklio tikrinimo programą GPTBot . GPTBot yra vartotojo agento pavadinimas, kurį įmonė naudoja tinklalapiams nuskaityti, kad išmokytų dirbtinio intelekto modelius pagal ChatGPT , pvz., GPT-4 . Anksčiau šią savaitę kai kurios svetainės greitai paskelbė apie savo ketinimą blokuoti GPTBot prieigą prie jų turinio.
Naujoje dokumentacijoje OpenAI sako, kad tinklalapiai, aptikti naudojant GPTBot, „gali būti naudojami būsimiems modeliams tobulinti“, o leidimas GPTBot pasiekti jūsų svetainę „gali padėti AI modeliams tapti tikslesniais ir pagerinti jų bendrąsias galimybes bei saugumą.
„OpenAI“ teigia įdiegusi filtrus, užtikrinančius, kad GPTBot nepasieks šaltinių, esančių už mokamų sienų, renkančių asmenį identifikuojančią informaciją arba bet kokį turinį, pažeidžiantį OpenAI politiką.
Naujienos apie galimybę blokuoti OpenAI treniruotes (jei jie jas gerbia) ateina per vėlai, kad paveiktų dabartinius „ChatGPT“ arba GPT-4 mokymo duomenis, kurie buvo nubraukti be pranešimo prieš metus. OpenAI rinko duomenis, kurie baigiasi 2021 m. rugsėjo mėn., o tai yra dabartinė OpenAI kalbų modelių „žinių“ riba.
Verta paminėti, kad naujos instrukcijos gali netrukdyti naršyti ChatGPT arba ChatGPT papildinių versijoms prie dabartinių svetainių, kad vartotojui būtų perduota naujausia informacija. Šis punktas nebuvo nurodytas dokumentacijoje, todėl susisiekėme su OpenAI, kad paaiškintume.
Atsakymas yra robots.txt
Remiantis OpenAI dokumentacija , GPTBot bus galima identifikuoti pagal vartotojo agento prieigos raktą „GPTBot“, o visa jo eilutė yra „Mozilla/5.0 AppleWebKit/537.36“ (KHTML, kaip „Gecko“; suderinama; GPTBot/1.0; +https://openai.com /gptbot)“.
„OpenAI“ dokumentuose taip pat pateikiamos instrukcijos, kaip užblokuoti GPTBot, kad jis aptiktų svetaines, naudojant pramonės standarto failą robots.txt , kuris yra tekstinis failas, esantis svetainės šakniniame kataloge ir nurodomas žiniatinklio tikrinimo programoms (pvz., naudojamoms paieškos variklių). ) neindeksuoti svetainės.
Tai taip paprasta, kaip pridėti šias dvi eilutes prie svetainės robots.txt failo:
User-agent: GPTBot
Disallow: /
OpenAI taip pat sako, kad administratoriai gali apriboti GPTBot tam tikrose robots.txt svetainės dalyse naudodami skirtingus prieigos raktus:
User-agent: GPTBot
Allow: /directory-1/
Disallow: /directory-2/
Be to, OpenAI pateikė konkrečius IP adresų blokus, iš kurių veiks GPTBot, kuriuos taip pat gali blokuoti ugniasienės.
Nepaisant šios parinkties, GPTBot blokavimas negarantuoja, kad svetainės duomenys nebus apmokyti visų ateities AI modelių. Be problemų, susijusių su grandikliais, ignoruojančiais robots.txt failus, yra ir kitų didelių nukopijuotų svetainių duomenų rinkinių (pvz., The Pile ), nesusijusių su OpenAI. Šie duomenų rinkiniai dažniausiai naudojami mokant atvirojo kodo (arba šaltinio prieinamus) LLM, pvz., Meta’s Llama 2 .
Kai kurios svetainės reaguoja paskubomis
Nors „ChatGPT“ buvo nepaprastai sėkmingas technologijų požiūriu, jis taip pat buvo prieštaringas dėl to, kaip jis be leidimo iškrapštė autorių teisių saugomus duomenis ir sutelkė tą vertę į komercinį produktą, kuris apeina tipišką internetinio publikavimo modelį. „OpenAI“ buvo apkaltintas (ir iškeltas į teismą) dėl plagiato.
Todėl nenuostabu, kad kai kurie žmonės reaguoja į naujienas apie galimybę blokuoti savo turinį būsimuose GPT modeliuose su savotišku pasimėgavimu . Pavyzdžiui, antradienį „VentureBeat“ pažymėjo, kad „The Verge“ , „Substack“ rašytojas Casey Newtonas ir Neilas Clarke’as iš „Clarkesworld“ teigė, kad netrukus po to, kai pasklis žinia apie robotą, blokuos GPTBot.
Tačiau dideliems svetainių operatoriams pasirinkimas blokuoti didelių kalbos modelių (LLM) tikrinimo programas nėra toks paprastas, kaip gali atrodyti. Kai kurie LLM aklūs tam tikriems svetainių duomenims, liks žinių spragų, kurios galėtų labai gerai pasitarnauti kai kurioms svetainėms (pvz., svetainėms, kurios nenori prarasti lankytojų, jei „ChatGPT“ jiems pateiks informaciją), tačiau tai taip pat gali pakenkti kitiems. Pavyzdžiui, blokuojant turinį iš būsimų AI modelių, gali sumažėti svetainės ar prekės ženklo kultūrinis pėdsakas, jei AI pokalbių robotai ateityje taps pagrindine vartotojo sąsaja. Kaip mąstymo eksperimentą įsivaizduokite internetinę įmonę, pareiškiančią, kad ji nenori, kad 2002 m. jos svetainė indeksuotų „Google“ – tai buvo savęs nugalėjimo veiksmas, kai tai buvo populiariausias būdas rasti informaciją internete.
Vis dar yra generatyvaus AI žaidimo pradžioje ir nesvarbu, kuria kryptimi vystosi technologija – ar kurios atskiros svetainės bando atsisakyti dirbtinio intelekto modelių mokymo – bent jau OpenAI suteikia galimybę.
Parašykite komentarą