Websteder kæmper for at blokere ChatGPT-webcrawler, efter at instruktionerne dukker op

Websteder kæmper for at blokere ChatGPT-webcrawler, efter at instruktionerne dukker op

Uden meddelelse tilføjede OpenAI for nylig detaljer om sin webcrawler, GPTBot , til sin online-dokumentationsside. GPTBot er navnet på den brugeragent, som virksomheden bruger til at hente websider til at træne AI-modellerne bag ChatGPT , såsom GPT-4 . Tidligere på ugen annoncerede nogle websteder hurtigt, at de havde til hensigt at blokere GPTBots adgang til deres indhold.

I den nye dokumentation siger OpenAI, at websider, der er crawlet med GPTBot “potentielt kan blive brugt til at forbedre fremtidige modeller”, og at det at give GPTBot adgang til dit websted “kan hjælpe AI-modeller med at blive mere nøjagtige og forbedre deres generelle muligheder og sikkerhed.”

OpenAI hævder, at det har implementeret filtre, der sikrer, at kilder bag betalingsvægge, dem, der indsamler personligt identificerbare oplysninger, eller noget indhold, der overtræder OpenAIs politikker, ikke vil blive tilgået af GPTBot.

Nyheder om potentielt at kunne blokere OpenAI’s træningsskraber (hvis de respekterer dem) kommer for sent til at påvirke ChatGPT eller GPT-4’s aktuelle træningsdata, som blev skrabet uden meddelelse for år siden. OpenAI indsamlede dataene, der sluttede i september 2021, hvilket er den nuværende “viden”-grænseværdi for OpenAIs sprogmodeller.

Det er værd at bemærke, at de nye instruktioner muligvis ikke forhindrer web-browsing versioner af ChatGPT eller ChatGPT plugins i at få adgang til aktuelle websteder for at videresende opdaterede oplysninger til brugeren. Det punkt var ikke præciseret i dokumentationen, og vi kontaktede OpenAI for at få afklaring.

Svaret ligger hos robots.txt

Ifølge OpenAI’s dokumentation vil GPTBot kunne identificeres af brugeragent-tokenet “GPTBot”, hvor dens fulde streng er “Mozilla/5.0 AppleWebKit/537.36 (KHTML, som Gecko; kompatibel; GPTBot/1.0; +https://openai.com /gptbot)”.

OpenAI-dokumenterne giver også instruktioner om, hvordan man blokerer GPTBot fra at crawle websteder ved hjælp af industristandarden robots.txt- fil, som er en tekstfil, der sidder i rodmappen på et websted og instruerer webcrawlere (såsom dem, der bruges af søgemaskiner) ) for ikke at indeksere webstedet.

Det er lige så nemt som at tilføje disse to linjer til et websteds robots.txt-fil:

User-agent: GPTBot

Disallow: /

OpenAI siger også, at administratorer kan begrænse GPTBot fra visse dele af webstedet i robots.txt med forskellige tokens:

User-agent: GPTBot

Allow: /directory-1/


Disallow: /directory-2/

Derudover har OpenAI leveret de specifikke IP-adresseblokke, hvorfra GPTBot’en ​​vil fungere, som også kan blokeres af firewalls.

På trods af denne mulighed vil blokering af GPTBot ikke garantere, at et websteds data ikke ender med at træne alle fremtidens AI-modeller. Bortset fra problemer med skrabere, der ignorerer robots.txt-filer, er der andre store datasæt af skrabet websteder (såsom The Pile ), der ikke er tilknyttet OpenAI. Disse datasæt bruges almindeligvis til at træne open source (eller kildetilgængelige) LLM’er såsom Meta’s Llama 2 .

Nogle websteder reagerer med hast

Selvom ChatGPT er meget vellykket fra et teknisk synspunkt, har ChatGPT også været kontroversielt på grund af, hvordan det skrabede ophavsretligt beskyttede data uden tilladelse og koncentrerede denne værdi til et kommercielt produkt, der omgår den typiske online-publikationsmodel. OpenAI er blevet anklaget for (og sagsøgt for ) plagiat i denne retning.

Derfor er det ikke overraskende at se nogle mennesker reagere på nyheden om potentielt at kunne blokere deres indhold fra fremtidige GPT-modeller med en slags indestængt velbehag . For eksempel i tirsdags bemærkede VentureBeat, at The Verge , Substack-forfatteren Casey Newton og Neil Clarke fra Clarkesworld alle sagde, at de ville blokere GPTBot kort efter nyheden om botten brød ud.

Men for store webstedsoperatører er valget om at blokere store sprogmodel-crawlere (LLM) ikke så let, som det kan se ud. At gøre nogle LLM’er blinde for bestemte webstedsdata vil efterlade videnshuller, som kunne tjene nogle websteder meget godt (såsom websteder, der ikke ønsker at miste besøgende, hvis ChatGPT leverer deres oplysninger til dem), men det kan også skade andre. For eksempel kan blokering af indhold fra fremtidige AI-modeller mindske et websteds eller et brands kulturelle fodaftryk, hvis AI-chatbots bliver en primær brugergrænseflade i fremtiden. Som et tankeeksperiment kan du forestille dig en onlinevirksomhed, der erklærer, at den ikke ønsker, at dens hjemmeside indekseres af Google i år 2002 – et selvdestruktivt træk, da det var det mest populære tilløb til at finde information online.

Det er stadig tidligt i det generative AI-spil, og uanset hvilken vej teknologien går – eller hvilke individuelle websteder der forsøger at fravælge AI-modeltræning – giver OpenAI i det mindste muligheden.

Skriv et svar

Din e-mailadresse vil ikke blive publiceret. Krævede felter er markeret med *