Webbplatser försöker blockera ChatGPT-webbsökroboten efter att instruktioner dyker upp

Utan tillkännagivande har OpenAI nyligen lagt till detaljer om sin sökrobot, GPTBot , till sin webbplats för dokumentation online. GPTBot är namnet på användaragenten som företaget använder för att hämta webbsidor för att träna AI-modellerna bakom ChatGPT , till exempel GPT-4 . Tidigare i veckan meddelade vissa webbplatser snabbt sin avsikt att blockera GPTBots åtkomst till deras innehåll.

I den nya dokumentationen säger OpenAI att webbsidor som genomsöks med GPTBot ”potentiellt kan användas för att förbättra framtida modeller” och att om du tillåter GPTBot att komma åt din webbplats ”kan hjälpa AI-modeller att bli mer exakta och förbättra deras allmänna möjligheter och säkerhet.”

OpenAI hävdar att de har implementerat filter som säkerställer att källor bakom betalväggar, de som samlar in personligt identifierbar information eller något innehåll som bryter mot OpenAI:s policyer inte kommer att nås av GPTBot.

Nyheter om att potentiellt kunna blockera OpenAI:s träningsskrap (om de respekterar dem) kommer för sent för att påverka ChatGPT eller GPT-4:s aktuella träningsdata, som skrapades utan tillkännagivande för flera år sedan. OpenAI samlade in data som slutade i september 2021, vilket är den nuvarande ”kunskaps”-gränsen för OpenAI:s språkmodeller.

Det är värt att notera att de nya instruktionerna kanske inte hindrar webbläsande versioner av ChatGPT eller ChatGPT plugins från att komma åt aktuella webbplatser för att vidarebefordra uppdaterad information till användaren. Den punkten var inte preciserad i dokumentationen, och vi kontaktade OpenAI för förtydligande.

Svaret ligger hos robots.txt

Enligt OpenAIs dokumentation kommer GPTBot att kunna identifieras av användaragenttoken ”GPTBot”, med dess fullständiga sträng som ”Mozilla/5.0 AppleWebKit/537.36 (KHTML, som Gecko; kompatibel; GPTBot/1.0; +https://openai.com /gptbot)”.

OpenAI-dokumenten ger också instruktioner om hur du blockerar GPTBot från att genomsöka webbplatser med hjälp av industristandardfilen robots.txt , som är en textfil som finns i rotkatalogen på en webbplats och instruerar sökrobotar (som de som används av sökmotorer) ) för att inte indexera webbplatsen.

Det är lika enkelt som att lägga till dessa två rader i en webbplatss robots.txt-fil:

User-agent: GPTBot

Disallow: /

OpenAI säger också att administratörer kan begränsa GPTBot från vissa delar av webbplatsen i robots.txt med olika tokens:

User-agent: GPTBot

Allow: /directory-1/

Disallow: /directory-2/

Dessutom har OpenAI tillhandahållit de specifika IP-adressblocken från vilka GPTBot kommer att fungera, som också kan blockeras av brandväggar.

Trots detta alternativ kommer blockering av GPTBot inte att garantera att en webbplatss data inte slutar träna alla AI-modeller i framtiden. Förutom problem med att skrapor ignorerar robots.txt-filer, finns det andra stora datamängder av skrapade webbplatser (som The Pile ) som inte är anslutna till OpenAI. Dessa datamängder används vanligtvis för att träna öppen källkod (eller källtillgänglig) LLM som Metas Llama 2 .

Vissa sajter reagerar med brådska

Även om det är mycket framgångsrikt ur teknisk synvinkel, har ChatGPT också varit kontroversiellt genom hur det skrapat upp upphovsrättsskyddad data utan tillstånd och koncentrerat det värdet till en kommersiell produkt som kringgår den typiska onlinepubliceringsmodellen. OpenAI har anklagats för (och stämts för ) plagiat i dessa banor.

Följaktligen är det inte förvånande att se vissa människor reagera på nyheten om att de potentiellt kan blockera sitt innehåll från framtida GPT-modeller med en sorts uppdämd njutning . Till exempel, på tisdagen, noterade VentureBeat att The Verge , Substack-författaren Casey Newton och Neil Clarke från Clarkesworld alla sa att de skulle blockera GPTBot strax efter att nyheterna om boten kom.

Men för stora webbplatsoperatörer är valet att blockera sökrobotar för stora språkmodeller (LLM) inte så lätt som det kan verka. Att göra vissa LLM:er blinda för vissa webbplatsdata kommer att lämna kunskapsluckor som kan tjäna vissa webbplatser mycket bra (som webbplatser som inte vill tappa besökare om ChatGPT tillhandahåller deras information åt dem), men det kan också skada andra. Blockering av innehåll från framtida AI-modeller kan till exempel minska en webbplatss eller ett varumärkes kulturella fotavtryck om AI-chatbotar blir ett primärt användargränssnitt i framtiden. Som ett tankeexperiment, föreställ dig ett onlineföretag som förklarar att det inte ville att sin webbplats indexerades av Google år 2002 – ett självförstörande drag när det var den mest populära pårampen för att hitta information online.

Det är fortfarande tidigt i det generativa AI-spelet, och oavsett vilken väg tekniken går – eller vilka enskilda webbplatser som försöker välja bort AI-modellutbildning – erbjuder åtminstone OpenAI alternativet.

Posted on augusti 18, 2023

News

admin

Webbplatser försöker blockera ChatGPT-webbsökroboten efter att instruktioner dyker upp

Svaret ligger hos robots.txt

Vissa sajter reagerar med brådska

Lämna ett svar Avbryt svar

Guidemaster: RFID-spärrkort och plånböcker för att hålla dina kort säkra

Dealmaster: Tidiga Labor Day-besparingar på Apple, Lenovo, Kindle och Googles teknik