Sivustot estävät ChatGPT-indeksointirobotin ohjeiden ilmestymisen jälkeen

Ilman ilmoitusta OpenAI lisäsi äskettäin tietoja verkko-indeksointirobotistaan GPTBotista online-dokumentaatiosivustoonsa. GPTBot on sen käyttäjäagentin nimi, jota yritys käyttää verkkosivujen hakemiseen ChatGPT:n takana olevien tekoälymallien , kuten GPT-4:n , harjoittamiseksi . Aiemmin tällä viikolla jotkut sivustot ilmoittivat nopeasti aikovansa estää GPTBotin pääsyn sisältöönsä.

Uudessa dokumentaatiossa OpenAI sanoo, että GPTBotilla indeksoituja verkkosivuja ”voidaan mahdollisesti käyttää tulevien mallien parantamiseen” ja että GPTBotin pääsyn salliminen sivustollesi ”voi auttaa tekoälymalleja tarkentumaan ja parantamaan niiden yleisiä ominaisuuksia ja turvallisuutta.”

OpenAI väittää ottaneensa käyttöön suodattimia, jotka varmistavat, että GPTBot ei pääse käsiksi maksumuurin takana oleviin lähteisiin, henkilökohtaisia tunnistetietoja kerääviin tai mihinkään OpenAI:n käytäntöjen vastaiseen sisältöön.

Uutiset mahdollisuudesta estää OpenAI:n harjoituskuvat (jos ne kunnioittavat niitä) tulevat liian myöhään vaikuttaakseen ChatGPT:n tai GPT-4:n nykyisiin harjoitustietoihin, jotka kaavittiin ilman ilmoitusta vuosia sitten. OpenAI keräsi syyskuuhun 2021 päättyvän datan, joka on OpenAI:n kielimallien nykyinen ”tietoraja”.

On syytä huomata, että uudet ohjeet eivät välttämättä estä ChatGPT:n tai ChatGPT-laajennusten verkkoselailuversioita käyttämästä nykyisiä verkkosivustoja välittämään ajan tasalla olevaa tietoa käyttäjälle. Tätä kohtaa ei kerrottu asiakirjoissa, ja otimme yhteyttä OpenAI:han saadaksemme selvyyden.

Vastaus löytyy robots.txt-tiedostosta

OpenAI:n dokumentaation mukaan GPTBot voidaan tunnistaa käyttäjäagenttitunnuksella ”GPTBot”, jonka koko merkkijono on ”Mozilla/5.0 AppleWebKit/537.36 (KHTML, kuten Gecko; yhteensopiva; GPTBot/1.0; +https://openai.com /gptbot)”.

OpenAI-dokumentit antavat myös ohjeita siitä, kuinka estää GPTBotia indeksoimasta verkkosivustoja käyttämällä alan standardia robots.txt- tiedostoa, joka on tekstitiedosto, joka sijaitsee verkkosivuston juurihakemistossa ja ohjaa indeksoijia (kuten hakukoneiden käyttämiä indeksoijia). ) olla indeksoimatta sivustoa.

Se on yhtä helppoa kuin näiden kahden rivin lisääminen sivuston robots.txt-tiedostoon:

User-agent: GPTBot

Disallow: /

OpenAI sanoo myös, että järjestelmänvalvojat voivat rajoittaa GPTBotin tietyistä sivuston osista robots.txt-tiedostossa eri tunnuksilla:

User-agent: GPTBot

Allow: /directory-1/

Disallow: /directory-2/

Lisäksi OpenAI on tarjonnut tietyt IP-osoitelohkot, joista GPTBot toimii ja jotka voidaan estää myös palomuureilla.

Tästä vaihtoehdosta huolimatta GPTBotin estäminen ei takaa, että sivuston tiedot eivät päädy opettamaan kaikkia tulevaisuuden tekoälymalleja. Robots.txt-tiedostojen huomioimatta jättävien scrapereiden lisäksi on olemassa muita suuria tietojoukkoja kopioituja verkkosivustoja (kuten The Pile ), jotka eivät ole sidoksissa OpenAI:han. Näitä tietojoukkoja käytetään yleisesti kouluttamaan avoimen lähdekoodin (tai lähdekoodin saatavilla olevia) LLM:itä, kuten Meta’s Llama 2 .

Jotkut sivustot reagoivat kiireellä

Vaikka ChatGPT on tekniikan näkökulmasta erittäin menestynyt, se on myös ollut kiistanalainen siitä, kuinka se raapui tekijänoikeudella suojattua dataa ilman lupaa ja keskitti sen arvon kaupalliseksi tuotteeksi, joka kiertää tyypillisen verkkojulkaisumallin. OpenAI:ta on syytetty (ja haastanut oikeuteen ) plagioinnista tällä tavalla.

Näin ollen ei ole yllättävää, että jotkut ihmiset reagoivat uutisiin mahdollisuudesta estää sisältönsä tulevista GPT-malleista eräänlaisella tukahdutettuna nautinnolla . Esimerkiksi tiistaina VentureBeat totesi , että The Verge , Substack-kirjoittaja Casey Newton ja Neil Clarke Clarkesworldistä sanoivat kaikki estävänsä GPTBotin pian sen jälkeen, kun uutiset robotista puhkesivat.

Mutta suurille verkkosivustojen operaattoreille valinta estää suurten kielimallien (LLM) indeksointirobotit ei ole niin helppoa kuin miltä se saattaa näyttää. Joidenkin LLM-yritysten sokeuttaminen tietyille verkkosivustojen tiedoille jättää tiedon aukkoja, jotka voisivat palvella joitakin sivustoja erittäin hyvin (kuten sivustot, jotka eivät halua menettää kävijöitä, jos ChatGPT toimittaa heidän tietonsa), mutta se voi myös vahingoittaa muita. Esimerkiksi sisällön estäminen tulevista tekoälymalleista voi pienentää sivuston tai brändin kulttuurista jalanjälkeä, jos AI-chatboteista tulee ensisijainen käyttöliittymä tulevaisuudessa. Kuvittele ajatuskokeiluna verkkoyritystä, joka ilmoittaa, ettei se halunnut Googlen indeksoivan verkkosivustoaan vuonna 2002. Tämä oli itseään tuhoava liike, kun se oli suosituin tiedonhakuportti verkossa.

Se on vielä alkuvaiheessa generatiivisessa tekoälypelissä, ja riippumatta siitä, mihin suuntaan tekniikka kulkee – tai mitkä yksittäiset sivustot yrittävät kieltäytyä tekoälymallikoulutuksesta – ainakin OpenAI tarjoaa vaihtoehdon.

Posted on 18 elokuun, 2023

News

admin

Sivustot estävät ChatGPT-indeksointirobotin ohjeiden ilmestymisen jälkeen

Vastaus löytyy robots.txt-tiedostosta

Jotkut sivustot reagoivat kiireellä

Vastaa Peruuta vastaus

Guidemaster: RFID-estokortit ja lompakot pitävät korttisi turvassa

Dealmaster: Early Labor Day -säästöjä Applen, Lenovon, Kindlen ja Googlen teknologiassa