Stránky se snaží zablokovat webový prohledávač ChatGPT poté, co se objeví pokyny

Bez předchozího oznámení OpenAI nedávno přidala podrobnosti o svém webovém prohledávači GPTBot na svůj online dokumentační web. GPTBot je název uživatelského agenta, který společnost používá k načítání webových stránek pro trénování modelů umělé inteligence za ChatGPT , jako je GPT-4 . Začátkem tohoto týdne některé weby rychle oznámily svůj záměr zablokovat přístup GPTBot k jejich obsahu.

V nové dokumentaci OpenAI říká, že webové stránky procházené pomocí GPTBot „mohou být potenciálně použity ke zlepšení budoucích modelů“ a že umožnění přístupu GPTBot na váš web „může pomoci modelům umělé inteligence, aby byly přesnější a zlepšily jejich obecné možnosti a bezpečnost“.

OpenAI tvrdí, že implementovalo filtry, které zajišťují, že zdroje za paywally, ty, které shromažďují osobně identifikovatelné informace, nebo jakýkoli obsah porušující zásady OpenAI nebudou pro GPTBot přístupné.

Zprávy o možnosti potenciálně zablokovat tréninkové zápisy OpenAI (pokud je respektují) přicházejí příliš pozdě na to, aby ovlivnily aktuální tréninková data ChatGPT nebo GPT-4, která byla před lety bez ohlášení smazána. OpenAI shromáždila data do září 2021, což je současná hranice „znalostí“ pro jazykové modely OpenAI.

Stojí za zmínku, že nové pokyny nemusí bránit verzím ChatGPT nebo zásuvných modulů ChatGPT pro procházení webu v přístupu k aktuálním webovým stránkám za účelem předávání aktuálních informací uživateli. Tento bod nebyl v dokumentaci vysvětlen a požádali jsme OpenAI o vysvětlení.

Odpověď spočívá v souboru robots.txt

Podle dokumentace OpenAI bude GPTBot identifikovatelný pomocí tokenu uživatelského agenta „GPTBot“, přičemž celý řetězec bude „Mozilla/5.0 AppleWebKit/537.36 (KHTML, jako Gecko; kompatibilní; GPTBot/1.0; +https://openai.com /gptbot)“.

Dokumenty OpenAI také poskytují pokyny, jak zablokovat GPTBot procházení webových stránek pomocí standardního souboru robots.txt , což je textový soubor, který se nachází v kořenovém adresáři webové stránky a poskytuje pokyny pro webové prohledávače (například ty, které používají vyhledávače ) neindexovat web.

Je to stejně snadné jako přidání těchto dvou řádků do souboru robots.txt webu:

User-agent: GPTBot

Disallow: /

OpenAI také říká, že administrátoři mohou omezit přístup GPTBot na určité části webu v robots.txt pomocí různých tokenů:

User-agent: GPTBot

Allow: /directory-1/

Disallow: /directory-2/

OpenAI navíc poskytla specifické bloky IP adres , ze kterých bude GPTBot pracovat, které by mohly být blokovány i firewally.

Navzdory této možnosti blokování GPTBot nezaručí, že data webu neskončí jako trénink všech modelů AI budoucnosti. Kromě problémů se scrapery ignorujícími soubory robots.txt existují další velké datové sady zkopírovaných webů (jako je The Pile ), které nejsou spojeny s OpenAI. Tyto datové sady se běžně používají k trénování LLM s otevřeným zdrojovým kódem (nebo dostupným zdrojem), jako je Meta’s Llama 2 .

Některé stránky reagují zbrkle

I když je ChatGPT z technického hlediska velmi úspěšný, byl také kontroverzní tím, jak bez povolení seškrábal data chráněná autorskými právy a soustředil tuto hodnotu do komerčního produktu, který obchází typický model online publikace. OpenAI bylo obviněno (a žalováno za ) plagiátorství v tomto smyslu.

V souladu s tím není překvapivé, když někteří lidé reagují na zprávu o tom, že mohou potenciálně blokovat jejich obsah před budoucími modely GPT s určitým druhem zadržované chuti . Například v úterý VentureBeat poznamenal, že The Verge , spisovatel Substack Casey Newton a Neil Clarke z Clarkesworld řekli, že zablokují GPTBot brzy poté, co se objevily zprávy o robotovi.

Ale pro velké provozovatele webových stránek není volba blokovat prohledávače s velkým jazykovým modelem (LLM) tak snadná, jak se může zdát. Učiní-li některé LLM slepé vůči určitým datům webových stránek, zanechá mezery ve znalostech, které by mohly některým stránkám velmi dobře sloužit (jako jsou stránky, které nechtějí ztratit návštěvníky, pokud jim ChatGPT poskytne jejich informace), ale může to ublížit i ostatním. Například blokování obsahu z budoucích modelů umělé inteligence by mohlo snížit kulturní stopu webu nebo značky, pokud se AI chatboti stanou v budoucnu primárním uživatelským rozhraním. Jako myšlenkový experiment si představte online firmu, která deklaruje, že nechce, aby její web indexoval Google v roce 2002 – sebezničující tah, když to byla nejoblíbenější rampa pro vyhledávání informací online.

V generativní hře s umělou inteligencí je stále ještě brzy a bez ohledu na to, jakým směrem se technologie ubírá – nebo které jednotlivé weby se pokoušejí odhlásit se z tréninku modelů AI – alespoň OpenAI tuto možnost poskytuje.

Posted on 18 srpna, 2023

News

admin

Stránky se snaží zablokovat webový prohledávač ChatGPT poté, co se objeví pokyny

Odpověď spočívá v souboru robots.txt

Některé stránky reagují zbrkle

Napsat komentář Zrušit odpověď na komentář

Guidemaster: Karty a peněženky s blokováním RFID, které pomohou udržet vaše karty v bezpečí

Uzamkněte všechny své aplikace za Face ID nebo Touch ID, abyste zabránili šmírování přátel a rodiny