Witryny starają się zablokować robota sieciowego ChatGPT po pojawieniu się instrukcji
Bez zapowiedzi firma OpenAI niedawno dodała szczegóły dotyczące swojego robota indeksującego, GPTBot , do swojej witryny z dokumentacją online. GPTBot to nazwa agenta użytkownika, którego firma używa do pobierania stron internetowych w celu trenowania modeli AI stojących za ChatGPT , takich jak GPT-4 . Na początku tego tygodnia niektóre strony szybko ogłosiły zamiar zablokowania dostępu GPTBota do ich treści.
W nowej dokumentacji OpenAI mówi, że strony internetowe zaindeksowane za pomocą GPTBota „mogą potencjalnie zostać wykorzystane do ulepszenia przyszłych modeli”, a umożliwienie GPTBotowi dostępu do Twojej witryny „może pomóc modelom AI stać się bardziej dokładnymi i poprawić ich ogólne możliwości i bezpieczeństwo”.
OpenAI twierdzi, że wdrożył filtry zapewniające, że GPTBot nie uzyska dostępu do źródeł za płatnymi zaporami, zbierających dane osobowe lub treści naruszające zasady OpenAI.
Wiadomości o możliwości potencjalnego zablokowania zadrapań treningowych OpenAI (jeśli je honorują) pojawiają się zbyt późno, aby wpłynąć na bieżące dane szkoleniowe ChatGPT lub GPT-4, które zostały zeskrobane bez zapowiedzi lata temu. OpenAI zebrało dane do września 2021 r., czyli aktualnej granicy „wiedzy” dla modeli językowych OpenAI.
Warto zauważyć, że nowe instrukcje mogą nie uniemożliwiać wersjom przeglądarek internetowych ChatGPT lub wtyczek ChatGPT dostępu do bieżących stron internetowych w celu przekazywania użytkownikowi aktualnych informacji. Ten punkt nie został określony w dokumentacji i skontaktowaliśmy się z OpenAI w celu wyjaśnienia.
Odpowiedź leży w pliku robots.txt
Zgodnie z dokumentacją OpenAI , GPTBot będzie identyfikowany przez token agenta użytkownika „GPTBot”, a jego pełny ciąg to „Mozilla/5.0 AppleWebKit/537.36 (KHTML, jak Gecko; kompatybilny; GPTBot/1.0; +https://openai.com /gptbot)”.
Dokumentacja OpenAI zawiera również instrukcje, jak blokować GPTBot przed indeksowaniem stron internetowych za pomocą standardowego w branży pliku robots.txt , który jest plikiem tekstowym, który znajduje się w katalogu głównym witryny i instruuje roboty indeksujące (takie jak te używane przez wyszukiwarki ), aby nie indeksować witryny.
Wystarczy dodać te dwa wiersze do pliku robots.txt witryny:
User-agent: GPTBot
Disallow: /
OpenAI mówi również, że administratorzy mogą ograniczyć dostęp GPTBota do niektórych części witryny w pliku robots.txt za pomocą różnych tokenów:
User-agent: GPTBot
Allow: /directory-1/
Disallow: /directory-2/
Dodatkowo OpenAI dostarczył konkretne bloki adresów IP , z których będzie działał GPTBot, które mogą być również blokowane przez zapory ogniowe.
Pomimo tej opcji, zablokowanie GPTBota nie gwarantuje, że dane witryny nie zostaną przeszkolone we wszystkich przyszłych modelach sztucznej inteligencji. Oprócz problemów ze skrobakami ignorującymi pliki robots.txt, istnieją inne duże zbiory danych ze skrobanych stron internetowych (takie jak The Pile ), które nie są powiązane z OpenAI. Te zestawy danych są powszechnie używane do trenowania LLM typu open source (lub dostępnych w źródle), takich jak Meta’s Llama 2 .
Niektóre strony reagują z pośpiechem
Chociaż ChatGPT odniósł ogromny sukces z technicznego punktu widzenia, był również kontrowersyjny ze względu na sposób, w jaki zbierał dane chronione prawem autorskim bez pozwolenia i koncentrował tę wartość w komercyjnym produkcie, który omija typowy model publikacji online. OpenAI zostało oskarżone o (i pozwane ) o plagiat w ten sposób.
W związku z tym nie jest zaskakujące, że niektórzy ludzie reagują na wiadomość o możliwości potencjalnego zablokowania ich treści przed przyszłymi modelami GPT z pewnym stłumionym smakiem . Na przykład we wtorek VentureBeat zauważył , że The Verge , pisarz Substack, Casey Newton i Neil Clarke z Clarkesworld, wszyscy powiedzieli, że zablokują GPTBota wkrótce po ujawnieniu wiadomości o bocie.
Jednak w przypadku dużych operatorów witryn wybór opcji blokowania robotów indeksujących z dużym modelem językowym (LLM) nie jest tak łatwy, jak mogłoby się wydawać. Zaślepienie niektórych LLM na niektóre dane witryn pozostawi luki w wiedzy, które mogą bardzo dobrze służyć niektórym witrynom (takim jak witryny, które nie chcą tracić odwiedzających, jeśli ChatGPT dostarczy im ich informacji), ale może to również zaszkodzić innym. Na przykład blokowanie treści z przyszłych modeli sztucznej inteligencji może zmniejszyć ślad kulturowy witryny lub marki, jeśli chatboty sztucznej inteligencji staną się w przyszłości głównym interfejsem użytkownika. W ramach eksperymentu myślowego wyobraź sobie firmę internetową, która deklaruje, że nie chce, aby jej witryna była indeksowana przez Google w 2002 r.
Wciąż jest wcześnie w generatywnej grze AI i bez względu na to, w którą stronę pójdzie technologia – lub które poszczególne witryny próbują zrezygnować ze szkolenia modeli AI – przynajmniej OpenAI zapewnia taką opcję.
Dodaj komentarz