Websites versuchen, den ChatGPT-Webcrawler zu blockieren, nachdem Anweisungen aufgetaucht sind
Ohne Ankündigung hat OpenAI kürzlich Details zu seinem Webcrawler GPTBot zu seiner Online-Dokumentationsseite hinzugefügt. GPTBot ist der Name des Benutzeragenten, mit dem das Unternehmen Webseiten abruft, um die KI-Modelle hinter ChatGPT zu trainieren , beispielsweise GPT-4 . Anfang dieser Woche gaben einige Websites schnell ihre Absicht bekannt , den Zugriff von GPTBot auf ihre Inhalte zu blockieren.
In der neuen Dokumentation sagt OpenAI, dass mit GPTBot gecrawlte Webseiten „potenziell zur Verbesserung zukünftiger Modelle verwendet werden können“ und dass der Zugriff von GPTBot auf Ihre Website „KI-Modellen dabei helfen kann, genauer zu werden und ihre allgemeinen Fähigkeiten und Sicherheit zu verbessern“.
OpenAI gibt an, Filter implementiert zu haben, die sicherstellen, dass GPTBot nicht auf Quellen hinter Paywalls, Personen, die personenbezogene Daten sammeln, oder Inhalte, die gegen die Richtlinien von OpenAI verstoßen, zugreifen kann.
Die Nachricht, dass die Trainingsdaten von OpenAI möglicherweise blockiert werden können (sofern sie diese respektieren), kommt zu spät, um Auswirkungen auf die aktuellen Trainingsdaten von ChatGPT oder GPT-4 zu haben, die vor Jahren ohne Ankündigung gelöscht wurden. OpenAI hat die Daten bis September 2021 gesammelt, was dem aktuellen „Wissensgrenzwert“ für die Sprachmodelle von OpenAI entspricht.
Es ist erwähnenswert, dass die neuen Anweisungen Webbrowser-Versionen von ChatGPT oder ChatGPT-Plugins möglicherweise nicht daran hindern , auf aktuelle Websites zuzugreifen, um aktuelle Informationen an den Benutzer weiterzugeben. Dieser Punkt wurde in der Dokumentation nicht näher erläutert und wir haben uns zur Klärung an OpenAI gewandt.
Die Antwort liegt in robots.txt
Laut der Dokumentation von OpenAI wird GPTBot anhand des User-Agent-Tokens „GPTBot“ identifizierbar sein, dessen vollständige Zeichenfolge „Mozilla/5.0 AppleWebKit/537.36 (KHTML, wie Gecko; kompatibel; GPTBot/1.0; +https://openai.com)“ lautet /gptbot)“.
Die OpenAI-Dokumente enthalten auch Anweisungen dazu, wie Sie GPTBot daran hindern können, Websites mithilfe der branchenüblichen robots.txt- Datei zu crawlen. Hierbei handelt es sich um eine Textdatei, die sich im Stammverzeichnis einer Website befindet und Webcrawler (wie sie beispielsweise von Suchmaschinen verwendet werden) anweist ), um die Website nicht zu indizieren.
Es ist so einfach wie das Hinzufügen dieser beiden Zeilen zur robots.txt-Datei einer Website:
User-agent: GPTBot
Disallow: /
OpenAI sagt auch, dass Administratoren GPTBot mit verschiedenen Token von bestimmten Teilen der Website in robots.txt einschränken können:
User-agent: GPTBot
Allow: /directory-1/
Disallow: /directory-2/
Darüber hinaus hat OpenAI die spezifischen IP-Adressblöcke bereitgestellt, von denen aus der GPTBot betrieben wird, die auch von Firewalls blockiert werden könnten.
Trotz dieser Option ist das Blockieren von GPTBot keine Garantie dafür, dass die Daten einer Website letztendlich nicht alle KI-Modelle der Zukunft trainieren. Abgesehen von Problemen, bei denen Scraper robots.txt-Dateien ignorieren, gibt es andere große Datensätze von Scraping-Websites (wie The Pile ), die nicht mit OpenAI verbunden sind. Diese Datensätze werden häufig zum Trainieren von Open-Source-LLMs (oder quellverfügbaren LLMs) wie Metas Llama 2 verwendet .
Einige Seiten reagieren mit Eile
Während ChatGPT aus technischer Sicht äußerst erfolgreich war, war es auch umstritten , weil es ohne Erlaubnis urheberrechtlich geschützte Daten scrapfte und diesen Wert in einem kommerziellen Produkt konzentrierte, das das typische Online-Veröffentlichungsmodell umgeht . OpenAI wurde in diesem Sinne Plagiat vorgeworfen (und verklagt ).
Dementsprechend ist es nicht verwunderlich, dass einige Leute mit einer Art aufgestauten Genuß auf die Nachricht reagieren, dass sie ihre Inhalte möglicherweise für zukünftige GPT-Modelle blockieren können . Beispielsweise stellte VentureBeat am Dienstag fest , dass The Verge , Substack-Autor Casey Newton und Neil Clarke von Clarkesworld alle sagten, sie würden GPTBot blockieren, kurz nachdem die Nachricht über den Bot bekannt wurde.
Für große Website-Betreiber ist die Entscheidung, LLM-Crawler (Large Language Model) zu blockieren, jedoch nicht so einfach, wie es scheint. Wenn man einige LLMs für bestimmte Website-Daten blind macht, entstehen Wissenslücken, die einigen Websites sehr nützlich sein könnten (z. B. Websites, die keine Besucher verlieren möchten, wenn ChatGPT ihre Informationen für sie bereitstellt), aber es kann auch anderen schaden. Beispielsweise könnte das Blockieren von Inhalten künftiger KI-Modelle den kulturellen Fußabdruck einer Website oder einer Marke verringern, wenn KI-Chatbots in Zukunft zu einer primären Benutzeroberfläche werden. Stellen Sie sich als Gedankenexperiment vor, dass ein Online-Unternehmen im Jahr 2002 erklärte, es wolle nicht, dass seine Website von Google indexiert werde – ein selbstzerstörerischer Schritt, da dies der beliebteste Einstieg in die Online-Suche nach Informationen war.
Es ist noch am Anfang des generativen KI-Spiels, und egal, welchen Weg die Technologie einschlägt – oder welche einzelnen Websites versuchen, sich vom KI-Modelltraining abzumelden – OpenAI bietet zumindest die Option.
Schreibe einen Kommentar