指示が出ると、サイトは ChatGPT Web クローラーをブロックしようと慌てる

指示が出ると、サイトは ChatGPT Web クローラーをブロックしようと慌てる

発表はありませんでしたが、OpenAI は最近、Web クローラーGPTBotに関する詳細をオンライン ドキュメント サイトに追加しました。GPTBot は、同社が Web ページを取得して、 ChatGPT の背後にある AI モデル ( GPT-4など)をトレーニングするために使用するユーザー エージェントの名前です。今週初め、一部のサイトはコンテンツへの GPTBot のアクセスをブロックする意向をすぐに発表しました。

OpenAIは新しいドキュメントの中で、GPTBotでクロールされたWebページは「将来のモデルを改良するために使用される可能性がある」と述べ、GPTBotによるサイトへのアクセスを許可すると「AIモデルの精度が高まり、一般的な機能と安全性が向上する可能性がある」と述べている。

OpenAIは、ペイウォールの背後にあるソース、個人を特定できる情報を収集するソース、またはOpenAIのポリシーに違反するコンテンツにGPTBotがアクセスできないことを保証するフィルターを実装したと主張している。

OpenAI のトレーニング スクレイピングを (彼らが尊重するのであれば) ブロックできる可能性があるというニュースは、何年も前に発表もなくスクレイピングされた ChatGPT や GPT-4 の現在のトレーニング データに影響を与えるには遅すぎます。OpenAI は、OpenAI の言語モデルの現在の「知識」限界である 2021 年 9 月までのデータを収集しました。

新しい手順では、Web ブラウジング バージョンの ChatGPT またはChatGPT プラグインが現在の Web サイトにアクセスして最新の情報をユーザーに伝えることを妨げない可能性があることに注意してください。この点はドキュメントに詳しく説明されていなかったため、OpenAI に説明を求めました。

答えは robots.txt にあります

OpenAI のドキュメントによると、GPTBot はユーザー エージェント トークン「GPTBot」によって識別可能であり、その完全な文字列は「Mozilla/5.0 AppleWebKit/537.36 (Gecko のような KHTML、互換性、GPTBot/1.0、+https://openai.com)」になります。 /gptbot)」。

OpenAI のドキュメントには、業界標準のrobots.txtファイルを使用して GPTBot による Web サイトのクロールをブロックする方法についても記載されています。このファイルは、Web サイトのルート ディレクトリに存在し、Web クローラー (検索エンジンで使用されるものなど) に指示するテキスト ファイルです。 ) サイトのインデックスを作成しません。

次の 2 行をサイトの robots.txt ファイルに追加するのと同じくらい簡単です。

User-agent: GPTBot

Disallow: /

OpenAI は、管理者がさまざまなトークンを使用して robots.txt 内のサイトの特定の部分から GPTBot を制限できるとも述べています。

User-agent: GPTBot

Allow: /directory-1/


Disallow: /directory-2/

さらに、OpenAI はGPTBot が動作する特定の IP アドレス ブロックを提供していますが、これもファイアウォールによってブロックされる可能性があります。

このオプションにもかかわらず、GPTBot をブロックしても、サイトのデータが将来のすべての AI モデルをトレーニングしないという保証はありません。robots.txt ファイルを無視するスクレイパーの問題とは別に、 OpenAI と提携していない、スクレイピングされた Web サイトの大規模なデータ セット ( The Pileなど) が他にもあります。これらのデータ セットは、Meta のLlama 2などのオープン ソース (またはソースが利用可能な) LLM をトレーニングするために一般的に使用されます。

一部のサイトは性急に反応する

ChatGPT は技術的な観点からは大成功を収めましたが、著作権で保護されたデータを許可なくスクレイピングし、その価値を典型的なオンライン出版モデルを回避する商用製品に集中させた方法でも物議を醸しています。OpenAI は、これらの方針に沿った盗作で告発 (および訴訟) されています。

したがって、将来の GPT モデルから自分のコンテンツをブロックできる可能性があるというニュースに、ある種の鬱積した楽しみを持って反応する人がいるのも不思議ではありません。たとえば、火曜日にVentureBeatは、The Verge、SubstackライターのCasey Newton、 ClarkesworldのNeil Clarkeの全員が、ボットのニュースが報道された直後にGPTBotをブロックすると述べたと指摘した。

しかし、大規模な Web サイト運営者にとって、大規模言語モデル (LLM) クローラーをブロックするという選択は、思っているほど簡単ではありません。一部の LLM を特定の Web サイト データに対して盲目にすると、一部のサイト (ChatGPT が情報を提供して訪問者を失いたくないサイトなど) に非常に役立つ可能性のある知識のギャップが残りますが、他のサイトにも損害を与える可能性があります。たとえば、将来 AI チャットボットが主要なユーザー インターフェイスになった場合、将来の AI モデルからのコンテンツをブロックすると、サイトまたはブランドの文化的影響力が減少する可能性があります。思考実験として、2002 年にオンライン ビジネスが自社の Web サイトを Google にインデックス付けされたくないと宣言したことを想像してください。これは、オンラインで情報を見つけるための最も人気のある入り口であった当時、自滅的な行動でした。

生成 AI のゲームはまだ初期段階にあり、テクノロジーがどのような方向に進んでも、または個々のサイトが AI モデルのトレーニングをオプトアウトしようとしても、少なくとも OpenAI はその選択肢を提供しています。

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です