指令出現後,網站爭先恐後地阻止 ChatGPT 網絡爬蟲
OpenAI 最近在其在線文檔網站中添加了有關其網絡爬蟲GPTBot的詳細信息,但並未發佈公告。GPTBot 是該公司用來檢索網頁以訓練ChatGPT背後的 AI 模型的用戶代理的名稱,例如GPT-4。本週早些時候,一些網站迅速宣布打算阻止 GPTBot 訪問其內容。
在新文檔中,OpenAI 表示,使用GPTBot 抓取的網頁“可能會用於改進未來的模型”,並且允許GPTBot 訪問您的網站“可以幫助AI 模型變得更加準確,並提高其總體功能和安全性。”
OpenAI 聲稱它已經實施了過濾器,確保付費牆背後的來源、收集個人身份信息的來源或任何違反 OpenAI 政策的內容不會被 GPTBot 訪問。
能夠潛在阻止 OpenAI 訓練抓取的消息(如果他們尊重的話)來得太晚了,無法影響 ChatGPT 或 GPT-4 當前的訓練數據,這些數據幾年前就在沒有宣布的情況下被抓取了。OpenAI 收集了截至 2021 年 9 月的數據,這是 OpenAI 語言模型當前的“知識”截止點。
值得注意的是,新指令可能不會阻止網絡瀏覽版本的 ChatGPT 或ChatGPT 插件訪問當前網站以向用戶轉發最新信息。文檔中沒有詳細說明這一點,我們聯繫 OpenAI 尋求澄清。
答案就在 robots.txt 中
根據 OpenAI 的文檔,GPTBot 將通過用戶代理令牌“GPTBot”進行識別,其完整字符串為“Mozilla/5.0 AppleWebKit/537.36(KHTML,如Gecko;兼容;GPTBot/1.0;+https://openai.com ) /gptbot)”。
OpenAI 文檔還提供了有關如何使用行業標準robots.txt文件阻止 GPTBot 抓取網站的說明,該文件是一個文本文件,位於網站的根目錄下,並指示網絡爬蟲(例如搜索引擎使用的爬蟲) )不索引該網站。
只需將這兩行添加到站點的 robots.txt 文件中即可:
User-agent: GPTBot
Disallow: /
OpenAI 還表示,管理員可以使用不同的令牌在 robots.txt 中限制 GPTBot 訪問網站的某些部分:
User-agent: GPTBot
Allow: /directory-1/
Disallow: /directory-2/
此外,OpenAI 還提供了GPTBot 將運行的特定 IP 地址塊,這些地址塊也可能被防火牆阻止。
儘管有這個選項,阻止 GPTBot 並不能保證站點的數據最終不會訓練未來的所有人工智能模型。除了抓取工具忽略 robots.txt 文件的問題之外,還有其他不隸屬於 OpenAI 的大型網站抓取數據集(例如The Pile )。這些數據集通常用於訓練開源(或可用源)LLM,例如 Meta 的Llama 2。
一些網站反應倉促
雖然從技術角度來看非常成功,但 ChatGPT 也因未經許可抓取受版權保護的數據並將該價值集中到規避典型在線出版模式的商業產品中而受到爭議。OpenAI 已被指控(並被起訴)類似的剽竊行為。
因此,看到一些人對能夠從未來的 GPT 模型中屏蔽其內容的消息做出反應,並懷著一種壓抑已久的興趣,也就不足為奇了。例如,週二,VentureBeat指出,The Verge、Substack 作家Casey Newton和Clarkesworld 的Neil Clarke都表示,在 GPTBot 的消息傳出後,他們將很快屏蔽該機器人。
但對於大型網站運營商來說,選擇阻止大型語言模型 (LLM) 爬蟲並不像看起來那麼容易。讓一些法學碩士對某些網站數據視而不見,會留下知識空白,而這些知識可以很好地服務於某些網站(例如,如果ChatGPT 為他們提供信息,這些網站就不想失去訪問者),但也可能會傷害其他網站。例如,如果人工智能聊天機器人成為未來的主要用戶界面,則阻止未來人工智能模型的內容可能會減少網站或品牌的文化足跡。作為一個思想實驗,想像一家在線企業在 2002 年宣布它不希望其網站被 Google 索引——這是一個弄巧成拙的舉動,當時 Google 是最流行的在線查找信息入口。
生成式 AI 遊戲還處於早期階段,無論技術朝哪個方向發展,或者哪個站點試圖選擇退出 AI 模型訓練,至少 OpenAI 都提供了這種選擇。
發佈留言