《紐約時報》禁止人工智能供應商未經許可抓取其內容
據Adweek報導,8 月初,《紐約時報》更新了服務條款 (TOS),禁止抓取其文章和圖像用於人工智能訓練。此舉發生之際,科技公司繼續通過ChatGPT和Google Bard等人工智能語言應用程序獲利,這些應用程序通過大量未經授權的互聯網數據抓取來獲得其功能。
新條款禁止在未經明確書面許可的情況下使用《紐約時報》內容(包括文章、視頻、圖像和元數據)來訓練任何人工智能模型。《紐約時報》在 TOS 第 2.1 條中表示,其內容僅供讀者“個人、非商業用途”,並且非商業用途不包括“任何軟件程序的開發,包括但不限於培訓機器學習或人工智能(AI )系統。”
再往下,在第4.1 節中,條款規定,未經《紐約時報》事先書面同意,任何人都不得“將內容用於開發任何軟件程序,包括但不限於訓練機器學習或人工智能(AI)系統” ”。
《紐約時報》還概述了忽視這些限制的後果:“參與禁止使用服務可能會導致對用戶和協助用戶的人員進行民事、刑事和/或行政處罰、罰款或製裁。”
儘管這聽起來很危險,但限制性使用條款此前並沒有阻止互聯網對機器學習數據集的大規模吞噬。目前可用的每種大型語言模型(包括 OpenAI 的GPT-4、Anthropic 的Claude 2、Meta 的Llama 2和 Google 的PaLM 2)都經過了從互聯網上抓取的大型數據集的訓練。使用一種稱為無監督學習的過程,將網絡數據輸入神經網絡,使人工智能模型能夠通過分析單詞之間的關係來獲得語言的概念感。
使用抓取的數據來訓練人工智能模型的爭議性質尚未在美國法院得到完全解決,已導致至少一起訴訟指控 OpenAI 因這種做法抄襲。上週,美聯社和其他幾家新聞機構發表了一封公開信,表示“必須制定一個法律框架來保護人工智能應用程序的內容”,以及其他一些擔憂。
OpenAI 可能預計未來將面臨持續的法律挑戰,並已開始採取行動,以應對一些批評。例如,OpenAI 最近詳細介紹了一種方法,網站可以使用 robots.txt 來阻止其人工智能訓練網絡爬蟲。這導致一些網站和作者公開表示他們將阻止該爬蟲。
目前,已經被刪除的內容已被納入 GPT-4,其中包括《紐約時報》的內容。我們可能要等到 GPT-5 才能看到 OpenAI 或其他 AI 供應商是否尊重內容所有者被排除在外的意願。如果不是,新的人工智能訴訟或法規可能即將出現。
發佈留言