New York Times förbjuder AI-leverantörer att skrapa dess innehåll utan tillstånd
I början av augusti uppdaterade The New York Times sina användarvillkor (TOS) för att förbjuda att skrapa sina artiklar och bilder för AI-träning, rapporterar Adweek. Flytten kommer vid en tidpunkt då teknikföretag har fortsatt att tjäna pengar på AI-språkappar som ChatGPT och Google Bard , som fick sina möjligheter genom massiva otillåtna skrapor av internetdata.
De nya villkoren förbjuder användning av Times-innehåll – som inkluderar artiklar, videor, bilder och metadata – för att träna någon AI-modell utan uttryckligt skriftligt tillstånd. I avsnitt 2.1 i TOS säger NYT att dess innehåll är avsett för läsarens ”personliga, icke-kommersiell användning” och att icke-kommersiell användning inte inkluderar ”utveckling av något program, inklusive, men inte begränsat till, utbildning ett system för maskininlärning eller artificiell intelligens (AI).”
Längre ner, i avsnitt 4.1, säger villkoren att utan NYT:s skriftliga medgivande i förväg, får ingen ”använda innehållet för utveckling av något program, inklusive, men inte begränsat till, utbildning av ett maskininlärnings- eller artificiell intelligens (AI)-system .”
NYT beskriver också konsekvenserna av att ignorera begränsningarna: ”Att delta i en förbjuden användning av tjänsterna kan resultera i civilrättsliga, straffrättsliga och/eller administrativa påföljder, böter eller sanktioner mot användaren och de som hjälper användaren.”
Hur hotfullt det än låter, restriktiva användarvillkor har inte tidigare stoppat slukningen av Internet i maskininlärningsdatauppsättningar. Alla stora språkmodeller som finns tillgängliga idag – inklusive OpenAIs GPT-4 , Anthropics Claude 2 , Metas Llama 2 och Googles PaLM 2 – har tränats på stora datamängder av material som skrapats från Internet. Genom att använda en process som kallas oövervakad inlärning matades webbdatan in i neurala nätverk, vilket gjorde det möjligt för AI-modeller att få en begreppsmässig känsla av språk genom att analysera relationerna mellan ord.
Den kontroversiella karaktären av att använda skrapad data för att träna AI-modeller, som inte har lösts helt i amerikanska domstolar, har lett till åtminstone en rättegång som anklagar OpenAI för plagiat på grund av praktiken. Förra veckan publicerade Associated Press och flera andra nyhetsorganisationer ett öppet brev där de sa att ”en rättslig ram måste utvecklas för att skydda innehållet som driver AI-applikationer”, bland annat.
OpenAI förutser sannolikt fortsatta juridiska utmaningar framöver och har börjat göra drag som kan vara utformade för att komma före en del av denna kritik. Till exempel beskrev OpenAI nyligen en metod som webbplatser kan använda för att blockera sin AI-träningswebbsökare med hjälp av robots.txt. Detta ledde till att flera webbplatser och författare offentligt uppgav att de skulle blockera sökroboten.
För nu är det som redan har skrapats in i GPT-4, inklusive New York Times-innehåll. Vi kan behöva vänta tills GPT-5 för att se om OpenAI eller andra AI-leverantörer respekterar innehållsägares önskemål om att lämnas utanför. Om inte, kan nya AI-processer – eller regler – vara i horisonten.
Lämna ett svar