New York Times forbyder AI-leverandører at skrabe dets indhold uden tilladelse

New York Times forbyder AI-leverandører at skrabe dets indhold uden tilladelse

I begyndelsen af ​​august opdaterede The New York Times sine servicevilkår (TOS) for at forbyde at skrabe sine artikler og billeder til AI-træning, rapporterer Adweek. Bevægelsen kommer på et tidspunkt, hvor teknologivirksomheder er fortsat med at tjene penge på AI-sprog-apps som ChatGPT og Google Bard , som fik deres muligheder gennem massive uautoriserede skraber af internetdata.

De nye vilkår forbyder brugen af ​​Times-indhold – som inkluderer artikler, videoer, billeder og metadata – til træning af enhver AI-model uden udtrykkelig skriftlig tilladelse. I afsnit 2.1 i TOS siger NYT, at dets indhold er til læserens “personlige, ikke-kommercielle brug”, og at ikke-kommerciel brug ikke omfatter “udvikling af noget softwareprogram, herunder, men ikke begrænset til, træning et system for maskinlæring eller kunstig intelligens (AI).”

Længere nede, i afsnit 4.1, siger vilkårene, at uden NYT’s forudgående skriftlige samtykke, må ingen “bruge Indholdet til udvikling af noget softwareprogram, herunder, men ikke begrænset til, træning af et maskinlærings- eller kunstig intelligens-system (AI). .”

NYT skitserer også konsekvenserne af at ignorere begrænsningerne: “At engagere sig i en forbudt brug af tjenesterne kan resultere i civile, strafferetlige og/eller administrative sanktioner, bøder eller sanktioner mod brugeren og dem, der hjælper brugeren.”

Hvor truende det end lyder, så har restriktive brugsvilkår ikke tidligere stoppet engrossalget af internettet til maskinlæringsdatasæt. Alle store sprogmodeller, der er tilgængelige i dag – inklusive OpenAIs GPT-4 , Anthropics Claude 2 , Metas Llama 2 og Googles PaLM 2 – er blevet trænet i store datasæt af materialer skrabet fra internettet. Ved at bruge en proces kaldet uovervåget læring blev webdataene ført ind i neurale netværk, hvilket gjorde det muligt for AI-modeller at opnå en begrebsmæssig fornemmelse af sprog ved at analysere relationerne mellem ord.

Den kontroversielle karakter af at bruge skrabet data til at træne AI-modeller, som ikke er blevet fuldstændig løst i amerikanske domstole, har ført til mindst én retssag , der beskylder OpenAI for plagiat på grund af praksis. I sidste uge offentliggjorde Associated Press og flere andre nyhedsorganisationer et åbent brev, hvori de sagde, at “der skal udvikles en juridisk ramme for at beskytte det indhold, der driver AI-applikationer,” blandt andre bekymringer.

OpenAI forventer sandsynligvis fortsatte juridiske udfordringer forude og er begyndt at tage skridt, der kan være designet til at komme foran noget af denne kritik. For eksempel har OpenAI for nylig beskrevet en metode , som websteder kunne bruge til at blokere sin AI-træningswebcrawler ved hjælp af robots.txt. Dette førte til, at flere websteder og forfattere offentligt sagde, at de ville blokere crawleren.

For nu er det, der allerede er blevet skrabet, bagt ind i GPT-4, inklusive New York Times-indhold. Vi skal muligvis vente til GPT-5 for at se, om OpenAI eller andre AI-leverandører respekterer indholdsejeres ønsker om at blive udeladt. Hvis ikke, kan nye AI-retssager – eller regler – være i horisonten.

Skriv et svar

Din e-mailadresse vil ikke blive publiceret. Krævede felter er markeret med *