De New York Times verbiedt AI-leveranciers om de inhoud zonder toestemming te schrapen

De New York Times verbiedt AI-leveranciers om de inhoud zonder toestemming te schrapen

Begin augustus heeft The New York Times zijn servicevoorwaarden (TOS) bijgewerkt om het schrapen van zijn artikelen en afbeeldingen voor AI-training te verbieden, meldt Adweek. De verhuizing komt op een moment dat technologiebedrijven geld blijven verdienen met AI-taal-apps zoals ChatGPT en Google Bard , die hun mogelijkheden hebben verworven door massale ongeautoriseerde scraps van internetgegevens.

De nieuwe voorwaarden verbieden het gebruik van Times-content, waaronder artikelen, video’s, afbeeldingen en metadata, voor het trainen van een AI-model zonder uitdrukkelijke schriftelijke toestemming. In Sectie 2.1 van de TOS zegt de NYT dat de inhoud ervan bedoeld is voor “persoonlijk, niet-commercieel gebruik” van de lezer en dat niet-commercieel gebruik niet omvat “de ontwikkeling van een softwareprogramma, met inbegrip van, maar niet beperkt tot, training een machine learning of kunstmatige intelligentie (AI) systeem.”

Verderop, in sectie 4.1, zeggen de voorwaarden dat niemand zonder voorafgaande schriftelijke toestemming van NYT “de inhoud mag gebruiken voor de ontwikkeling van een softwareprogramma, inclusief maar niet beperkt tot het trainen van een machine learning- of kunstmatige intelligentie (AI)-systeem .”

NYT schetst ook de gevolgen voor het negeren van de beperkingen: “Het deelnemen aan een verboden gebruik van de Services kan leiden tot civielrechtelijke, strafrechtelijke en/of administratieve straffen, boetes of sancties tegen de gebruiker en degenen die de gebruiker helpen.”

Hoe bedreigend dat ook klinkt, restrictieve gebruiksvoorwaarden hebben niet eerder een einde gemaakt aan de massale opsloktheid van het internet in datasets voor machine learning. Elk groot taalmodel dat tegenwoordig beschikbaar is – inclusief OpenAI’s GPT-4 , Anthropic’s Claude 2 , Meta’s Llama 2 en Google’s PaLM 2 – is getraind op grote datasets van materiaal dat van internet is gehaald. Met behulp van een proces dat unsupervised learning wordt genoemd , werden de webgegevens ingevoerd in neurale netwerken, waardoor AI-modellen een conceptueel gevoel voor taal konden krijgen door de relaties tussen woorden te analyseren.

De controversiële aard van het gebruik van geschraapte gegevens om AI-modellen te trainen, die niet volledig is opgelost in Amerikaanse rechtbanken, heeft geleid tot ten minste één rechtszaak die OpenAI beschuldigt van plagiaat vanwege de praktijk. Vorige week publiceerden de Associated Press en verschillende andere nieuwsorganisaties een open brief waarin ze zeiden dat “er een wettelijk kader moet worden ontwikkeld om de inhoud die AI-toepassingen mogelijk maakt” te beschermen.

OpenAI anticipeert waarschijnlijk op aanhoudende juridische uitdagingen en is begonnen met het maken van stappen die mogelijk zijn ontworpen om een ​​deel van deze kritiek voor te zijn. Zo heeft OpenAI onlangs een methode beschreven die websites kunnen gebruiken om hun AI-trainingswebcrawler te blokkeren met behulp van robots.txt. Dit leidde ertoe dat verschillende sites en auteurs publiekelijk verklaarden dat ze de crawler zouden blokkeren.

Voorlopig wordt wat al is geschraapt, ingebakken in GPT-4, inclusief inhoud van de New York Times. Het kan zijn dat we moeten wachten tot GPT-5 om te zien of OpenAI of andere AI-leveranciers de wensen van contenteigenaren respecteren om buitengesloten te worden. Als dat niet het geval is, kunnen er nieuwe AI-rechtszaken of -regelgeving in het verschiet liggen.

Geef een reactie

Het e-mailadres wordt niet gepubliceerd. Vereiste velden zijn gemarkeerd met *