Die New York Times verbietet KI-Anbietern das Scrapen ihrer Inhalte ohne Erlaubnis

Die New York Times verbietet KI-Anbietern das Scrapen ihrer Inhalte ohne Erlaubnis

Anfang August aktualisierte die New York Times ihre Nutzungsbedingungen (TOS), um das Scraping ihrer Artikel und Bilder für KI-Schulungen zu verbieten, berichtet Adweek. Der Schritt erfolgt zu einer Zeit, in der Technologieunternehmen weiterhin KI-Sprach-Apps wie ChatGPT und Google Bard monetarisieren , deren Fähigkeiten durch massives unbefugtes Abgreifen von Internetdaten erlangt wurden.

Die neuen Bedingungen verbieten die Verwendung von Times-Inhalten – darunter Artikel, Videos, Bilder und Metadaten – zum Trainieren von KI-Modellen ohne ausdrückliche schriftliche Genehmigung. In Abschnitt 2.1 der AGB sagt die NYT, dass ihr Inhalt für den „persönlichen, nichtkommerziellen Gebrauch“ des Lesers bestimmt ist und dass die nichtkommerzielle Nutzung nicht „die Entwicklung von Softwareprogrammen, einschließlich, aber nicht beschränkt auf Schulungen“, umfasst ein System für maschinelles Lernen oder künstliche Intelligenz (KI).“

Weiter unten, in Abschnitt 4.1, heißt es in den Bedingungen, dass ohne die vorherige schriftliche Zustimmung von NYT niemand „den Inhalt für die Entwicklung eines Softwareprogramms verwenden darf, einschließlich, aber nicht beschränkt auf das Training eines Systems für maschinelles Lernen oder künstliche Intelligenz (KI). .“

NYT erläutert auch die Konsequenzen bei Missachtung der Beschränkungen: „Die Beteiligung an einer verbotenen Nutzung der Dienste kann zu zivil-, strafrechtlichen und/oder verwaltungsrechtlichen Strafen, Bußgeldern oder Sanktionen gegen den Benutzer und diejenigen, die den Benutzer unterstützen, führen.“

So bedrohlich das auch klingen mag, restriktive Nutzungsbedingungen haben bisher nicht verhindert, dass das Internet massenhaft in Datensätze für maschinelles Lernen verschwendet wird. Jedes heute verfügbare große Sprachmodell – einschließlich GPT-4 von OpenAI, Claude 2 von Anthropic , Llama 2 von Meta und PaLM 2 von Google – wurde auf großen Datensätzen von Materialien trainiert, die aus dem Internet stammen. Mithilfe eines Prozesses namens „unüberwachtes Lernen“ wurden die Webdaten in neuronale Netze eingespeist, wodurch KI-Modelle durch die Analyse der Beziehungen zwischen Wörtern ein konzeptionelles Verständnis der Sprache erlangen konnten.

Der umstrittene Charakter der Verwendung von Scraped-Daten zum Trainieren von KI-Modellen, der vor US-Gerichten nicht vollständig geklärt wurde, hat zu mindestens einer Klage geführt, in der OpenAI aufgrund dieser Praxis Plagiate vorgeworfen werden. Letzte Woche veröffentlichten Associated Press und mehrere andere Nachrichtenorganisationen unter anderem einen offenen Brief, in dem sie sagten, dass „ein rechtlicher Rahmen entwickelt werden muss, um die Inhalte zu schützen, die KI-Anwendungen antreiben“.

OpenAI rechnet wahrscheinlich mit anhaltenden rechtlichen Herausforderungen und hat begonnen, Maßnahmen zu ergreifen, um dieser Kritik einen Schritt voraus zu sein. OpenAI hat beispielsweise kürzlich eine Methode detailliert beschrieben , mit der Websites ihren KI-Trainings-Webcrawler mithilfe von robots.txt blockieren können. Dies führte dazu, dass mehrere Websites und Autoren öffentlich erklärten, sie würden den Crawler blockieren.

Vorerst wird das, was bereits gecrackt wurde, in GPT-4 eingebrannt, einschließlich der Inhalte der New York Times. Wir müssen möglicherweise bis GPT-5 warten, um zu sehen, ob OpenAI oder andere KI-Anbieter den Wunsch der Inhaltseigentümer respektieren, ausgeschlossen zu werden. Wenn nicht, könnten neue KI-Klagen – oder Vorschriften – in Sicht sein.

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert