Il New York Times vieta ai fornitori di intelligenza artificiale di raschiare il suo contenuto senza autorizzazione

Il New York Times vieta ai fornitori di intelligenza artificiale di raschiare il suo contenuto senza autorizzazione

All’inizio di agosto, il New York Times ha aggiornato i suoi termini di servizio (TOS) per vietare lo scraping di articoli e immagini per la formazione sull’IA, riporta Adweek. La mossa arriva in un momento in cui le aziende tecnologiche hanno continuato a monetizzare app in lingua AI come ChatGPT e Google Bard , che hanno acquisito le loro capacità attraverso massicci scraping non autorizzati di dati Internet.

I nuovi termini vietano l’uso dei contenuti del Times, che includono articoli, video, immagini e metadati, per l’addestramento di qualsiasi modello di intelligenza artificiale senza espressa autorizzazione scritta. Nella sezione 2.1 dei TOS, il NYT afferma che il suo contenuto è per “uso personale e non commerciale” del lettore e che l’uso non commerciale non include “lo sviluppo di qualsiasi programma software, incluso, ma non limitato a, formazione un sistema di apprendimento automatico o di intelligenza artificiale (AI).

Più in basso, nella sezione 4.1, i termini affermano che senza il previo consenso scritto del NYT, nessuno può “utilizzare il Contenuto per lo sviluppo di qualsiasi programma software, incluso, ma non limitato a, l’addestramento di un sistema di apprendimento automatico o di intelligenza artificiale (AI) .”

Il NYT sottolinea anche le conseguenze dell’ignorare le restrizioni: “L’uso proibito dei Servizi può comportare sanzioni civili, penali e/o amministrative, multe o sanzioni contro l’utente e coloro che lo assistono”.

Per quanto minaccioso possa sembrare, i termini d’uso restrittivi non hanno mai fermato l’ingorgo all’ingrosso di Internet nei set di dati di machine learning. Ogni modello di linguaggio di grandi dimensioni disponibile oggi, inclusi GPT-4 di OpenAI, Claude 2 di Anthropic , Llama 2 di Meta e PaLM 2 di Google , è stato addestrato su grandi set di dati di materiali estratti da Internet. Utilizzando un processo chiamato apprendimento non supervisionato , i dati web sono stati inseriti nelle reti neurali, consentendo ai modelli di intelligenza artificiale di acquisire un senso concettuale del linguaggio analizzando le relazioni tra le parole.

La natura controversa dell’utilizzo di dati raschiati per addestrare modelli di intelligenza artificiale, che non è stata completamente risolta nei tribunali statunitensi, ha portato ad almeno una causa che accusa OpenAI di plagio a causa della pratica. La scorsa settimana, l’Associated Press e diverse altre testate giornalistiche hanno pubblicato una lettera aperta affermando che “deve essere sviluppato un quadro giuridico per proteggere il contenuto che alimenta le applicazioni di intelligenza artificiale”, tra le altre preoccupazioni.

Probabilmente OpenAI anticipa le continue sfide legali e ha iniziato a fare mosse che potrebbero essere progettate per anticipare alcune di queste critiche. Ad esempio, OpenAI ha recentemente dettagliato un metodo che i siti Web potrebbero utilizzare per bloccare il suo web crawler di addestramento AI utilizzando robots.txt. Ciò ha portato diversi siti e autori a dichiarare pubblicamente che avrebbero bloccato il crawler.

Per ora, ciò che è già stato raschiato viene inserito in GPT-4, inclusi i contenuti del New York Times. Potremmo dover aspettare fino a GPT-5 per vedere se OpenAI o altri fornitori di intelligenza artificiale rispettano i desideri dei proprietari di contenuti di essere esclusi. In caso contrario, potrebbero essere all’orizzonte nuove cause legali o regolamenti sull’IA.


Warning: Undefined variable $html_req in /var/www/vhosts/4pmtech.com/httpdocs/wp-content/themes/fourpmtech/comments.php on line 79

Warning: Undefined variable $html5 in /var/www/vhosts/4pmtech.com/httpdocs/wp-content/themes/fourpmtech/comments.php on line 82

Warning: Undefined variable $html_req in /var/www/vhosts/4pmtech.com/httpdocs/wp-content/themes/fourpmtech/comments.php on line 82

Warning: Undefined variable $consent in /var/www/vhosts/4pmtech.com/httpdocs/wp-content/themes/fourpmtech/comments.php on line 86

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *


Warning: Undefined array key "url" in /var/www/vhosts/4pmtech.com/httpdocs/wp-content/themes/fourpmtech/inc/template-functions.php on line 315