Le New York Times interdit aux fournisseurs d’IA de gratter son contenu sans autorisation
Début août, le New York Times a mis à jour ses conditions d’utilisation (TOS) pour interdire le grattage de ses articles et images pour la formation à l’IA, rapporte Adweek. Cette décision intervient à un moment où les entreprises technologiques ont continué à monétiser les applications de langage d’IA telles que ChatGPT et Google Bard , qui ont acquis leurs capacités grâce à des éraflures massives non autorisées de données Internet.
Les nouvelles conditions interdisent l’utilisation du contenu du Times, qui comprend des articles, des vidéos, des images et des métadonnées, pour former tout modèle d’IA sans autorisation écrite expresse. Dans la section 2.1 des CGU, le NYT indique que son contenu est destiné à « l’usage personnel et non commercial » du lecteur et que l’utilisation non commerciale n’inclut pas « le développement de tout programme logiciel, y compris, mais sans s’y limiter, la formation un système d’apprentissage automatique ou d’intelligence artificielle (IA).
Plus bas, dans la section 4.1, les conditions stipulent que sans le consentement écrit préalable du NYT, personne ne peut « utiliser le contenu pour le développement de tout programme logiciel, y compris, mais sans s’y limiter, la formation d’un système d’apprentissage automatique ou d’intelligence artificielle (IA). .”
Le NYT décrit également les conséquences du non-respect des restrictions : « S’engager dans une utilisation interdite des Services peut entraîner des sanctions, des amendes ou des sanctions civiles, pénales et/ou administratives à l’encontre de l’utilisateur et de ceux qui l’aident ».
Aussi menaçant que cela puisse paraître, les conditions d’utilisation restrictives n’ont pas encore arrêté le gouffre en gros d’Internet dans les ensembles de données d’apprentissage automatique. Tous les grands modèles de langage disponibles aujourd’hui, y compris GPT-4 d’OpenAI, Claude 2 d’Anthropic , Llama 2 de Meta et PaLM 2 de Google , ont été entraînés sur de grands ensembles de données provenant d’Internet. À l’aide d’un processus appelé apprentissage non supervisé , les données Web ont été introduites dans des réseaux de neurones, permettant aux modèles d’IA d’acquérir un sens conceptuel du langage en analysant les relations entre les mots.
La nature controversée de l’utilisation de données récupérées pour former des modèles d’IA, qui n’a pas été entièrement résolue par les tribunaux américains, a conduit à au moins un procès qui accuse OpenAI de plagiat en raison de cette pratique. La semaine dernière, l’Associated Press et plusieurs autres organes de presse ont publié une lettre ouverte disant qu' »un cadre juridique doit être développé pour protéger le contenu qui alimente les applications d’IA », entre autres préoccupations.
OpenAI anticipe probablement la poursuite des défis juridiques à venir et a commencé à prendre des mesures qui pourraient être conçues pour devancer certaines de ces critiques. Par exemple, OpenAI a récemment détaillé une méthode que les sites Web pourraient utiliser pour bloquer son robot d’exploration Web de formation à l’IA à l’aide de robots.txt. Cela a conduit plusieurs sites et auteurs à déclarer publiquement qu’ils bloqueraient le robot.
Pour l’instant, ce qui a déjà été récupéré est intégré au GPT-4, y compris le contenu du New York Times. Nous devrons peut-être attendre le GPT-5 pour voir si OpenAI ou d’autres fournisseurs d’IA respectent le souhait des propriétaires de contenu d’être laissés de côté. Si ce n’est pas le cas, de nouvelles poursuites ou réglementations en matière d’IA pourraient être à l’horizon.
Laisser un commentaire