The New York Times запрещает поставщикам искусственного интеллекта очищать свой контент без разрешения

В начале августа The New York Times обновила свои условия обслуживания (TOS), чтобы запретить парсинг своих статей и изображений для обучения ИИ, сообщает Adweek. Этот шаг произошел в то время, когда технологические компании продолжали монетизировать языковые приложения ИИ, такие как ChatGPT и Google Bard , которые получили свои возможности благодаря массовым несанкционированным извлечениям данных из Интернета.

Новые условия запрещают использование контента Times, включая статьи, видео, изображения и метаданные, для обучения любой модели ИИ без письменного разрешения. В разделе 2.1 TOS NYT говорит, что его содержание предназначено для «личного, некоммерческого использования» читателем и что некоммерческое использование не включает «разработку любого программного обеспечения, включая, помимо прочего, обучение система машинного обучения или искусственного интеллекта (ИИ)».

Далее в разделе 4.1 условия гласят, что без предварительного письменного согласия NYT никто не может «использовать Контент для разработки любой программы, включая, помимо прочего, обучение системы машинного обучения или искусственного интеллекта (ИИ). ».

NYT также описывает последствия игнорирования ограничений: «Участие в запрещенном использовании Услуг может привести к гражданским, уголовным и/или административным санкциям, штрафам или санкциям против пользователя и тех, кто помогает ему».

Как бы угрожающе это ни звучало, ограничительные условия использования ранее не останавливали массовое поглощение Интернета наборами данных машинного обучения. Все крупные языковые модели, доступные сегодня, в том числе GPT-4 от OpenAI , Claude 2 от Anthropic , Llama 2 от Meta и PaLM 2 от Google , были обучены на больших наборах данных материалов, извлеченных из Интернета. Используя процесс, называемый неконтролируемым обучением , веб-данные были переданы в нейронные сети, что позволило моделям ИИ получить концептуальное понимание языка путем анализа отношений между словами.

Спорный характер использования очищенных данных для обучения моделей ИИ, который не был полностью решен в судах США, привел как минимум к одному судебному иску , в котором OpenAI обвиняется в плагиате из-за этой практики. На прошлой неделе Associated Press и несколько других новостных организаций опубликовали открытое письмо , в котором говорилось, что «необходимо разработать правовую базу для защиты контента, на котором работают приложения ИИ», среди прочего.

OpenAI, вероятно, предвидит дальнейшие юридические проблемы и начал предпринимать шаги, которые могут быть направлены на то, чтобы опередить часть этой критики. Например, OpenAI недавно подробно описал метод , который веб-сайты могут использовать для блокировки своего веб-краулера, обучающего ИИ, с помощью robots.txt. Это привело к тому, что несколько сайтов и авторов публично заявили, что заблокируют поисковый робот.

На данный момент то, что уже было очищено, запекается в GPT-4, включая контент New York Times. Возможно, нам придется подождать до GPT-5, чтобы увидеть, уважают ли OpenAI или другие поставщики ИИ желание владельцев контента остаться в стороне. Если нет, то на горизонте могут появиться новые судебные иски или постановления об искусственном интеллекте.

Добавить комментарий Отменить ответ