The New York Times забороняє постачальникам штучного інтелекту копіювати її вміст без дозволу
На початку серпня The New York Times оновила свої умови обслуговування (TOS), щоб заборонити копіювання своїх статей і зображень для навчання ШІ, повідомляє Adweek. Цей крок відбувається в той час, коли технологічні компанії продовжують монетизувати програми мови штучного інтелекту, такі як ChatGPT і Google Bard , які отримали свої можливості завдяки масовому несанкціонованому збиранню Інтернет-даних.
Нові умови забороняють використовувати вміст Times, який включає статті, відео, зображення та метадані, для навчання будь-якої моделі штучного інтелекту без прямого письмового дозволу. У Розділі 2.1 TOS NYT стверджує, що його вміст призначено для «особистого, некомерційного використання» читачем і що некомерційне використання не включає «розробку будь-якої програми програмного забезпечення, включаючи, але не обмежуючись, навчання система машинного навчання або штучного інтелекту (AI)».
Далі, у розділі 4.1, умови стверджують, що без попередньої письмової згоди NYT ніхто не може «використовувати Вміст для розробки будь-якої програми, включаючи, але не обмежуючись, навчання системи машинного навчання або штучного інтелекту (ШІ). .”
NYT також описує наслідки ігнорування обмежень: «Участь у забороненому використанні Сервісів може призвести до цивільних, кримінальних та/або адміністративних покарань, штрафів або санкцій проти користувача та тих, хто йому допомагає».
Як би загрозливо це не звучало, обмежувальні умови використання раніше не зупиняли повне поглинання Інтернету наборами даних машинного навчання. Кожна велика мовна модель, доступна сьогодні, включно з GPT-4 від OpenAI , Claude 2 від Anthropic , Llama 2 від Meta та PaLM 2 від Google , була навчена на великих наборах даних матеріалів, взятих з Інтернету. Використовуючи процес під назвою «навчання без нагляду» , веб-дані подавалися в нейронні мережі, що дозволяло моделям штучного інтелекту отримати концептуальне відчуття мови, аналізуючи зв’язки між словами.
Суперечлива природа використання зібраних даних для навчання моделей ШІ, яка не була повністю вирішена в судах США, призвела до принаймні одного судового процесу , який звинувачує OpenAI у плагіаті через цю практику. Минулого тижня Associated Press та кілька інших інформаційних організацій опублікували відкритого листа , в якому говорилося, що «необхідно розробити законодавчу базу для захисту контенту, на якому працюють програми штучного інтелекту».
OpenAI, ймовірно, очікує продовження юридичних проблем і почав робити кроки, які можуть бути розроблені, щоб випередити частину цієї критики. Наприклад, OpenAI нещодавно описав метод , який веб-сайти можуть використовувати для блокування веб-сканера, який навчає ШІ, за допомогою robots.txt. Це призвело до того, що кілька сайтів і авторів публічно заявили, що заблокують сканер.
Наразі те, що вже було зібрано, запікається в GPT-4, включаючи вміст New York Times. Можливо, нам доведеться почекати до GPT-5, щоб побачити, чи OpenAI чи інші постачальники штучного інтелекту поважають бажання власників вмісту бути ігнорованими. Якщо ні, то на горизонті можуть з’явитися нові судові позови щодо штучного інтелекту або нормативні акти.
Залишити відповідь