Сайти намагаються заблокувати веб-сканер ChatGPT після появи інструкцій

Сайти намагаються заблокувати веб-сканер ChatGPT після появи інструкцій

OpenAI нещодавно додала подробиці про свій веб-сканер GPTBot на свій веб-сайт онлайн-документації без оголошення. GPTBot — це назва агента користувача, який компанія використовує для отримання веб-сторінок для навчання моделей ШІ, що стоять за ChatGPT , наприклад GPT-4 . Раніше цього тижня деякі сайти швидко оголосили про намір заблокувати доступ GPTBot до свого вмісту.

У новій документації OpenAI стверджує, що веб-сторінки, проскановані за допомогою GPTBot, «потенційно можуть бути використані для покращення майбутніх моделей», і що надання доступу GPTBot до вашого сайту «може допомогти моделям ШІ стати більш точними та покращити їхні загальні можливості та безпеку».

OpenAI стверджує, що реалізував фільтри, які гарантують, що GPTBot не матиме доступу до джерел, що стоять за платними екранами, тих, хто збирає особисту інформацію, або будь-якого вмісту, що порушує політику OpenAI.

Новини про потенційну можливість блокувати навчальні дані OpenAI (якщо вони їх дотримуються) надходять надто пізно, щоб вплинути на поточні навчальні дані ChatGPT або GPT-4, які багато років тому були зібрані без оголошення. OpenAI збирав дані до вересня 2021 року, що є поточною межею «знань» для мовних моделей OpenAI.

Варто зазначити, що нові інструкції можуть не перешкоджати версіям ChatGPT або плагінам ChatGPT для веб-перегляду отримувати доступ до поточних веб-сайтів для передачі актуальної інформації користувачеві. Цей пункт не був прописаний у документації, і ми звернулися до OpenAI за роз’ясненнями.

Відповідь лежить у robots.txt

Згідно з документацією OpenAI , GPTBot можна буде ідентифікувати за маркером агента користувача «GPTBot», повний рядок якого буде «Mozilla/5.0 AppleWebKit/537.36 (KHTML, як Gecko; сумісний; GPTBot/1.0; +https://openai.com). /gptbot)».

Документи OpenAI також містять інструкції щодо того, як заблокувати GPTBot від сканування веб-сайтів за допомогою стандартного файлу robots.txt , який є текстовим файлом, який знаходиться в кореневому каталозі веб-сайту та надає інструкції веб-сканерам (наприклад, тим, які використовуються пошуковими системами). ) не індексувати сайт.

Це так само просто, як додати ці два рядки до файлу robots.txt сайту:

User-agent: GPTBot

Disallow: /

OpenAI також каже, що адміністратори можуть заборонити GPTBot доступ до певних частин сайту в robots.txt за допомогою різних маркерів:

User-agent: GPTBot

Allow: /directory-1/


Disallow: /directory-2/

Крім того, OpenAI надав спеціальні блоки IP-адрес , з яких працюватиме GPTBot, які також можуть бути заблоковані брандмауерам.

Незважаючи на цю опцію, блокування GPTBot не гарантує, що дані сайту не закінчаться навчанням усіх моделей ШІ майбутнього. Окрім проблем із скребками, які ігнорують файли robots.txt, існують інші великі набори даних зібраних веб-сайтів (наприклад, The Pile ), які не пов’язані з OpenAI. Ці набори даних зазвичай використовуються для навчання LLM з відкритим кодом (або з доступним джерелом), наприклад Llama 2 від Meta .

Деякі сайти реагують поспішно

Незважаючи на шалений успіх з технічної точки зору, ChatGPT також викликав суперечки через те, як він збирав захищені авторським правом дані без дозволу та концентрував цю цінність у комерційному продукті, який обходить типову модель онлайн-публікації. OpenAI звинуватили (та подали до суду за ) плагіат у цьому сенсі.

Відповідно, не дивно спостерігати, як деякі люди реагують на новини про потенційну можливість блокувати їхній вміст у майбутніх моделях GPT із певною прихованою насолодою . Наприклад, у вівторок VentureBeat зазначив , що The Verge , автор Substack Кейсі Ньютон і Ніл Кларк з Clarkesworld заявили, що заблокують GPTBot незабаром після того, як з’явилася новина про бота.

Але для великих операторів веб-сайтів вибір блокувати сканери великої мовної моделі (LLM) не такий простий, як може здатися. Зроблення деяких LLM-ів сліпими для певних даних веб-сайтів залишить прогалини в знаннях, які можуть дуже добре служити деяким сайтам (наприклад, сайтам, які не хочуть втрачати відвідувачів, якщо ChatGPT надає їхню інформацію за них), але це також може зашкодити іншим. Наприклад, блокування вмісту майбутніх моделей штучного інтелекту може зменшити культурний відбиток сайту чи бренду, якщо чат-боти штучного інтелекту стануть основним інтерфейсом користувача в майбутньому. У якості експерименту уявіть онлайн-бізнес, який заявив, що він не хоче, щоб його веб-сайт індексувався Google у 2002 році. Це провал, коли це був найпопулярніший інструмент для пошуку інформації в Інтернеті.

Це все ще на початку гри генеративного штучного інтелекту, і незалежно від того, яким шляхом піде технологія — чи які окремі сайти намагаються відмовитися від навчання моделі штучного інтелекту — принаймні OpenAI надає таку можливість.

Залишити відповідь

Ваша e-mail адреса не оприлюднюватиметься. Обов’язкові поля позначені *