Сайты изо всех сил пытаются заблокировать поисковый робот ChatGPT после появления инструкций

Без объявления OpenAI недавно добавила информацию о своем веб-сканере GPTBot на свой сайт онлайн-документации. GPTBot — это имя пользовательского агента, который компания использует для получения веб-страниц для обучения моделей ИИ, лежащих в основе ChatGPT , таких как GPT-4 . Ранее на этой неделе некоторые сайты быстро объявили о своем намерении заблокировать доступ GPTBot к своему контенту.

В новой документации OpenAI говорится, что веб-страницы, просканированные с помощью GPTBot, «потенциально могут быть использованы для улучшения будущих моделей», и что предоставление GPTBot доступа к вашему сайту «может помочь моделям AI стать более точными и улучшить их общие возможности и безопасность».

OpenAI утверждает, что внедрила фильтры, гарантирующие, что источники за платным доступом, те, кто собирает личную информацию, или любой контент, нарушающий политики OpenAI, не будут доступны для GPTBot.

Новости о потенциальной возможности блокировать тренировочные сборы OpenAI (если они их соблюдают) приходят слишком поздно, чтобы повлиять на текущие обучающие данные ChatGPT или GPT-4, которые были удалены без объявления много лет назад. OpenAI собирал данные, заканчивающиеся в сентябре 2021 года, что является текущим пределом «знания» для языковых моделей OpenAI.

Стоит отметить, что новые инструкции могут не препятствовать доступу браузерных версий ChatGPT или плагинов ChatGPT к текущим веб-сайтам для передачи актуальной информации пользователю. Этот момент не был прописан в документации, и мы обратились к OpenAI за разъяснениями.

Ответ кроется в файле robots.txt.

Согласно документации OpenAI, GPTBot будет идентифицироваться токеном пользовательского агента «GPTBot», а его полная строка будет «Mozilla/5.0 AppleWebKit/537.36 (KHTML, например, Gecko; совместима; GPTBot/1.0; +https://openai.com). /gptbot)».

Документы OpenAI также содержат инструкции о том, как заблокировать сканирование веб-сайтов с помощью GPTBot с помощью стандартного отраслевого файла robots.txt , который представляет собой текстовый файл, который находится в корневом каталоге веб-сайта и инструктирует поисковые роботы (например, те, которые используются поисковыми системами). ) не индексировать сайт.

Это так же просто, как добавить эти две строки в файл robots.txt сайта:

User-agent: GPTBot

Disallow: /

OpenAI также говорит, что администраторы могут ограничить доступ GPTBot к определенным частям сайта в robots.txt с помощью разных токенов:

User-agent: GPTBot

Allow: /directory-1/

Disallow: /directory-2/

Кроме того, OpenAI предоставила конкретные блоки IP-адресов , с которых будет работать GPTBot, которые также могут быть заблокированы брандмауэрами.

Несмотря на этот вариант, блокировка GPTBot не гарантирует, что данные сайта не будут использоваться для обучения всех моделей ИИ будущего. Помимо проблем с игнорированием парсерами файлов robots.txt, существуют и другие большие наборы данных парсерных веб-сайтов (например, The Pile ), которые не связаны с OpenAI. Эти наборы данных обычно используются для обучения LLM с открытым исходным кодом (или доступным исходным кодом), таких как Llama 2 компании Meta .

Некоторые сайты реагируют поспешно

Несмотря на огромный успех с технической точки зрения, ChatGPT также вызывал споры из-за того, как он без разрешения собирал данные, защищенные авторским правом, и концентрировал эту ценность в коммерческом продукте, который обходит типичную модель онлайн-публикации. OpenAI был обвинен (и подан в суд за ) в плагиате в этом направлении.

Соответственно, неудивительно, что некоторые люди реагируют на новости о потенциальной возможности заблокировать свой контент для будущих моделей GPT с некоторым сдерживаемым удовольствием . Например, во вторник VentureBeat отметил , что The Verge , писатель Substack Кейси Ньютон и Нил Кларк из Clarkesworld заявили, что заблокируют GPTBot вскоре после появления новостей о боте.

Но для крупных операторов веб-сайтов выбор блокировки сканеров большой языковой модели (LLM) не так прост, как может показаться. Если некоторые LLM не будут знать определенные данные веб-сайтов, это оставит пробелы в знаниях, которые могут очень хорошо пригодиться некоторым сайтам (например, сайтам, которые не хотят терять посетителей, если ChatGPT предоставит им свою информацию), но это может также навредить другим. Например, блокировка контента будущих моделей ИИ может уменьшить культурный след сайта или бренда, если в будущем чат-боты с ИИ станут основным пользовательским интерфейсом. В качестве мысленного эксперимента представьте себе интернет-компанию, заявившую, что она не хочет, чтобы ее веб-сайт индексировался Google в 2002 году — обреченный на провал шаг, когда это был самый популярный способ поиска информации в Интернете.

Игра с генеративным ИИ все еще находится на ранней стадии, и независимо от того, по какому пути пойдет технология — или какие отдельные сайты попытаются отказаться от обучения модели ИИ — по крайней мере, OpenAI предоставляет такую возможность.

Ответ кроется в файле robots.txt.

Некоторые сайты реагируют поспешно

Добавить комментарий Отменить ответ