지침이 나온 후 사이트가 ChatGPT 웹 크롤러를 차단하기 위해 출격합니다.

지침이 나온 후 사이트가 ChatGPT 웹 크롤러를 차단하기 위해 출격합니다.

발표 없이 OpenAI는 최근 웹 크롤러인 GPTBot 에 대한 세부 정보를 온라인 설명서 사이트에 추가했습니다. GPTBot은 GPT-4 와 같은 ChatGPT 이면의 AI 모델을 교육하기 위해 회사에서 웹페이지를 검색하는 데 사용하는 사용자 에이전트의 이름입니다 . 이번 주 초 일부 사이트는 콘텐츠에 대한 GPTBot의 액세스를 차단하겠다는 의도를 신속하게 발표했습니다 .

새 문서에서 OpenAI는 GPTBot으로 크롤링된 웹페이지가 “향후 모델을 개선하는 데 잠재적으로 사용될 수 있으며” GPTBot이 귀하의 사이트에 액세스하도록 허용하면 “AI 모델이 더 정확해지고 일반적인 기능과 안전성을 개선하는 데 도움이 될 수 있다”고 말합니다.

OpenAI는 페이월 뒤의 소스, 개인 식별 정보를 수집하는 소스 또는 OpenAI의 정책을 위반하는 콘텐츠에 GPTBot이 액세스하지 못하도록 하는 필터를 구현했다고 주장합니다.

OpenAI의 훈련 스크랩을 잠재적으로 차단할 수 있다는 소식은 (그들이 존중한다면) 너무 늦게 와서 몇 년 전에 발표 없이 스크랩된 ChatGPT 또는 GPT-4의 현재 훈련 데이터에 영향을 미치지 않습니다. OpenAI는 OpenAI의 언어 모델에 대한 현재 “지식” 컷오프인 2021년 9월에 끝나는 데이터를 수집했습니다.

새로운 지침이 ChatGPT 또는 ChatGPT 플러그인 의 웹 브라우징 버전이 사용자에게 최신 정보를 전달하기 위해 현재 웹사이트에 액세스하는 것을 막지 못할 수 있다는 점은 주목할 가치가 있습니다. 그 점은 문서에 명시되지 않았으며 우리는 설명을 위해 OpenAI에 연락했습니다.

정답은 robots.txt에 있습니다.

OpenAI의 문서 에 따르면 GPTBot은 사용자 에이전트 토큰 “GPTBot”로 식별할 수 있으며 전체 문자열은 “Mozilla/5.0 AppleWebKit/537.36(KHTML, like Gecko; compatible; GPTBot/1.0; +https://openai.com /gptbot)”.

OpenAI 문서는 또한 웹사이트의 루트 디렉터리에 있고 웹 크롤러(예: 검색 엔진에서 사용하는 파일)에 지시하는 텍스트 파일인 산업 표준 robots.txt 파일을 사용하여 GPTBot이 웹사이트를 크롤링하는 것을 차단하는 방법에 대한 지침을 제공합니다. ) 사이트를 인덱싱하지 않습니다.

사이트의 robots.txt 파일에 다음 두 줄을 추가하는 것만큼 쉽습니다.

User-agent: GPTBot

Disallow: /

OpenAI는 또한 관리자가 다른 토큰을 사용하여 robots.txt에 있는 사이트의 특정 부분에서 GPTBot을 제한할 수 있다고 말합니다.

User-agent: GPTBot

Allow: /directory-1/


Disallow: /directory-2/

또한 OpenAI는 방화벽에 의해 차단될 수 있는 GPTBot이 작동할 특정 IP 주소 블록을 제공했습니다 .

이 옵션에도 불구하고 GPTBot을 차단한다고 해서 사이트의 데이터가 미래의 모든 AI 모델을 교육하지 않는다는 보장은 없습니다. 스크레이퍼가 robots.txt 파일을 무시하는 문제 외에도 OpenAI와 관련이 없는 스크랩된 웹사이트(예: The Pile ) 의 다른 대규모 데이터 세트가 있습니다 . 이러한 데이터 세트는 일반적으로 Meta의 Llama 2 와 같은 오픈 소스(또는 소스 사용 가능) LLM을 교육하는 데 사용됩니다 .

일부 사이트는 성급하게 반응합니다.

기술적인 관점에서 큰 성공을 거둔 ChatGPT는 저작권이 있는 데이터를 허가 없이 스크랩하고 그 가치를 일반적인 온라인 출판 모델을 우회하는 상업용 제품에 집중시킨 방법에 대해서도 논란이 되었습니다. OpenAI는 이러한 맥락에서 표절 로 고발(및 고소 ) 되었습니다 .

따라서 미래의 GPT 모델에서 자신의 콘텐츠를 잠재적으로 차단할 수 있다는 소식에 일부 사람들이 일종의 억눌린 으로 반응하는 것을 보는 것은 놀라운 일이 아닙니다 . 예를 들어, 화요일에 VentureBeat는 The Verge , Substack 작가 Casey Newton , Clarkesworld의 Neil Clarke가 모두 봇에 대한 뉴스가 터진 직후 GPTBot을 차단하겠다고 말했습니다 .

그러나 대규모 웹 사이트 운영자의 경우 LLM(대형 언어 모델) 크롤러를 차단하는 선택은 보기보다 쉽지 않습니다. 일부 LLM을 특정 웹사이트 데이터에 대해 보지 못하게 하면 일부 사이트(예: ChatGPT가 방문자를 위해 정보를 제공하는 경우 방문자를 잃고 싶지 않은 사이트)를 잘 제공할 수 있는 지식의 공백이 남지만 다른 사람에게 피해를 줄 수도 있습니다. 예를 들어 미래 AI 모델의 콘텐츠를 차단하면 AI 챗봇이 향후 주요 사용자 인터페이스가 될 경우 사이트 또는 브랜드의 문화적 발자국을 줄일 수 있습니다. 사고 실험으로 2002년에 Google이 웹 사이트를 색인화하는 것을 원하지 않는다고 선언한 온라인 비즈니스를 상상해 보십시오. 이는 온라인에서 정보를 찾기 위한 가장 인기 있는 진입로였을 때 자멸적인 조치였습니다.

생성 AI 게임의 초기 단계이며 기술이 어떤 방향으로 진행되든, 또는 어떤 개별 사이트에서 AI 모델 교육을 거부하려고 시도하든 최소한 OpenAI는 옵션을 제공하고 있습니다.

답글 남기기

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다