지침이 나온 후 사이트가 ChatGPT 웹 크롤러를 차단하기 위해 출격합니다.
![지침이 나온 후 사이트가 ChatGPT 웹 크롤러를 차단하기 위해 출격합니다.](https://cdn.4pmtech.com/wp-content/uploads/2023/08/hiding_hero_1-760x380-1-640x375.webp)
발표 없이 OpenAI는 최근 웹 크롤러인 GPTBot 에 대한 세부 정보를 온라인 설명서 사이트에 추가했습니다. GPTBot은 GPT-4 와 같은 ChatGPT 이면의 AI 모델을 교육하기 위해 회사에서 웹페이지를 검색하는 데 사용하는 사용자 에이전트의 이름입니다 . 이번 주 초 일부 사이트는 콘텐츠에 대한 GPTBot의 액세스를 차단하겠다는 의도를 신속하게 발표했습니다 .
새 문서에서 OpenAI는 GPTBot으로 크롤링된 웹페이지가 “향후 모델을 개선하는 데 잠재적으로 사용될 수 있으며” GPTBot이 귀하의 사이트에 액세스하도록 허용하면 “AI 모델이 더 정확해지고 일반적인 기능과 안전성을 개선하는 데 도움이 될 수 있다”고 말합니다.
OpenAI는 페이월 뒤의 소스, 개인 식별 정보를 수집하는 소스 또는 OpenAI의 정책을 위반하는 콘텐츠에 GPTBot이 액세스하지 못하도록 하는 필터를 구현했다고 주장합니다.
OpenAI의 훈련 스크랩을 잠재적으로 차단할 수 있다는 소식은 (그들이 존중한다면) 너무 늦게 와서 몇 년 전에 발표 없이 스크랩된 ChatGPT 또는 GPT-4의 현재 훈련 데이터에 영향을 미치지 않습니다. OpenAI는 OpenAI의 언어 모델에 대한 현재 “지식” 컷오프인 2021년 9월에 끝나는 데이터를 수집했습니다.
새로운 지침이 ChatGPT 또는 ChatGPT 플러그인 의 웹 브라우징 버전이 사용자에게 최신 정보를 전달하기 위해 현재 웹사이트에 액세스하는 것을 막지 못할 수 있다는 점은 주목할 가치가 있습니다. 그 점은 문서에 명시되지 않았으며 우리는 설명을 위해 OpenAI에 연락했습니다.
정답은 robots.txt에 있습니다.
OpenAI의 문서 에 따르면 GPTBot은 사용자 에이전트 토큰 “GPTBot”로 식별할 수 있으며 전체 문자열은 “Mozilla/5.0 AppleWebKit/537.36(KHTML, like Gecko; compatible; GPTBot/1.0; +https://openai.com /gptbot)”.
OpenAI 문서는 또한 웹사이트의 루트 디렉터리에 있고 웹 크롤러(예: 검색 엔진에서 사용하는 파일)에 지시하는 텍스트 파일인 산업 표준 robots.txt 파일을 사용하여 GPTBot이 웹사이트를 크롤링하는 것을 차단하는 방법에 대한 지침을 제공합니다. ) 사이트를 인덱싱하지 않습니다.
사이트의 robots.txt 파일에 다음 두 줄을 추가하는 것만큼 쉽습니다.
User-agent: GPTBot
Disallow: /
OpenAI는 또한 관리자가 다른 토큰을 사용하여 robots.txt에 있는 사이트의 특정 부분에서 GPTBot을 제한할 수 있다고 말합니다.
User-agent: GPTBot
Allow: /directory-1/
Disallow: /directory-2/
또한 OpenAI는 방화벽에 의해 차단될 수 있는 GPTBot이 작동할 특정 IP 주소 블록을 제공했습니다 .
이 옵션에도 불구하고 GPTBot을 차단한다고 해서 사이트의 데이터가 미래의 모든 AI 모델을 교육하지 않는다는 보장은 없습니다. 스크레이퍼가 robots.txt 파일을 무시하는 문제 외에도 OpenAI와 관련이 없는 스크랩된 웹사이트(예: The Pile ) 의 다른 대규모 데이터 세트가 있습니다 . 이러한 데이터 세트는 일반적으로 Meta의 Llama 2 와 같은 오픈 소스(또는 소스 사용 가능) LLM을 교육하는 데 사용됩니다 .
일부 사이트는 성급하게 반응합니다.
기술적인 관점에서 큰 성공을 거둔 ChatGPT는 저작권이 있는 데이터를 허가 없이 스크랩하고 그 가치를 일반적인 온라인 출판 모델을 우회하는 상업용 제품에 집중시킨 방법에 대해서도 논란이 되었습니다. OpenAI는 이러한 맥락에서 표절 로 고발(및 고소 ) 되었습니다 .
따라서 미래의 GPT 모델에서 자신의 콘텐츠를 잠재적으로 차단할 수 있다는 소식에 일부 사람들이 일종의 억눌린 맛 으로 반응하는 것을 보는 것은 놀라운 일이 아닙니다 . 예를 들어, 화요일에 VentureBeat는 The Verge , Substack 작가 Casey Newton , Clarkesworld의 Neil Clarke가 모두 봇에 대한 뉴스가 터진 직후 GPTBot을 차단하겠다고 말했습니다 .
그러나 대규모 웹 사이트 운영자의 경우 LLM(대형 언어 모델) 크롤러를 차단하는 선택은 보기보다 쉽지 않습니다. 일부 LLM을 특정 웹사이트 데이터에 대해 보지 못하게 하면 일부 사이트(예: ChatGPT가 방문자를 위해 정보를 제공하는 경우 방문자를 잃고 싶지 않은 사이트)를 잘 제공할 수 있는 지식의 공백이 남지만 다른 사람에게 피해를 줄 수도 있습니다. 예를 들어 미래 AI 모델의 콘텐츠를 차단하면 AI 챗봇이 향후 주요 사용자 인터페이스가 될 경우 사이트 또는 브랜드의 문화적 발자국을 줄일 수 있습니다. 사고 실험으로 2002년에 Google이 웹 사이트를 색인화하는 것을 원하지 않는다고 선언한 온라인 비즈니스를 상상해 보십시오. 이는 온라인에서 정보를 찾기 위한 가장 인기 있는 진입로였을 때 자멸적인 조치였습니다.
생성 AI 게임의 초기 단계이며 기술이 어떤 방향으로 진행되든, 또는 어떤 개별 사이트에서 AI 모델 교육을 거부하려고 시도하든 최소한 OpenAI는 옵션을 제공하고 있습니다.
답글 남기기