스테로이드에 대한 튜링 테스트: Chatbot Arena는 45개의 AI 모델에 대한 크라우드소싱 등급을 평가합니다.

스테로이드에 대한 튜링 테스트: Chatbot Arena는 45개의 AI 모델에 대한 크라우드소싱 등급을 평가합니다.

수십 개의 LLM(대형 언어 모델)탐구종류의 토론Chatbot Arena 설정

Chatbot Arena 사용자는 사이트 양식에 생각할 수 있는 프롬프트를 입력하여 무작위로 선택된 두 모델의 나란히 응답을 볼 수 있습니다. 각 모델의 정체성은 처음에는 숨겨져 있으며, 모델이 응답 자체에서 정체성을 드러내는 경우 결과는 무효화됩니다.

그런 다음 사용자는 “동점” 또는 “둘 다 나쁨”에 대한 추가 옵션과 함께 “더 나은” 결과를 제공한 모델을 선택할 수 있습니다. 쌍별 순위를 제공한 후에만 사용자는 어떤 모델이 자신이 선택한 모델인지 확인할 수 있습니다. 하지만 사이트의 별도 “병렬” 섹션을 통해 사용자는 두 가지 특정 모델을 선택하여 비교할 수 있습니다(결과에 투표할 수 없음).

우리가 가장 좋아하는 블라인드 테스트

공개 출시 이후5월, LMSys는 45개 모델에 걸쳐 130,000개 이상의 블라인드 쌍 평가를 수집했다고 밝혔습니다( 12월 초 기준). 이러한 수치는 OpenAI의 Andrej Karpathy의 최근 긍정적인 평가 이후 LMSys의 이미 이후 빠르게 증가할 것으로 보입니다. 서버에 대한 “슈퍼 스트레스 테스트”라고 설명합니다.

Chatbot Arena의 수천 개의 쌍별 평가는 Bradley-Terry 모델을 통해 처리됩니다. 이 모델은 무작위 샘플링을 사용하여 Elo 스타일 평가 추정을 생성합니다. 어떤 모델이 다른 모델과의 직접적인 경쟁에서 승리할 가능성이 가장 높은지. 관심 있는 당사자는 수만 개의 프롬프트/응답 평가에 대한 원시 데이터를 직접 조사하거나 검토할 수도 있습니다. 모델 간의 직접적인 쌍별 승률 및 해당 Elo 추정치에 대한 신뢰 구간 범위와 같은 보다 자세한 통계

답글 남기기

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다