스테로이드에 대한 튜링 테스트: Chatbot Arena는 45개의 AI 모델에 대한 크라우드소싱 등급을 평가합니다.

수십 개의 LLM(대형 언어 모델)탐구종류의 토론Chatbot Arena 설정

Chatbot Arena 사용자는 사이트 양식에 생각할 수 있는 프롬프트를 입력하여 무작위로 선택된 두 모델의 나란히 응답을 볼 수 있습니다. 각 모델의 정체성은 처음에는 숨겨져 있으며, 모델이 응답 자체에서 정체성을 드러내는 경우 결과는 무효화됩니다.

그런 다음 사용자는 “동점” 또는 “둘 다 나쁨”에 대한 추가 옵션과 함께 “더 나은” 결과를 제공한 모델을 선택할 수 있습니다. 쌍별 순위를 제공한 후에만 사용자는 어떤 모델이 자신이 선택한 모델인지 확인할 수 있습니다. 하지만 사이트의 별도 “병렬” 섹션을 통해 사용자는 두 가지 특정 모델을 선택하여 비교할 수 있습니다(결과에 투표할 수 없음).

공개 출시 이후5월, LMSys는 45개 모델에 걸쳐 130,000개 이상의 블라인드 쌍 평가를 수집했다고 밝혔습니다( 12월 초 기준). 이러한 수치는 OpenAI의 Andrej Karpathy의 최근 긍정적인 평가 이후 LMSys의 이미 이후 빠르게 증가할 것으로 보입니다. 서버에 대한 “슈퍼 스트레스 테스트”라고 설명합니다.

Chatbot Arena의 수천 개의 쌍별 평가는 Bradley-Terry 모델을 통해 처리됩니다. 이 모델은 무작위 샘플링을 사용하여 Elo 스타일 평가 추정을 생성합니다. 어떤 모델이 다른 모델과의 직접적인 경쟁에서 승리할 가능성이 가장 높은지. 관심 있는 당사자는 수만 개의 프롬프트/응답 평가에 대한 원시 데이터를 직접 조사하거나 검토할 수도 있습니다. 모델 간의 직접적인 쌍별 승률 및 해당 Elo 추정치에 대한 신뢰 구간 범위와 같은 보다 자세한 통계

Posted on 12월 15, 2023

News

admin

스테로이드에 대한 튜링 테스트: Chatbot Arena는 45개의 AI 모델에 대한 크라우드소싱 등급을 평가합니다.

답글 남기기 응답 취소

Naomi Wu가 작성한 전자 제품에 대한 새로운 필수 가이드에서는 다른 심천에 대해 자세히 설명합니다.

"Renew Home" 회사는 전력망 데이터를 스마트 홈에 제공합니다.