Test de Turing sous stéroïdes : évaluations participatives de Chatbot Arena pour 45 modèles d’IA

Test de Turing sous stéroïdes : évaluations participatives de Chatbot Arena pour 45 modèles d’IA

des dizaines de grands modèles de langage (LLM) distinctsplongés danstypes de débatsont mis en place Chatbot Arena

Les utilisateurs de Chatbot Arena peuvent saisir n’importe quelle invite à laquelle ils peuvent penser dans le formulaire du site pour voir côte à côte les réponses de deux modèles sélectionnés au hasard. L’identité de chaque modèle est initialement cachée et les résultats sont annulés si le modèle révèle son identité dans la réponse elle-même.

L’utilisateur peut ensuite choisir quel modèle a fourni ce qu’il juge être le « meilleur » résultat, avec des options supplémentaires pour une « égalité » ou « les deux sont mauvais ». Ce n’est qu’après avoir fourni un classement par paires que l’utilisateur peut voir quels modèles il a choisis. jugeaient, bien qu’une section distincte « côte à côte » du site permette aux utilisateurs de choisir deux modèles spécifiques à comparer (sans la possibilité de voter sur le résultat).

Un blind test sur notre ancien favori

Depuis son lancement public en mai, LMSys affirme avoir recueilli plus de 130 000 évaluations aveugles par paires sur 45 modèles différents ( dès début décembre). Ces chiffres semblent sur le point d’augmenter rapidement après une récente critique positive d’Andrej Karpathy d’OpenAI qui a déjà conduit à ce que LMSys décrit comme « un super test de stress » pour ses serveurs.

Les milliers d’évaluations par paires de Chatbot Arena sont analysées à l’aide d’un modèle Bradley-Terry, qui utilise un échantillonnage aléatoire pour générer une estimation d’évaluation de style Elo. quel modèle est le plus susceptible de gagner en concurrence directe avec un autre. Les parties intéressées peuvent également explorer les données brutes de dizaines de milliers d’évaluations d’invites/réponses humaines par elles-mêmes ou examiner des statistiques plus détaillées, telles que les taux de victoire directe par paire entre les modèles et les plages d’intervalles de confiance pour ces estimations Elo.

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *