Prueba de Turing con esteroides: Chatbot Arena obtiene calificaciones de crowdsourcing para 45 modelos de IA

docenas de distintos modelos de lenguajes grandes (LLM)profundizarontipos de debatesconfiguraron Chatbot Arena

Los usuarios de Chatbot Arena pueden ingresar cualquier mensaje que se les ocurra en el formulario del sitio para ver las respuestas de dos modelos seleccionados al azar. La identidad de cada modelo está inicialmente oculta y los resultados se anulan si el modelo revela su identidad en la respuesta misma.

Luego, el usuario puede elegir qué modelo proporcionó lo que considera el resultado «mejor», con opciones adicionales para un «empate» o «ambos son malos». Sólo después de proporcionar una clasificación por pares, el usuario puede ver qué modelos prefiere. estaban juzgando, aunque una sección separada «lado a lado» del sitio permite a los usuarios elegir dos modelos específicos para comparar (sin la posibilidad de contribuir con un voto sobre el resultado).

Una prueba a ciegas sobre nuestro viejo favorito

Desde su lanzamiento público en mayo, LMSys dice que ha recopilado más de 130.000 clasificaciones ciegas por pares en 45 modelos diferentes ( a principios de diciembre). Esas cifras parecen estar a punto de aumentar rápidamente después de una reciente revisión positiva de Andrej Karpathy de OpenAI que ya ha llevado a lo que LMSys describe como “una súper prueba de estrés” para sus servidores.

Las miles de calificaciones por pares de Chatbot Arena se analizan mediante un modelo Bradley-Terry, que utiliza un muestreo aleatorio para generar una estimación de calificación al estilo Elo. qué modelo tiene más probabilidades de ganar en competencia directa contra cualquier otro. Las partes interesadas también pueden profundizar en los datos sin procesar de decenas de miles de calificaciones de indicaciones/respuestas humanas por sí mismos o examinar estadísticas más detalladas, como tasas de ganancia directa por pares entre modelos y rangos de intervalos de confianza para esas estimaciones de Elo.

Posted on diciembre 15, 2023

News

admin

Prueba de Turing con esteroides: Chatbot Arena obtiene calificaciones de crowdsourcing para 45 modelos de IA

Deja una respuesta Cancelar la respuesta

Una nueva guía esencial de electrónica de Naomi Wu detalla un Shenzhen diferente

La empresa “Renew Home” lleva los datos de la red eléctrica a su hogar inteligente