Los laboratorios de IA dependen cada vez más en plataformas de evaluación comparativa de crowdsourcing como Chatbot Arena Para sondear las fortalezas y debilidades de sus últimos modelos. Pero algunos expertos dicen que hay serios problemas con este enfoque. Desde una perspectiva ética y académica.
En los últimos años, los laboratorios, incluidos Openai, Google y Meta, han recurrido a las plataformas que reclutan a los usuarios para ayudar a evaluar las capacidades de los próximos modelos. Cuando un modelo obtiene un puntaje favorable, el laboratorio detrás de él a menudo promocionará esa puntuación como evidencia de una mejora significativa.
Sin embargo, es un enfoque defectuoso, según Emily Bender, profesora de lingüística de la Universidad de Washington y coautora del libro «The Ai Con». Bender toma un problema particular con el chatbot arena, que tarea como voluntarios con la incorporación de dos modelos anónimos y seleccionando la respuesta que prefieren.
«Para ser válido, un punto de referencia debe medir algo específico, y debe tener validez de construcción, es decir, debe haber evidencia de que la construcción de interés está bien definida y que las mediciones realmente se relacionan con la construcción», dijo Bender. «Chatbot Arena no ha demostrado que votar por un resultado sobre otro en realidad se correlaciona con las preferencias, sin embargo, pueden definirse».
Asmelash Teka Hadgu, cofundador de la firma de IA Lesan y miembro del Instituto de Investigación de AI distribuido, dijo que cree que los puntos de referencia como Chatbot Arena están siendo «cooptados» por AI Labs para «promover afirmaciones exageradas». Hadgu señaló una controversia reciente que involucra a Meta’s Llama 4 Maverick Model. Meta afina una versión de Maverick para anotar bien en Chatbot Arenasolo para retener ese modelo a favor de liberar un versión peor de rendimiento.
«Los puntos de referencia deben ser dinámicos en lugar de conjuntos de datos estáticos», dijo Hadgu, «distribuido en múltiples entidades independientes, como organizaciones o universidades, y adaptadas específicamente a casos de uso distintos, como educación, atención médica y otros campos realizados por profesionales practicantes que usan estos usan estos [models] por trabajo. «
Hadgu y Kristine Gloria, quien anteriormente dirigió la iniciativa de tecnologías emergentes e inteligentes del Instituto Aspen, también presentaron el caso de que los evaluadores de modelos deberían ser compensados por su trabajo. Gloria dijo que los laboratorios de IA deberían aprender de los errores de la industria del etiquetado de datos, que es notorio por su explotador práctica. (Algunos laboratorios han sido acusado de lo mismo.)
«En general, el proceso de evaluación comparativa de crowdsourcing es valioso y me recuerda a las iniciativas de ciencias ciudadanas», dijo Gloria. «Idealmente, ayuda a aportar perspectivas adicionales para proporcionar cierta profundidad tanto en la evaluación como en el ajuste de datos. Pero los puntos de referencia nunca deberían ser la única métrica para la evaluación. Con la industria y la innovación que se mueven rápidamente, los puntos de referencia pueden volverse poco confiables».
Matt Frederikson, CEO de Gray Swan Ai, que dirige campañas de equipo rojo de crowdsourced para modelos, dijo que los voluntarios se sienten atraídos por la plataforma de Gray Swan por una variedad de razones, que incluyen «aprender y practicar nuevas habilidades». (Gray Swan también otorga premios en efectivo para algunas pruebas). Aún así, reconoció que los puntos de referencia públicos «no son un sustituto» para las evaluaciones «privadas pagadas».
«[D]Los evosores también deben confiar en los puntos de referencia internos, los equipos rojos algorítmicos y los equipos rojos contratados que pueden adoptar un enfoque más abierto o aportar experiencia específica en el dominio «, dijo Frederikson.» Es importante para los desarrolladores de modelos y los creadores de referencia, los crowdsour o de otra manera, comunicar los resultados claramente a quienes siguen y son responsables cuando se les pone en cuestión «.
Alex Atallah, CEO de Model Marketplace OpenRouter, que recientemente se asoció con OpenAI para otorgar a los usuarios acceso temprano a Modelos GPT-4.1 de Openaidijo las pruebas abiertas y la evaluación comparativa de modelos solo «no es suficiente». También Wei-Lin Chiang, un estudiante de doctorado de IA en UC Berkeley y uno de los fundadores de Lmarena, que mantiene el chatbot Arena.
«Ciertamente apoyamos el uso de otras pruebas», dijo Chiang. «Nuestro objetivo es crear un espacio abierto y confiable que mida las preferencias de nuestra comunidad sobre los diferentes modelos de IA».
Chiang dijo que incidentes como la discrepancia de referencia de Maverick no son el resultado de un defecto en el diseño de Chatbot Arena, sino que los laboratorios malinterpretan su política. LM Arena ha tomado medidas para evitar que ocurran futuras discrepancias, dijo Chiang, incluida la actualización de sus políticas para «reforzar nuestro compromiso con evaluaciones justas y reproducibles».
«Nuestra comunidad no está aquí como voluntarios o probadores de modelos», dijo Chiang. «La gente usa LM Arena porque les damos un lugar abierto y transparente para interactuar con la IA y dar comentarios colectivos. Mientras la tabla de clasificación refleje fielmente la voz de la comunidad, agradecemos que se comparta».