GPT-4 pierde su posición como «mejor» LLM frente a Claude-3 en el punto de referencia LMSYS

En contexto: Parece como si todos los que son alguien hubieran invertido su sombrero y su dinero en desarrollar grandes modelos lingüísticos. Esta explosión de IA generó la necesidad de compararlos. Entonces, los investigadores de UC Berkley, UC San Diego y la Universidad Carnegie Mellon formaron la Organización de Grandes Sistemas Lingüísticos (LMSYS Org o simplemente LMSYS).

Es difícil calificar modelos de lenguaje grandes y los chatbots que los utilizan. Aparte de contar los casos de errores fácticos, errores gramaticales o velocidad de procesamiento, no existen métricas objetivas aceptadas globalmente. Por ahora, estamos estancados en mediciones subjetivas.

Introduzca LMSYS Arena de chatbots, una tabla de clasificación de colaboración colectiva para clasificar los LLM «en la naturaleza». Emplea el sistema de clasificación Elo, que se utiliza ampliamente para clasificar a los jugadores en juegos de suma cero como el ajedrez. Dos LLM compiten en partidos aleatorios cara a cara, y los humanos juzgan a ciegas qué robot prefieren en función de su desempeño.

[Arena Update]

¡Más de 70.000 nuevos votos para la Arenaï¿½-ï¿½ï¸Â están disponibles!

Claude-3 Haiku ha impresionado a todos, ¡incluso alcanzó el nivel GPT-4 según nuestra preferencia de usuario! Su velocidad, capacidades y duración del contexto no tienen comparación ahora en el mercadoï¿½»ï¿½

Felicitaciones @AntrópicoAI ¡Sobre el increíble lanzamiento de Claude-3!

Más emocionante… pic.twitter.com/p1Guuf0B3K

– lmsys.org (@lmsysorg) 26 de marzo de 2024

Desde su lanzamiento el año pasado, GPT-4 ha ocupado la posición número uno de Chatbot Arena. Incluso se ha convertido en el estándar de oro, y los sistemas de mayor rango se describen como modelos de «clase GPT-4». Sin embargo, el LLM de OpenAI fue empujado del primer puesto ayer cuando Claude 3 Opus de Anthropic venció a GPT-4 por un estrecho margen, 1253 a 1251. El ritmo fue tan igualado que el margen de error coloca a Claude 3 y GPT-4 en un triple empate por el primer lugar, con Otra versión preliminar de GPT-4.

Quizás aún más impresionante sea la entrada de Claude 3 Haiku entre los diez primeros. Haiku es el modelo de «tamaño local» de Anthropic, comparable al Gemini Nano de Google. Es exponencialmente más pequeño que Opus, que tiene billones de parámetros, lo que lo hace mucho más pequeño. más rápido en comparación. Según LMSYS, ocupar el puesto número siete en la clasificación gradúa a Haiku a la clase GPT-4.

Anthropic probablemente no mantendrá el primer puesto por mucho tiempo. La semana pasada, expertos en OpenAI filtrado que GPT-5 está casi listo para su debut público y debería lanzarse «a mediados de año». El nuevo modelo LLM es mucho mejor que GPT-4. Las fuentes dicen que emplea múltiples «agentes de IA externos» para realizar tareas específicas, lo que significa que debería ser capaz de resolver problemas complejos de manera confiable y mucho más rápido.

Credito de imagen: Mike MacKenzie

Enlace fuente