OpenAI ha estado en una buena racha de actualizaciones, lo que hace que último GPT-4 Turbo disponible para desarrolladores y suscriptores pagos de ChatGPT la semana pasada. Al lanzar el modelo, OpenAI compartió que el nuevo GPT-4 Turbo cuenta con varias mejoras con respecto a su predecesor, y los usuarios están descubriendo que eso es cierto.
También: Zoom recibe su primera gran revisión en 10 años, impulsado por IA generativa
A partir del jueves, la versión actualizada de GPT-4 Turbo, gpt-4-turbo-2024-04-09, recuperó su puesto número uno en Chatbot Arena de la Large Model Systems Organization (LMSYS), una plataforma abierta de colaboración colectiva donde los usuarios pueden evaluar grandes Modelos de lenguaje (LLM).
En Chatbot Arena, los usuarios pueden chatear con dos LLM uno al lado del otro y comparar sus respuestas entre sí sin conocer la identidad de cada modelo.
Luego de ver la respuesta, los usuarios pueden continuar chateando hasta que se sientan cómodos determinando qué modelo ganó, si hay empate o si ambos son malos, como se ve a continuación.
Luego, esos resultados se utilizan para clasificar los 82 LLM en Chatbot Arena en la tabla de clasificación, que incluye todos los LLM más populares del mercado, como Géminis profesionalel Familia Claude 3 de LLMy Mistral-Grande-2402.
A partir de la última actualización de Chatbot Arena del 13 de abril, la versión actualizada de GPT-4 Turbo ocupa el liderazgo en las categorías general, codificación e inglés.
También: Los mejores chatbots de IA: ChatGPT no es el único que vale la pena probar
Esto significa que menos de un mes después adelantando a GPT-4 Turbo en Chatbot ArenaClaude 3 Opus de Anthropic ha sido relegado al segundo lugar en la categoría general, seguido por GPT-4-1106-preview, una versión anterior de GPT-4 Turbo, en tercer lugar.
Estos resultados podrían atribuirse a las capacidades mejoradas de codificación, matemáticas, razonamiento lógico y escritura de gpt-4-turbo-2024-04-09, demostradas por su mayor rendimiento en una serie de puntos de referencia utilizados para probar la competencia de los modelos de IA, como se ve. abajo.
¿Está interesado en comparar usted mismo el rendimiento de gpt-4-turbo-2024-04-09 con otros LLM? Puedes visitar el Sitio web de Chatbot Arena y haga clic en la opción Arena (lado a lado) para seleccionar qué modelos desea comparar.
Vale la pena señalar que como conoces la identidad de los modelos en la opción de lado a lado, no podrás votar. Más bien, si quieres poder votar y que eso cuente para la clasificación, puedes usar la opción Arena (batalla) para comparar modelos aleatorios entre sí.
Si prefieres saltarte las pruebas y pasar directamente a usar gpt-4-turbo-2024-04-09 en ChatGPT, todo lo que tienes que hacer es convertirte en un Suscriptor de ChatGPT Plusque cuesta $20 por mes.