Las palabras fluyen como una lluvia interminable: recapitulando una semana ocupada de noticias de LLM

Agrandar / Una imagen de un niño asombrado por las letras voladoras.

Algunas semanas en las noticias sobre IA son inquietantemente tranquilas, pero durante otras, controlar los eventos de la semana parece intentar frenar la marea. Esta semana se han producido tres lanzamientos notables de modelos de lenguaje grande (LLM): éxito de Google Gemini Pro 1.5 Disponibilidad general con un nivel gratuito, OpenAI envió un nueva versión de GPT-4 Turbo, y Mistral lanzó un nuevo LLM con licencia abierta, Mixtral 8x22B. Los tres lanzamientos se produjeron en 24 horas a partir del martes.

Con la ayuda del ingeniero de software e investigador independiente de IA Simon Willison (quien también escribi sobre (el agitado lanzamiento de LLM de esta semana en su propio blog), cubriremos brevemente cada uno de los tres eventos principales en orden aproximadamente cronológico, luego profundizaremos en algunos acontecimientos adicionales de IA esta semana.

Lanzamiento general de Géminis Pro 1.5

El martes por la mañana, hora del Pacífico, Google Anunciado que su modelo Gemini 1.5 Pro (que primero cubierto en febrero) ya está disponible en más de 180 países, excluyendo Europa, a través de la API de Gemini en una vista previa pública. Este es el LLM público más poderoso de Google hasta el momento y está disponible en un nivel gratuito que permite hasta 50 solicitudes por día.

Admite hasta 1 millón de tokens de contexto de entrada. Como señala Willison en su blogel precio API de Gemini 1.5 Pro de $7/millón de tokens de entrada y $21/millón de tokens de salida cuesta un poco menos que GPT-4 Turbo (carillo a $ 10/millón de entrada y $ 30/millón de salida) y más que Claude 3 Sonnet (LLM de nivel medio de Anthropic, carillo a 3 dólares/millón de entrada y 15 dólares/millón de salida).

En particular, Gemini 1.5 Pro incluye procesamiento de entrada de audio (voz) nativo que permite a los usuarios cargar mensajes de audio o video, una nueva API de archivos para manejar archivos, la capacidad de agregar instrucciones personalizadas del sistema (mensajes del sistema) para guiar las respuestas del modelo y un formato JSON. Modo para extracción de datos estructurados.

Lanzamiento del GPT-4 Turbo “muy mejorado”

Agrandar / Una tabla de rendimiento de GPT-4 Turbo proporcionada por OpenAI.

Un poco más tarde que el lanzamiento 1.5 Pro de Google el martes, OpenAI anunció que estaba lanzando una versión «muy mejorada» de GPT-4 Turbo (una familia de modelos lanzado originalmente en noviembre) llamado «gpt-4-turbo-2024-04-09». Integra multimodal Visión GPT-4 Procesando (reconociendo el contenido de las imágenes) directamente en el modelo, e inicialmente se lanzó solo a través del acceso API.

Luego, el jueves, OpenAI anunció que el nuevo modelo GPT-4 Turbo acababa de estar disponible para usuarios pagos de ChatGPT. OpenAI dijo que el nuevo modelo mejora «las capacidades de escritura, matemáticas, razonamiento lógico y codificación» y compartió un gráfico que no es particularmente útil para juzgar capacidades (que luego actualizado). La empresa también proporcionó un ejemplo de una supuesta mejora, diciendo que al escribir con ChatGPT, el asistente de IA utilizará «un lenguaje más directo, menos detallado y más conversacional».

La naturaleza vaga de los anuncios GPT-4 Turbo de OpenAI atrajo a algunos confusión y críticas en línea. En X, Willison escribió, «¿Quién será el primer proveedor de LLM en publicar notas de la versión realmente útiles?» En cierto modo, este es nuevamente un caso de «vibraciones de IA», como Nosotros discutimos en nuestro lamento por el mal estado de los puntos de referencia LLM durante el debut de Claude 3. «En realidad, no he detectado ninguna diferencia definitiva en la calidad [related to GPT-4 Turbo]», nos dijo Willison directamente en una entrevista.

La actualización también amplió el límite de conocimiento de GPT-4 hasta abril de 2024, aunque algunas personas informan que lo logra a través de búsquedas web sigilosas en el fondo, y otros en las redes sociales tienen problemas reportados con fabulaciones relacionadas con citas.

El misterioso lanzamiento Mixtral 8x22B de Mistral

Agrandar / Una ilustración de un robot sosteniendo una bandera francesa, que refleja en sentido figurado el auge de la IA en Francia debido a Mistral. Es difícil hacer un dibujo de un LLM, por lo que un robot tendrá que ser suficiente.

Para no quedarse atrás, el martes por la noche, la empresa francesa de inteligencia artificial Mistral lanzó su último modelo con licencia abierta, Mixtral 8x22B, por tuiteando un enlace de torrent desprovisto de cualquier documentación o comentario, al igual que lo ha hecho con versiones anteriores.

La nueva versión de la combinación de expertos (MoE) pesa con un mayor número de parámetros que su modelo abierto anteriormente más capaz. Mixtral 8x7Bel cual nosotros cubierto en diciembre. Se rumorea que es potencialmente tan capaz como GPT-4 (¿De qué manera, preguntas? Vibraciones). Pero eso aún está por verse.

«Las evaluaciones aún están en marcha, pero la mayor pregunta abierta en este momento es qué tan bien se adapta Mixtral 8x22B», dijo Willison a Ars. «Si está en la misma clase de calidad que GPT-4 y Claude 3 Opus, entonces finalmente tendremos un modelo con licencia abierta que no estará muy por detrás de los mejores propietarios».

Esta versión tiene a Willison muy entusiasmado y dice: «Si esa cosa realmente es de clase GPT-4, es una locura, porque puedes ejecutarla en una computadora portátil (muy cara). Creo que necesitas 128 GB de RAM de MacBook, el doble de lo que yo». tener.»

El nuevo Mixtral aún no figura en Chatbot Arena, señaló Willison, porque Mistral aún no ha lanzado un modelo ajustado para chatear. Sigue siendo un LLM de tokens sin procesar y que predice el próximo. «Sin embargo, ahora hay al menos una versión adaptada de instrucción comunitaria», dice Willison.

Cambios en la clasificación de Chatbot Arena

Agrandar / Una captura de pantalla de la tabla de clasificación de Chatbot Arena tomada el 12 de abril de 2024.

Benj Edwards

Las noticias sobre LLM de esta semana no se limitan solo a los grandes nombres en el campo. También ha habido rumores en las redes sociales sobre el creciente rendimiento de modelos de código abierto como el de Cohere. Comando R+cual alcanzó la posición 6 en el LMSYS Tabla de clasificación de Chatbot Arena—La clasificación más alta jamás alcanzada para un modelo de pesos abiertos.

Y para aún más acción en Chatbot Arena, aparentemente la nueva versión de GPT-4 Turbo está resultando competitiva con Claude 3 Opus. Los dos todavía están empatados estadísticamente, pero GPT-4 Turbo recientemente se adelantó numéricamente. (En marzo, nosotros reportado cuando Claude 3 se adelantó numéricamente por primera vez al GPT-4 Turbo, que fue entonces la primera vez que otro modelo de IA superó a un modelo de la familia GPT-4 en la clasificación).

Con respecto a esta feroz competencia entre los LLM, de la cual la mayor parte del mundo muggle desconoce y probablemente nunca lo conocerá, Willison le dijo a Ars: «Los últimos dos meses han sido un torbellino; finalmente tenemos no solo uno, sino varios modelos que son competitivos con GPT. -4.» Veremos si OpenAI rumoreado lanzamiento de GPT-5 A finales de este año restaurará el liderazgo tecnológico de la compañía, observamos, que alguna vez pareció insuperable. Pero por ahora, dice Willison, «OpenAI ya no es el líder indiscutible en los LLM».

Enlace fuente