El motor de IA de siguiente nivel ocupa el primer lugar en el enfrentamiento de velocidad del LLM

¿Las respuestas a las indicaciones del chat de IA no son lo suficientemente ágiles? Groq, la empresa de inteligencia artificial generativa con sede en California, tiene una solución súper rápida en su motor de inferencia LPU, que recientemente superó a todos los competidores en los puntos de referencia públicos.

Groq ha desarrollado un nuevo tipo de chip para superar los problemas de densidad informática y ancho de banda de la memoria y aumentar las velocidades de procesamiento de aplicaciones informáticas intensivas como Large Language Models (LLM), reduciendo «la cantidad de tiempo por palabra calculada, lo que permite generar secuencias de texto mucho más». más rápido.»

Esta Unidad de Procesamiento del Lenguaje es una parte integral del motor de inferencia de la empresa, que procesa información y proporciona respuestas a las consultas de un usuario final, ofreciendo tantos tokens (o palabras) como sea posible para respuestas súper rápidas.

A fines del año pasado, las pruebas internas «establecieron un nuevo estándar de rendimiento» al lograr más de 300 tokens por segundo por usuario a través del LLM Llama-2 (70B) de Meta AI. En enero de 2024, la empresa participó en su primera evaluación comparativa pública, dejando a todos los demás proveedores de inferencia basados en la nube en su estela de desempeño. Ahora ha salido victorioso frente a los ocho principales proveedores de nube en pruebas independientes.

Groq informa que los ejes del gráfico Latencia vs. Rendimiento de ArtificialAnalysis.ai tuvieron que ampliarse para trazar el rendimiento del motor de inferencia de la unidad de procesamiento del lenguaje.

«ArtificialAnalysis.ai ha evaluado de forma independiente a Groq y su API Llama 2 Chat (70B) para lograr un rendimiento de 241 tokens por segundo, más del doble de la velocidad de otros proveedores de alojamiento», dijo Micah Hill-Smith, cocreador de ArtificialAnalysis.ai. . «Groq representa un cambio radical en la velocidad disponible, permitiendo nuevos casos de uso para modelos de lenguaje grandes».

El motor de inferencia Groq LPU quedó a la cabeza en aspectos como el tiempo total de respuesta, el rendimiento a lo largo del tiempo, la variación del rendimiento y la latencia frente al rendimiento; el gráfico para la última categoría necesitaba extender sus ejes para acomodar los resultados.

El motor de inferencia de la unidad de procesamiento de lenguaje Groq entregó 241 tokens por segundo y tardó 0,8 segundos en entregar 100 tokens.

«Groq existe para eliminar a los que tienen y a los que no tienen y para ayudar a todos en la comunidad de IA a prosperar», dijo el CEO y fundador de Groq, Jonathan Ross. «La inferencia es fundamental para lograr ese objetivo porque la velocidad es lo que convierte las ideas de los desarrolladores en soluciones comerciales y aplicaciones que cambian la vida. Es increíblemente gratificante que un tercero valide que el motor de inferencia LPU es la opción más rápida para ejecutar modelos de lenguaje grandes y Estamos agradecidos a la gente de ArtificialAnalysis.ai por reconocer a Groq como un verdadero competidor entre los aceleradores de IA».

Puede probar usted mismo el motor de inferencia LPU de la empresa a través del GroqChat interfaz, aunque el chatbot no tiene acceso a Internet. El acceso temprano a la API de Groq también está disponible para permitir a los usuarios aprobados poner a prueba el motor a través de Llama 2 (70B), Mistral y Falcon.

Fuente: Grok

Enlace fuente