Meta El martes lanzó al público su último y mayor modelo de inteligencia artificial (IA). Llamado Meta Llama 3.1 405B, la compañía dice que el modelo de código abierto supera a los principales modelos de IA cerrados como GPT-4, GPT-4o y Claude 3.5 Sonnet en varios puntos de referencia. liberado Los modelos de IA Llama 3 8B y 70B también se han actualizado. Las versiones más nuevas se basaron en el modelo 405B y ahora ofrecen una ventana de contexto de 128 000 tokens. Meta afirma que ambos modelos son ahora los principales modelos de lenguaje grande (LLM) de código abierto para sus tamaños.
Anunciando el nuevo modelo de IA en un blog correoEl conglomerado tecnológico afirmó: “Llama 3.1 405B es el primer modelo disponible abiertamente que rivaliza con los mejores modelos de IA en cuanto a capacidades de vanguardia en conocimiento general, maniobrabilidad, matemáticas, uso de herramientas y traducción multilingüe”.
Cabe destacar que 405B aquí se refiere a 405 mil millones de parámetros, que pueden entenderse como la cantidad de nodos de conocimiento del LLM. Cuanto mayor sea el tamaño del parámetro, más hábil será un modelo de IA para manejar consultas complejas. La ventana de contexto del modelo es de 128 000 tokens. Admite los idiomas inglés, alemán, francés, italiano, portugués, hindi, español y tailandés.
La empresa afirma que el Llama 3.1 405B fue evaluado en más de 150 pruebas comparativas en múltiples áreas. Según los datos compartidos en la publicación, el modelo de IA de Meta obtuvo una puntuación de 96,8 en la prueba de matemáticas de primaria 8K (GSM8K), 94,2 en GPT-4, 96,1 en GPT-4o y 96,4 en Claude 3.5 Sonnet. También superó a estos modelos en la prueba de prueba Reasoning Challenge (ARC) de AI2 para competencia científica, Nexus para uso de herramientas y la prueba de prueba de matemáticas de primaria multilingüe (MGSM).
El modelo de IA más grande de Meta se entrenó con más de 15 billones de tokens y más de 16 mil GPU Nvidia H100. Una de las principales novedades de Llama 3.1 405B es el soporte oficial para llamadas a herramientas, que permitirá a los desarrolladores usar Brave Search para búsquedas web, Wolfram Alpha para realizar cálculos matemáticos complejos y Code Interpreter para generar código Python.
Dado que Meta Llama 3.1 405B está disponible en código abierto, las personas pueden acceder a él desde el sitio web de la empresa. sitio web o de su rostro abrazador listadoSin embargo, al ser un modelo grande, requiere aproximadamente 750 GB de espacio de almacenamiento en disco para ejecutarse. Para la inferencia, también serán necesarios dos nodos en Model Parallel 16 (MP16). Model Parallelism 16 es una implementación específica de paralelismo de modelos donde una gran red neuronal se divide en 16 dispositivos o procesadores.
Además de estar disponible públicamente, el modelo también está disponible en las principales plataformas de IA de AWS, Nvidia, Databricks, Groq, Dell, Azure, Google Cloud, Snowflake y más. La empresa afirma que un total de 25 de estas plataformas estarán impulsadas por Llama 3.1 405B. Para mayor seguridad, la empresa ha utilizado Llama Guard 3 y Prompt Guards, dos nuevas herramientas que protegen al LLM de posibles daños y abusos.