OpenAI puede ser el nombre más conocido cuando se trata de IA generativa comercial, pero Meta ha conseguido hacerse un hueco a través de potentes modelos de lenguaje de gran tamaño de código abierto. Meta reveló su modelo de IA generativa más grande hasta el momento, Llama 3, el 18 de abril, que supera al GPT04 en algunas pruebas estándar de IA.
¿Qué es Llama 3?
Llama 3 es un LLM creado por Meta. Se puede utilizar para crear IA generativa, incluidos chatbots que pueden responder en lenguaje natural a una amplia variedad de consultas. Los casos de uso en los que se ha evaluado Llama 3 incluyen lluvia de ideas, escritura creativa, codificación, resumen de documentos y respuesta a preguntas en la voz de una persona o personaje específico.
El modelo completo Llama 3 viene en cuatro variantes:
- 8 mil millones de parámetros previamente entrenados.
- Instrucción de 8 mil millones de parámetros ajustada.
- 70 mil millones de parámetros previamente entrenados.
- Instrucción de 70 mil millones de parámetros ajustada.
Se pueden utilizar las capacidades de IA generativa de Llama 3 en un navegador, a través de funciones de IA en Facebook, Instagram, WhatsApp y Messenger de Meta. El modelo en sí se puede descargar desde Meta o desde las principales plataformas empresariales en la nube.
¿Cuándo se lanzará Llama 3 y en qué plataformas?
Llama 3 se lanzó el 18 de abril en Google Cloud Vertex AI, watsonx.ai de IBM y otras grandes plataformas de alojamiento LLM. AWS siguió y agregó Llama 3 a Amazon Bedrock el 23 de abril. A partir del 29 de abril, Llama 3 está disponible en las siguientes plataformas:
- Ladrillos de datos.
- Abrazando la cara.
- Kaggle.
- Microsoft Azure.
- NIM de NVIDIA.
Las plataformas de hardware de AMD, AWS, Dell, Intel, NVIDIA y Qualcomm son compatibles con Llama 3.
¿Llama 3 es de código abierto?
Llama 3 es de código abierto, como lo han sido los otros LLM de Meta. La creación de modelos de código abierto ha sido un valioso diferenciador para Meta.
VER: El informe del índice de IA de Stanford revela 8 tendencias para la IA en los negocios hoy. (República Tecnológica)
Existe cierto debate sobre qué parte del código o los pesos de un modelo de lenguaje grande deben estar disponibles públicamente para contar como código abierto. Pero en lo que respecta a los fines comerciales, Meta ofrece una mirada más abierta a Llama 3 que sus competidores para sus LLM.
¿Llama 3 es gratis?
Llama 3 es gratuito siempre que se utilice según los términos del licencia. El modelo se puede descargar. directamente desde meta o utilizados dentro de los diversos servicios de alojamiento en la nube enumerados anteriormente, aunque esos servicios pueden tener tarifas asociadas.
¿Llama 3 es multimodal?
Llama 3 no es multimodal, lo que significa que no es capaz de comprender datos de diferentes modalidades como vídeo, audio o texto. Meta planea hacer que Llama 3 sea multimodal en un futuro próximo.
Mejoras de Llama 3 respecto a Llama 2
Para hacer que Llama 3 sea más capaz que Llama 2, Meta agregó un nuevo tokenizador para codificar el lenguaje de manera mucho más eficiente. Meta mejoró Llama 3 con atención de consultas agrupadas, un método para mejorar la eficiencia de la inferencia del modelo. El conjunto de entrenamiento de Llama 3 es siete veces mayor que el conjunto de entrenamiento utilizado para Llama 2, dijo Meta, e incluye cuatro veces más código. Meta aplicó nuevas eficiencias al preentrenamiento y al ajuste de instrucciones de Llama 3.
Dado que Llama 3 está diseñado como un modelo abierto, Meta agregó barreras de seguridad pensando en los desarrolladores. Una nueva barrera de seguridad es Code Shield, cuyo objetivo es detectar el código inseguro que el modelo pueda producir.
¿Qué sigue para Llama 3?
Meta planea:
- Agregue varios idiomas a Llama 3.
- Expanda la ventana contextual.
- Generalmente aumenta las capacidades del modelo en el futuro.
Meta está trabajando en un modelo de parámetros 400B, que puede ayudar a dar forma a la próxima generación de Llama 3. En las primeras pruebas, Llama 3 400B con ajuste de instrucciones anotó 86.1 en la evaluación de conocimientos de MMLU (una prueba de referencia de IA), según Meta, lo que lo hace competitivo con GPT-4. Llama 400B sería el LLM más grande de Meta hasta el momento.
El lugar de Llama 3 en el competitivo panorama de la IA generativa
Llama 3 compite directamente con GPT-4 y GPT-3.5, Géminis de Google y Gemma, Mistral 7B de Mistral AI, Perplexity AI y otros LLM para uso individual o comercial para crear chatbots de IA generativa y otras herramientas. Aproximadamente una semana después de que se revelara Llama 3, Snowflake presentó su propia IA empresarial abierta con capacidades comparables, llamada Copo de nieve ártico.
Los crecientes requisitos de rendimiento de los LLM como Llama 3 están contribuyendo a una carrera armamentista de PC con IA que puede ejecutar modelos al menos parcialmente en el dispositivo. Mientras tanto, las empresas de IA generativa pueden enfrentarse a un mayor escrutinio por sus grandes necesidades informáticas, lo que podría contribuir a empeoramiento del cambio climático.
Llama 3 contra GPT-4
Llama 3 supera al GPT-4 de OpenAI en HumanEval, que es un punto de referencia estándar que compara la capacidad del modelo de IA para generar código con el código escrito por humanos. Llama 3 70B obtuvo una puntuación de 81,7, en comparación con Puntuación de 67 de GPT-4.
Sin embargo, GPT-4 superó a Llama 3 en la evaluación de conocimientos MMLU con una puntuación de 86,4 frente a 79,5 de Llama 3 70B. El rendimiento de Llama 3 en más pruebas se puede encontrar en Publicación del blog de Meta.