Meta, matriz de Facebook, Instagram y WhatsApp, ha lanzado una nueva generación de su fuente abierta Modelo de lenguaje grande de llama (LLM) para conseguir una porción más grande del IA generativa mercado al enfrentarse a todos los proveedores de modelos, incluidos OpenAI, Mistral, Anthropic y Muk’s xAI.
“Esta próxima generación de Llama demuestra un rendimiento de vanguardia en una amplia gama de puntos de referencia de la industria y ofrece nuevas capacidades, incluido un razonamiento mejorado. Creemos que estos son los mejores modelos de código abierto de su clase, punto”, escribió la compañía en una publicación de blog, y agregó que se había propuesto construir un modelo de código abierto que esté a la par con los modelos propietarios de mejor rendimiento disponibles. en el mercado.
Actualmente, Meta está poniendo a disposición los dos primeros modelos (variantes preentrenadas y ajustadas con instrucciones con 8 mil millones y 70 mil millones de parámetros) de su tercera generación de LLM.
Normalmente, cualquier proveedor de LLM lanza múltiples variantes de modelos para permitir a las empresas elegir entre latencia y precisión según los casos de uso. Si bien un modelo con más parámetros puede ser relativamente más preciso, el que tiene menos parámetros requiere menos cálculo, tarda menos tiempo en responder y, por lo tanto, cuesta menos.
Las variantes publicadas, según Meta, son modelos basados en texto y no admiten ningún otro tipo de datos. La compañía espera lanzar modelos multilingües y multimodales con un contexto más amplio en el futuro mientras intenta mejorar el rendimiento general en capacidades como el razonamiento y las tareas relacionadas con el código.
Reclamación de mejor rendimiento que otros modelos.
Meta ha afirmado que su nueva familia de LLM funciona mejor que la mayoría de los otros LLM, con la excepción de mostrar cómo se desempeña frente a GPT-4, que ahora impulsa ChatGPT y los servicios de análisis y Azure de Microsoft.
“Las mejoras en nuestros procedimientos posteriores a la capacitación redujeron sustancialmente las tasas de falso rechazo, mejoraron la alineación y aumentaron la diversidad en las respuestas del modelo. También vimos capacidades muy mejoradas como el razonamiento, la generación de código y la instrucción después de hacer que Llama 3 sea más dirigible”, dijo la compañía en un comunicado.
Para comparar Llama 3 con otros modelos, la compañía realizó pruebas en lo que llama puntos de referencia estándar, como MMLU, GPQA, MATH, HumanEval y GSM-8K, y encontró que las variantes obtienen mejores puntajes que la mayoría de los LLM, como Mistral. Claude Sonnet y GPT 3.5.
Mientras que MMLU (Massive Multitask Language Understanding) es un punto de referencia diseñado para medir el conocimiento adquirido durante el entrenamiento previo mediante la evaluación de modelos, GPQA (Graduate-Level Google-Proof Q&A Benchmark) es una prueba para verificar la experiencia de un modelo en la resolución de problemas científicos complejos.
GPAQ es un conjunto de datos desafiante de 448 preguntas de opción múltiple escritas por expertos en biología, física y química, y los doctorados en los dominios correspondientes logran solo un 65% de precisión en estas preguntas.
GPT-4 obtuvo el puntaje de precisión más alto en la prueba con un 39%, según datos reportados en un artículo publicado en noviembre del año pasado. Por el contrario, la variante de 70 mil millones de parámetros de Llama 3 obtuvo una puntuación de 39,5, seguida por el modelo de parámetros más pequeño que logró una puntuación de 34,2.
GeminiPro 1.5, actualmente, tiene la puntuación más alta de 41,5 en el punto de referencia GPQA. El mismo LLM también superó a la variante más grande Llama 3 en la prueba de referencia MATH.
El conjunto de datos utilizado en la evaluación de los puntos de referencia, según la compañía, contenía alrededor de 1.800 indicaciones que cubrían 12 casos de uso clave: pedir consejo, lluvia de ideas, clasificación, respuesta a preguntas cerradas, codificación, escritura creativa, extracción, habitar un personaje/persona, abierto. respuesta a preguntas, razonamiento, reescritura y resumen.
«Para evitar un sobreajuste accidental de nuestros modelos en este conjunto de evaluación, ni siquiera nuestros propios equipos de modelado tienen acceso a él», dijo la compañía.
El sobreajuste es un fenómeno en el aprendizaje automático o el entrenamiento de modelos cuando un modelo funciona bien con los datos de entrenamiento pero no funciona con los datos de prueba. Siempre que un profesional de datos comienza a entrenar un modelo, debe mantener dos conjuntos de datos separados para entrenar y probar datos para verificar el rendimiento del modelo.
El sobreajuste ocurre cuando un modelo termina aprendiendo demasiado bien los datos de entrenamiento, es decir, aprende el ruido y las excepciones en los datos y no se adapta a los nuevos datos que se agregan.
Esto puede suceder cuando los datos de entrenamiento son demasiado pequeños, contienen información irrelevante o el modelo se entrena durante demasiado tiempo en un único conjunto de muestras.
El evaluación humana y el GSM-8K Los puntos de referencia, por otro lado, se utilizan para probar la generación de código y el razonamiento aritmético, respectivamente.
Mejoras sobre Llama 2
Meta en una publicación de blog dijo que ha realizado muchas mejoras en Llama 3, incluida la opción por un estándar arquitectura de transformador solo decodificador.
«Llama 3 utiliza un tokenizador con un vocabulario de 128.000 tokens que codifica el lenguaje de manera mucho más eficiente, lo que conduce a un rendimiento del modelo sustancialmente mejorado», dijo la compañía.
Para mejorar la eficiencia de inferencia de los modelos Llama 3, la compañía dijo que ha adoptado atención de consultas agrupadas (GQA) en los tamaños 8B y 70B.
“Entrenamos los modelos en secuencias de 8.192 tokens, usando una máscara para garantizar autoatención no traspasa las fronteras de los documentos”, añadió.
Otras mejoras incluyen el conjunto de datos de entrenamiento de Llama 3, que según la compañía es siete veces mayor que el utilizado para entrenar a Llama 2. Llama 3 está preentrenado con más de 15 billones de tokens que se recopilaron de fuentes disponibles públicamente, dijo la compañía.
Para garantizar que Llama 3 estuviera entrenada con datos de alta calidad, la empresa desarrolló una serie de canales de filtrado de datos, que incluyen el uso filtros heurísticos, Filtros NSFW, deduplicación semántica enfoques y clasificadores de textos.
«Descubrimos que las generaciones anteriores de Llama son sorprendentemente buenas para identificar datos de alta calidad, por lo que utilizamos Llama 2 para generar datos de entrenamiento para los clasificadores de calidad de texto que impulsan Llama 3», dijo la compañía.
Para reducir el tiempo de capacitación en un 95% en comparación con Llama 2, Meta afirma que utilizó una pila de capacitación avanzada que automatiza la detección, el manejo y el mantenimiento de errores.
«También mejoramos enormemente la confiabilidad de nuestro hardware y los mecanismos de detección de corrupción silenciosa de datos, y desarrollamos nuevos sistemas de almacenamiento escalables que reducen los gastos generales de los puntos de control y la reversión», dijo la compañía.
Las carreras de entrenamiento para Llama 3 se realizaron en dos Clústeres de GPU de 24K.
¿Qué más obtienes con Llama 3?
Como parte del lanzamiento de las dos variantes de Llama 3, Meta dijo que estaba introduciendo nuevas herramientas de confianza y seguridad, como Llama Guard 2, Escudo de códigoy Evaluación de seguridad cibernética 2.
Si bien Llama Guard 2 es un modelo de protección que los desarrolladores pueden usar como una capa adicional para reducir la probabilidad de que su modelo genere resultados que no estén alineados con las pautas previstas, Code Shield es una herramienta dirigida a los desarrolladores para ayudar a reducir la posibilidad de generar código potencialmente inseguro.
Por otro lado, CyberSecEval, que está diseñado para ayudar a los desarrolladores a evaluar cualquier riesgo de ciberseguridad con código generado por LLM, se ha actualizado con una nueva capacidad.
«Cybersec Eval 2 amplía su predecesor al medir la susceptibilidad de un LLM a la inyección rápida, las capacidades de ciberseguridad ofensivas automatizadas y la propensión a abusar de un intérprete de código, además de las evaluaciones existentes para prácticas de codificación inseguras», dijo la compañía.
Para mostrar el poder de sus nuevos LLM, la compañía también lanzó un nuevo asistente de IA, apuntalado por los nuevos modelos, a los que se podrá acceder a través de sus plataformas de Facebook, Instagram y WhatsApp. También se ha diseñado una página web separada para ayudar a los usuarios a acceder al asistente.
La empresa ya está trabajando en variantes de Llama 3, que tienen más de 400 mil millones de parámetros. Meta dijo que lanzará estas variantes en los próximos meses a medida que se complete su entrenamiento efectivo.
Copyright © 2024 IDG Communications, Inc.