Inside Phi 2: el modelo de lenguaje pequeño de Microsoft

2023 fue en gran medida el año del modelo de lenguaje grande. Modelos GPT de OpenAI, Meta’s Llama, PaLM de Googley Claude 2 de Anthropic Son todos grandes modelos de lenguaje, o LLM, con muchos miles de millones de parámetros, entrenados en contenido de Internet y utilizados para generar texto y código.

Pero no son las únicas tecnologías que se están desarrollando. Caso concreto: Microsoft Research ha estado explorando una forma alternativa de construir modelos de IA generativa que ofrece resultados consistentes con un número mucho menor de parámetros. Ingrese el modelo de lenguaje pequeño, o SLM.

¿Por qué modelos de lenguaje pequeños?

Un modelo de lenguaje pequeño es mucho más fácil de hacer portátil. No siempre podemos estar conectados a la nube. Al mismo tiempo, es posible que no queramos entrenar un modelo con datos públicos. Se necesitan meses para capacitar a un LLM de clase GPT utilizando una supercomputadora. Al construir un modelo de lenguaje a partir de un conjunto más pequeño de datos privados o específicos de un dominio (por ejemplo, el código base interno de un banco), podríamos ofrecer un modelo que sea a la vez más pequeño y más especializado (como un generador de código que se beneficie de años de investigación interna). conocimientos y estándares de codificación de los equipos de desarrollo del banco).

Actualmente se está trabajando mucho en los SLM, con resultados sorprendentemente buenos. Una de las familias de modelos más interesantes es Serie Phi de Microsoft Researchque recientemente cambió de una licencia exclusiva para investigación a una licencia MIT más permisiva.

Microsoft Research ha utilizado un enfoque que denomina “todo lo que necesita son libros de texto” para entrenar su serie Phi de SLM. La idea es entrenar estratégicamente el modelo utilizando fuentes autorizadas, para poder brindar respuestas de manera clara y concisa. Para la última versiónPhi 2, los datos de entrenamiento de Microsoft mezclaron contenido sintético e información rastreada en la web.

Los datos sintéticos se utilizan para brindar al modelo conocimientos fundamentales que respalden el razonamiento básico, así como una base de conocimiento general, de modo que los resultados no se limiten a datos de nivel de libro de texto y puedan responder al contexto de un usuario de manera más efectiva. los resultados hablan por si mismos. Phi 2 ha comparado modelos tan grandes y considerablemente más complejos, y a veces mejores que ellos.

Entrenamiento de un SLM con datos seleccionados

Microsoft Research señala que la calidad de los datos de entrenamiento utilizados es clave para ofrecer buenos resultados y exhibir el tipo de comportamiento observado en modelos mucho más grandes. En lugar de entrenar el modelo con un gran corpus de datos web, que es inherentemente aleatorio, el equipo que construye los modelos Phi selecciona sus datos de entrenamiento, centrándose en la calidad del contenido. El equipo también utilizó el conocimiento existente de modelos Phi anteriores para impulsar Phi 2, acelerando el entrenamiento.

A diferencia de los transformadores de mayor escala, los modelos Phi no reciben aprendizaje reforzado impulsado por retroalimentación humana. La curación de los datos de entrenamiento hace innecesario este aprendizaje por refuerzo. También hace que sea menos probable que el modelo produzca resultados tóxicos o sesgados. Sin embargo, se aplica el principio de basura que entra, basura sale: sería posible entrenar una versión de Phi que estuviera deliberadamente sesgada al elegir un conjunto sesgado de datos de entrenamiento. Como resultado, debe probar cualquier SLM antes de usarlo para asegurarse de que se comportará como se espera.

Los datos sintéticos utilizados como parte del conjunto de entrenamiento de Phi fueron generados por IA, por lo que era necesario examinarlos cuidadosamente para garantizar que no incluyeran imprecisiones. La primera versión de Phi. fue diseñado para funcionar como generador de código y fue capacitado en bases de código existentes con licencias permisivas; Luego, estos se seleccionaron más para filtrar el código que no era adecuado para fines didácticos. Es posible que Phi no tenga todo el poder del Codex de OpenAI, pero puede brindar consejos e ideas útiles para trabajar con código, especialmente cuando se combina con un índice de búsqueda centrado en código.

Los libros de texto son todo lo que necesitas

vale la pena leer el original Los libros de texto son todo lo que necesitas papel y su seguimiento, a medida que detallan cómo el equipo modelo desarrolló sus conjuntos de datos de entrenamiento sintéticos, utilizando GPT 3.5 para crear códigos de muestra y libros de texto. Una conclusión interesante fue cómo pudieron evitar que los documentos generados fueran demasiado similares agregando aleatoriedad a las indicaciones utilizadas para crear contenido. Una vez generado un modelo base, el equipo lo ajustó con datos más detallados, por ejemplo produciendo diferentes ajustes para diferentes tareas.

Aunque Phi 2 tiene muchos menos parámetros que, digamos, GPT 3.5, todavía necesita un entorno de entrenamiento dedicado. El SLM utilizó un conjunto de datos de tokens de 1,4 billones, con 2,7 mil millones de parámetros, y tardó 14 días en entrenarse. Si bien necesitaba 96 GPU Nvidia A100, la capacitación tomó mucho menos tiempo y muchos menos recursos que la capacitación de un LLM como GPT. Es posible que capacitar un SLM esté al alcance de la mayoría de las organizaciones, especialmente si se utiliza capacidad de pago por uso en una nube pública.

Es posible imaginar formulaciones alternativas de Phi basadas en diferentes conjuntos de datos sintéticos, por ejemplo, una biblioteca de contratos sintéticos u otros tipos de documentos comunes. Una vez capacitado, el ajuste con documentos reales en el dominio de destino reduce el riesgo de error y ayuda a entregar un modelo fundamentado.

Por supuesto, no es necesario construir o ajustar su propia variante. Para la funcionalidad básica de chat, puede usar Phi 2 tal como está, o más probablemente, usarlo como parte de una aplicación basada en RAG (generación aumentada de recuperación), trabajando con LangChain o un enfoque similar. Como Phi es parte de Estudio de IA de Azure (etcétera Estudio de IA de Windows), se puede utilizar tanto en la nube como localmente.

Uso de SLM en sus aplicaciones

Una versión cuantificada de Phi 2 pesa menos de 1,9 GB, lo suficientemente pequeña como para ser entregada como parte de una aplicación web. (Encontrarás un Aplicación de demostración Rust/WebAssembly en el repositorio de Hugging Face.) Es lento dar una respuesta inicial mientras se carga, pero una vez que el SLM se almacena en caché, responde razonablemente. Eso sin necesidad de utilizar una GPU o NPU. Los aceleradores deberían permitir que un SLM funcione bien junto con el código tradicional.

Es importante tener en cuenta que los SLM como Phi 2 tienen sus limitaciones, especialmente en cuanto a la longitud del token de las indicaciones. No deberías esperar utilizar indicaciones complejas. Sin embargo, si desinfecta cuidadosamente las entradas y aplica límites estrictos a la longitud de la cadena, debería descubrir que un SLM manejará la mayoría de las consultas, por ejemplo, en una aplicación de preguntas y respuestas.

Tener un SLM local liviano ajustado a datos personalizados o utilizado como parte de una aplicación RAG local, donde el SLM proporciona la interfaz de lenguaje natural para una búsqueda, es una perspectiva intrigante. Un punto clave es que el tamaño y los requisitos de recursos de los SLM los hacen económicamente atractivos para tareas que serían demasiado costosas de realizar con LLM.

Incluir un SLM como Phi en flujos de trabajo comunes, como para entregar rápidamente resúmenes legibles y comprensibles de datos clave, podría resultar muy útil. El resultado sería una alternativa intrigante a los viejos paradigmas de la interfaz de usuario, especialmente cuando se trabaja con datos no estructurados.

Una opción interesante nos remonta a principios de la década de 1990 y a la investigación sobre la idea de “agentes inteligentes”. Un equipo de SLM como Phi, cada uno de los cuales impulse un agente inteligente y proporcione una interfaz entre nosotros y un mar de datos no estructurados, podría ser una forma de ofrecer el entorno informático adaptativo y basado en el contexto imaginado por los primeros investigadores de la informática ubicua.

Enlace fuente