Microsoft presenta la familia Pi-3 de modelos de lenguaje pequeño

Microsoft ha introducido una nueva familia de modelos de lenguaje pequeño (SLM) como parte de su plan para crear lenguajes livianos pero de alto rendimiento. inteligencia artificial generativa Tecnología disponible en más plataformas, incluidos dispositivos móviles.

La empresa presentó la plataforma Phi-3 en tres modelos: el Phi-3 Mini de 3.8 mil millones de parámetros, el Phi-3 Small de 7 mil millones de parámetros y el Phi-3 Medium de 14 mil millones de parámetros. Los modelos comprenden la siguiente versión de la línea de productos SLM de Microsoft que comenzó con el lanzamiento de Phi-1 y luego Phi-2 en sucesión rápida el pasado diciembre.

El Phi-3 de Microsoft se basa en el Phi-2, que podría comprender 2.700 millones de parámetros y obtener un rendimiento superior. grandes modelos de lenguaje (LLM) hasta 25 veces más grandes, dijo Microsoft en ese momento. Los parámetros se refieren a cuántas instrucciones complejas puede comprender un modelo de lenguaje. Por ejemplo, el modelo de lenguaje grande GPT-4 de OpenAI comprende potencialmente más de 1,7 billones de parámetros. Microsoft es un importante accionista y socio de OpenAI, y utiliza ChatGPT como base para su Asistente de IA generativa copiloto.

La IA generativa se vuelve móvil

Phi-3 Mini ya está disponible y los demás lo seguirán. Phi-3 se puede cuantificar a 4 bits, por lo que solo ocupa alrededor de 1,8 GB de memoria, lo que lo hace adecuado para su implementación en dispositivos móviles, revelaron investigadores de Microsoft en un reporte técnico sobre Phi-3 publicado en línea.

De hecho, los investigadores de Microsoft ya probaron con éxito el modelo Phi-3 Mini cuantificado implementándolo en un iPhone 14 con un chip A16 Bionic ejecutándose de forma nativa. Incluso con este pequeño tamaño, el modelo logró un rendimiento general, medido tanto por puntos de referencia académicos como por pruebas internas, que rivaliza con modelos como Mixtral 8x7B y GPT-3.5, dijeron los investigadores de Microsoft.

Pi-3 fue entrenado con una combinación de datos web «fuertemente filtrados» de varias fuentes abiertas de Internet, así como datos sintéticos generados por LLM. Microsoft realizó una capacitación previa en dos fases, una de las cuales estuvo compuesta principalmente por fuentes web destinadas a enseñar al modelo conocimientos generales y comprensión del lenguaje. La segunda fase fusionó datos web aún más filtrados con algunos datos sintéticos para enseñar al modelo razonamiento lógico y varias habilidades específicas, dijeron los investigadores.

Cambiar «cuanto más grande es mejor» por «menos es más»

Los cientos de miles de millones e incluso billones de parámetros que los LLM deben comprender para producir resultados tienen un costo, y ese costo es la potencia informática. Los fabricantes de chips que luchan por proporcionar procesadores para la IA generativa ya prevén una lucha para mantenerse al día con la rápida evolución de los LLM.

Phi-3, entonces, es una manifestación de una tendencia continua en el desarrollo de la IA de abandonar la mentalidad de “cuanto más grande, mejor” y, en cambio, buscar una mayor especialización en los conjuntos de datos más pequeños con los que se entrenan los SLM. Estos modelos proporcionan una opción menos costosa y menos intensiva en computación que aún puede ofrecer un alto rendimiento y capacidades de razonamiento a la par o incluso mejores que los LLM, dijo Microsoft.

Muchas instituciones financieras, empresas de comercio electrónico y organizaciones sin fines de lucro ya están adoptando el uso de modelos más pequeños debido a la personalización que pueden ofrecer, como la capacitación específica en los datos de un cliente, señaló Narayana Pappu, director ejecutivo de zendataun proveedor de soluciones de cumplimiento de privacidad y seguridad de datos.

Estos modelos también pueden proporcionar más seguridad a las organizaciones que los utilizan, ya que se pueden entrenar SLM especializados sin revelar datos confidenciales de una empresa. Además, debido a que sus conjuntos de datos son más pequeños, los SLM aumentan las posibilidades de que los datos entregados por los modelos sean precisos, señaló.

“El noventa por ciento de los datos generados están detrás del firewall de una empresa, [making it] «Es propietario, y la mayoría de las empresas no tienen suficientes datos y/o recursos para entrenar un modelo de lenguaje grande», dijo Pappu. «Los modelos de lenguaje pequeño abren estos datos para la IA».

Otros beneficios de los SLM para los usuarios empresariales incluyen una menor probabilidad de sufrir alucinaciones (o entregar datos erróneos) y menores requisitos de datos y preprocesamiento, lo que en general los hace más fáciles de integrar en el flujo de trabajo heredado de la empresa, añadió Pappu.

No es una ciencia perfecta… todavía

Eso no significa que los SLM sean perfectos o, en general, mejores que los LLM, al menos no todavía, reconocieron los investigadores de Microsoft en su informe técnico. Señalaron que Phi-3, como la mayoría de los modelos de lenguaje, todavía enfrenta «desafíos en torno a inexactitudes fácticas (o alucinaciones), reproducción o amplificación de sesgos, generación de contenido inapropiado y problemas de seguridad».

Y a pesar de su alto rendimiento, Phi-3 Mini tiene limitaciones debido a su menor tamaño. «Si bien el Phi-3 Mini alcanza un nivel similar de comprensión del lenguaje y capacidad de razonamiento como modelos mucho más grandes, todavía está fundamentalmente limitado por su tamaño para ciertas tareas», afirma el informe.

Por ejemplo, el Phi-3 Mini no tiene la capacidad de almacenar grandes cantidades de «conocimiento fáctico». Sin embargo, esta limitación se puede aumentar combinando el modelo con un motor de búsqueda, anotaron los investigadores. Otra debilidad relacionada con la capacidad del modelo es que los investigadores restringieron principalmente el idioma al inglés, aunque esperan que futuras iteraciones incluyan más datos multilingües.

Aún así, las investigaciones de Microsoft señalaron que seleccionaron cuidadosamente los datos de capacitación y realizaron pruebas para garantizar que mitigaran «significativamente» estos problemas «en todas las dimensiones», y agregaron que «hay mucho trabajo por delante para abordar plenamente estos desafíos».

Enlace fuente