Apple ha compartido públicamente cuatro modelos de código abierto que ofrecen una mayor precisión en las consultas, lo que podría ayudar al desarrollo de futuros modelos de IA.
A medida que la industria tecnológica continúa avanzando con los desarrollos de la IA, Apple ha seguido ofreciendo más vistazos a la tecnología en la que está trabajando. En el último lanzamiento público, Apple lanzó un cuarteto de modelos de código abierto.
Conocidos como LLM eficientes de código abierto u OpenELM, los modelos de instrucción están alojados en la plataforma colaborativa Hugging Face. Hugging Face se utiliza para alojar modelos de IA, así como para entrenarlos y trabajar con otros para realizar mejoras.
OpenELM se refiere a una biblioteca de código abierto que combina múltiples modelos de lenguajes grandes (LLM) utilizando algoritmos evolutivos.
Los cuatro modelos OpenELM utilizan una «estrategia de escalamiento por capas» para asignar parámetros dentro de las capas de un modelo de transformador para una mayor precisión, se lee en la tarjeta modelo de los lanzamientos.
Los modelos fueron entrenados previamente utilizando la biblioteca CoreNet. Apple proporcionó modelos preentrenados y ajustados mediante instrucciones utilizando 270 millones, 450 millones, 1,1 mil millones y 3 mil millones de parámetros.
El conjunto de datos previo al entrenamiento utilizó una combinación de un subconjunto de Dolma v1.6, RefinedWeb, PILE deduplicado y un subconjunto de RedPajama. Esto resultó en un conjunto de datos con aproximadamente 1,8 billones de tokens.
en un documento relacionado Publicado el martes, los investigadores detrás del proyecto dicen que la reproducibilidad y transparencia de grandes modelos de lenguaje es «crucial para avanzar en la investigación abierta». También ayuda a garantizar la confiabilidad de los resultados y permite investigaciones sobre los sesgos y riesgos del modelo.
En cuanto a la precisión de los modelos, se explica que utilizando un presupuesto de parámetros de mil millones de parámetros, OpenELM tiene una mejora del 2,36% en la precisión con respecto a OLMo, al tiempo que requiere la mitad de la cantidad de tokens de preentrenamiento.
Los autores de los modelos y los artículos incluyen a Sachin Mehta, Mohammad Hossein Sekhavat, Qingqing Cao, Maxwell Horton, Yanzi Jin, Chenfan Sun, Iman Mirzadeh, Mahyar Najibi, Dmitry Belenko, Peter Zatloukal y Mohammad Rastegari.
La publicación del código fuente de los modelos es el último intento de Apple de dar a conocer sus desarrollos en inteligencia artificial y aprendizaje automático.
Este no es el primer lanzamiento público de rutinas de IA de Apple. En octubrecompartió un LLM de código abierto llamado Ferret, que mejoró la forma en que un modelo podía analizar una imagen.
En abriluna nueva versión de Ferret agregó la capacidad de analizar puntos de datos dentro de la captura de pantalla de una aplicación y comprender en general cómo funciona la aplicación.
Se espera que la WWDC de junio incluya bastante avances en IA para los productos de Apple.