Apple construye un modelo de IA reducido utilizando las innovaciones de Stanford y Google

logotipo de manzana — Jeenah Moon/Bloomberg vía Getty Images

El mundo está atento a lo que Apple hará para contrarrestar el dominio de Microsoft y Google en IA generativa. La mayoría asume que las innovaciones del gigante tecnológico tomarán la forma de redes neuronales en el iPhone y otros dispositivos iOS. Pequeñas pistas aparecen aquí y allá.

También: Cómo los avances en inteligencia artificial de Apple podrían hacer o deshacer el iPhone 16

Apple acaba de presentar su propio modelo de lenguaje grande (LLM) «integrado» para ejecutarse en dispositivos móviles, OpenELM, esencialmente combinando los avances de varias instituciones de investigación, incluidos los académicos y académicos de aprendizaje profundo de Google en Stanford y otros lugares.

Todo el código del programa OpenELM está publicado en GitHubjunto con documentación diversa para el enfoque formativo.

El trabajo de Apple, detallado en un artículo de Sachin Mehta y su equipo, «OpenELM: An Efficient Language Model Family with Open-source Training and Inference Framework», publicado en el servidor de preimpresión arXivse centra en dispositivos móviles, ya que el tamaño de la red neuronal que utilizan tiene solo 1.300 millones de pesos o parámetros neuronales.

Ese número está muy por debajo de los cientos de miles de millones de parámetros utilizados por modelos como el GPT-4 de OpenAI o Géminis de Google. Más parámetros aumentan directamente la memoria de la computadora requerida, por lo que una red neuronal más pequeña probablemente podría caber más fácilmente en un dispositivo móvil.

La combinación de Mehta y el equipo sería bastante corriente sin una contribución clave: la eficiencia. Los investigadores ajustan las capas de la red neuronal profunda para que el modelo de IA sea más eficiente que los modelos anteriores en cuanto a la cantidad de datos que deben calcularse al entrenar la red neuronal.

También: 2024 puede ser el año en que la IA aprenda en la palma de tu mano

Específicamente, pueden igualar o superar los resultados de una gran cantidad de redes neuronales para computación móvil «mientras requieren 2 veces menos tokens de preentrenamiento», donde los tokens son los caracteres, palabras o fragmentos de oraciones individuales en los datos de entrenamiento.

Apple parte del mismo enfoque que muchos LLM: un transformador. El transformador es la red neuronal distintiva en la comprensión del lenguaje, introducida por los científicos de Google en 2017. Desde entonces, todos los modelos de lenguaje importantes, incluidos BERT de Google y la familia de modelos GPT de OpenAI, han adoptado el transformador.

Apple logra una alta eficiencia fusionando el transformador con una técnica introducida en 2021 por investigadores de la Universidad de Washington, Facebook AI Research y el Instituto Allen de IA, llamada Deleitar. Ese trabajo rompió con el enfoque convencional en el que todos los pesos neuronales son los mismos para cada «capa» de la red, los sucesivos cálculos matemáticos a través de los cuales pasan los datos.

En cambio, los investigadores ajustaron selectivamente cada capa para que tuviera una cantidad diferente de parámetros. Debido a que algunas capas tienen relativamente pocos parámetros, llamaron a su enfoque un «transformador profundo y liviano», de ahí el nombre DeLighT.

También: Snowflake dice que su nuevo LLM supera a Meta’s Llama 3 en la mitad del entrenamiento

Los investigadores dicen que: «DeLighT iguala o mejora el rendimiento de los transformadores básicos con 2 a 3 veces menos parámetros en promedio».

Apple, utilizando DeLighT, crea OpenELM, donde cada capa de la red neuronal tiene un número distinto de parámetros neuronales, un enfoque no uniforme de los parámetros.

«Los LLM existentes utilizan la misma configuración para cada capa de transformador en el modelo, lo que da como resultado una asignación uniforme de parámetros entre capas», escriben Mehta y su equipo. «A diferencia de estos modelos, cada capa de transformador en OpenELM tiene una configuración diferente (por ejemplo, número de cabezales y dimensión de la red de alimentación), lo que resulta en un número variable de parámetros en cada capa del modelo».

El enfoque no uniforme, escriben, «permite a OpenELM utilizar mejor el presupuesto de parámetros disponible para lograr mayores precisiones».

También: ¡Ay! Microsoft Copilot falló en todas y cada una de mis pruebas de codificación

La competencia con la que se mide Apple utiliza redes neuronales igualmente pequeñas. Estos competidores incluyen MobiLlama de la Universidad de IA Mohamed bin Zayed e instituciones colaboradoras, y OLMo, presentado este año por investigadores del Instituto Allen de Inteligencia Artificial y académicos de la Universidad de Washington, la Universidad de Yale, la Universidad de Nueva York y la Universidad Carnegie Mellon.

Los experimentos de Apple no se llevan a cabo en un dispositivo móvil. En cambio, la empresa utiliza una estación de trabajo basada en Intel con una única GPU Nvidia y Ubuntu Linux.

En numerosas pruebas de referencia, el programa OpenELM logra mejores puntuaciones, a pesar de ser más pequeño y/o utilizar menos tokens. Por ejemplo, en seis de siete pruebas, OpenELM supera a OLMo a pesar de tener menos parámetros (1.080 millones frente a 1.180 millones) y sólo 1,5 billones de tokens de entrenamiento frente a 3 billones de OLMo.

También: Cómo evitar los dolores de cabeza del desarrollo de habilidades de IA

Aunque OpenELM puede ser más preciso que esos modelos de manera más eficiente, los autores señalan otras áreas de investigación en las que OpenELM es más lento en algunos casos para producir sus predicciones.

Una pregunta abierta para el trabajo de IA de iOS de Apple ha sido si el gigante tecnológico otorgará licencias de tecnología a Google o a otra parte que lidere el desarrollo de la IA. La inversión de Apple en software de código abierto confiere la intrigante posibilidad de que Apple esté intentando reforzar un ecosistema abierto del que sus propios dispositivos puedan beneficiarse.

Enlace fuente