Cómo los avances en inteligencia artificial de Apple podrían hacer o deshacer el iPhone 16

Lentes de cámara del Apple iPhone 15 Pro (en azul titanio) — Jason Hiner/ZDNET

Wall Street predice un 2024 difícil para la franquicia iPhone de Apple debido a la falta de nuevas características interesantes de hardware. ¿Podría el software de inteligencia artificial hacer que un iPhone 16 brille más?

Algunos alcistas de las acciones de Apple así lo creen. El analista de Morgan Stanley, Erik Woodring, opinó este mes que 2024 «será el año en que la oportunidad de ‘Edge AI’ de Apple se haga realidad», y que podría impulsar la nueva cosecha de iPhones este otoño a mayores alturas.

También: La cámara del iPhone 16 Ultra integrará el mayor salto en fotografías desde el blanco y negro al color

Las ventas de iPhone de Apple, lideradas por el iPhone 15 actualse espera que disminuyan aproximadamente un 2% este año, según estimaciones compiladas por FactSet Systems, a 229 millones de unidades, ya que el ciclo actual del iPhone decepciona con características de hardware meramente iterativas.

Pero en 2025, escribió el analista Woodring, las expectativas actuales de Wall Street de un crecimiento del 4%, a 237 millones de unidades, podrían resultar un 15% más altas si un iPhone 16 tiene capacidades mejoradas de inteligencia artificial.

«Si estamos en lo cierto y las nuevas funciones de software habilitadas para LLM impulsan un ciclo de actualización, entonces vemos un potencial de aumento de hasta un 15% en nuestro pronóstico de envío de iPhone para el año fiscal 25», escribió Woodring. El acrónimo «LLM» se refiere a «grandes modelos de lenguaje» como el GPT-4 de OpenAI.

Woodring especula que el mundo verá detalles en la Conferencia Mundial de Desarrolladores de Apple este verano, «destacado por un Siri 2.0 con tecnología LLM y un sistema operativo más amplio habilitado para GenAI que tiene el potencial de catalizar un ciclo de actualización del iPhone».

¿Por qué es tan importante el «LLM»? Para utilizar modelos de lenguaje grandes similares al GPT-4 de OpenAI se requiere que un teléfono vaya y venga a la red, envíe indicaciones y recupere respuestas. Incluso en una computadora de escritorio con conexión Ethernet, el viaje de ida y vuelta significa esperar un tiempo para recibir una respuesta. En un dispositivo móvil en una red celular, depender de la conexión a la nube podría resultar en uno de esos momentos incómodos en los que Siri parece tener muerte cerebral.

También: Revisión del iPhone 15: pasé un mes con el modelo base de Apple y lo encontré más ‘Pro’ que nunca

En cambio, lo que se necesita es eliminar la dependencia de la nube y mover más procesamiento LLM localmente, en el dispositivo. Apple ya tiene lo que llama «Neural Engine» en el iPhone, una colección separada de circuitos para ejecutar IA. Sin embargo, es probable que las tareas de IA realizadas por Neural Engine (tareas mucho menos exigentes que un LLM) involucren funciones muy cuidadosamente definidas, como el reconocimiento facial, donde el uso de los circuitos ha sido cuidadosamente seleccionado.

Tomar un modelo de lenguaje grande disponible en el mercado y ejecutarlo localmente será una tarea mucho más exigente.

Woodring basa gran parte de su entusiasmo sobre la IA de este año en un artículo publicado este mes por los investigadores de Apple Keivan Alizadeh y sus colegas, titulado «LLM en un instante: inferencia eficiente de modelos de lenguaje grande con memoria limitada», que es publicado en el servidor de preimpresión arXiv.

También: El aspirante a asesino de teléfonos inteligentes de Humane, ‘Ai Pin’, puede ser el producto más exitoso hasta el momento en 2023

El quid del artículo es que los LLM consumen mucha memoria, y Apple ha encontrado una manera inteligente de utilizar el vasto almacenamiento de la memoria flash residente, el material que contiene los archivos del iPhone. Con un software especial, un LLM se puede mover fácilmente dentro y fuera de la memoria principal, DRAM, con la ilusión de tener mucha más DRAM de la típica en el teléfono.

Como escriben Alizadeh y sus colegas, las tácticas que utilizan con la memoria «permiten ejecutar modelos de hasta el doble del tamaño de la DRAM disponible» y acelerar la realización de predicciones en un dispositivo hasta 25 veces.

El problema que abordan los autores es que simplemente no hay suficiente DRAM en la mayoría de los móviles, mientras que los LLM son cada vez más grandes. «Un modelo de 7 mil millones de parámetros requiere más de 14 GB de memoria solo para cargar los parámetros en formato de coma flotante de media precisión, lo que excede las capacidades de la mayoría de los dispositivos de vanguardia», escriben Alizadeh y su equipo, refiriéndose a los «pesos» o «parámetros» neuronales. , «valores que se almacenan en la memoria y que dan forma a una red neuronal entrenada.

También: El nuevo Galaxy S24 de Samsung supera al iPhone 15 Pro de una manera muy significativa

Apple no revela las cantidades de DRAM integrada, pero el sitio Everymac cita datos de terceros sugiriendo que el iPhone 15 Pro Max tiene 8 GB de DRAM. Samsung presentó recientemente Galaxia S24 Ultra tiene 12 GB de DRAM, según Samsung.

Por supuesto, hay mucha más memoria disponible en el almacenamiento flash NAND de los teléfonos. El Pro Max tiene un terabyte de memoria, al igual que el S24 Ultra. El mayor problema es mover datos de un lado a otro. La memoria flash NAND es más lenta que la memoria DRAM, por lo que obtener datos de ella cada vez es más lento que operar completamente sin DRAM.

apple-2024-llm-gestión-de-memoria-de-inferencia — Apple experimenta manteniendo la red neuronal en la memoria flash y colocando solo una parte en la DRAM.

Manzana

Es más, pasar datos de la memoria flash a la memoria DRAM conlleva un tiempo de transferencia, lo que introduce un retraso, llamado latencia, entre lo que el usuario intenta hacer y los resultados. Eso podría significar que el usuario espere unos segundos entre, por ejemplo, escribir un mensaje de LLM y recibir una respuesta, algo tan malo como ir a la nube. Incluso pasar de la DRAM al procesador central del teléfono introduce un retraso, señalan los autores.

Su solución es utilizar un aspecto fundamental de las redes neuronales, incluidos los LLM: la escasez. La escasez significa que muchos de esos pesos neuronales que componen la red neuronal están en realidad vacíos. Tienen un valor numérico de cero. Por lo tanto, se pueden ignorar, de modo que sólo sea necesario recuperar de la memoria una pequeña cantidad de los pesos totales.

También: ¿Comprar el Samsung Galaxy S24 por sus funciones de IA? Lea primero la letra pequeña

«Los LLM exhiben un alto grado de escasez», escriben Alizadeh y su equipo. «Explotamos esta escasez para cargar selectivamente sólo parámetros de la memoria flash que tienen entradas distintas de cero o que se predice que tendrán salidas distintas de cero».

Los autores también idean muchas técnicas inteligentes sobre cual de esos pesos distintos de cero para llamar desde la memoria flash, cosas como la búsqueda previa de los pesos que es más probable que se necesiten en función de la tarea de predicción que el usuario puede activar a continuación.

El informe demuestra aceleraciones espectaculares al ejecutar dos LLM de código abierto: Meta’s Transformador abierto preentrenadoy el Serie Falcon de modelos de lenguaje. del Instituto de Innovación Tecnológica de Abu Dhabi.

mejora-de-inferencia-de-apple-2024-llm — Apple pudo reducir la latencia al ofrecer modelos de lenguaje grandes.

Manzana

Solo hay un problema con las esperanzas de Woodring y otros de un iPhone 16 como supercomputadora para IA: el trabajo en el trabajo de investigación se realizó en una Mac. Específicamente, Alizadeh y su equipo desarrollaron todas sus técnicas en el «M1 máx.«, que solo se encuentra en la MacBook Pro y la computadora de escritorio Studio de Apple. Ese chip es sustancialmente más grande y más potente que el «A17 Pro» que se encuentra en el iPhone 15.

Además, como afirman los autores, sus pruebas no tocan una de las cosas que más preocupan a los usuarios de ordenadores de bolsillo: la duración de la batería. «Un aspecto crítico para la exploración futura es el análisis del consumo de energía y las limitaciones térmicas inherentes a los métodos que proponemos, particularmente para la implementación en el dispositivo», escriben.

También: Apple Silicon, Rosetta, M1, M2, M3, SoC: por qué estos términos son importantes para todos los compradores de computadoras

Sin embargo, el silicio de la serie M de Apple ha llegado en general a los dispositivos móviles. Los chips M1 y M2 originales terminaron en versiones de las tabletas iPad Pro y iPad Air de Apple. Eso significa que hay una continuidad tanto en los chips como en los esfuerzos de software de Apple, como el que exploran Alizadeh y su equipo.

Es posible que un procesador «A18» en un iPhone 16 Pro Max pueda lograr un equilibrio entre ejecutar una escasez inteligente y conservar la vida útil de la batería. También es posible que el tipo de enfoque discutido en el artículo pueda usarse con versiones muy pequeñas de LLM como primer paso. Ambos modelos probados en el artículo de Alizadeh tienen 7 mil millones de parámetros, lo que los hace bastante pequeños en términos de LLM. Apple podría reducir su tamaño aún más, por debajo de los mil millones de parámetros, para preservar la energía y uso de memoria y Uso de CPU.

Independientemente de lo que aparezca en la WWDC, o en la presentación prevista del iPhone en septiembre, se puede suponer que la estructura de la investigación de Alizadeh y su equipo muestra que la IA saldrá de la nube y llegará a su bolsillo tarde o temprano.

Enlace fuente