Los investigadores de Apple han dado con un nuevo método multimodal para entrenar rápidamente grandes modelos de lenguaje (LLM) que pueden permitir sistemas de tipo «IA» y aprendizaje automático más flexibles y potentes.
A trabajo de investigación publicado por la compañía en el sitio de investigación arxiv.org a principios de esta semana reveló que Apple ha utilizado lo que llama una «mezcla cuidadosa» de datos de imagen-título, imagen-texto intercalado y solo texto para capacitar a los LLM. La combinación de datos visuales y lingüísticos permitió a los modelos manejar tareas como subtitular imágenes de forma inteligente o inferir significados en el lenguaje natural.
Como parte de la investigación, se determinó que la elección del codificador de imágenes y la resolución de las imágenes que procesa tiene un gran impacto en el rendimiento, más que el diseño del conector visión-lenguaje.
En un caso, utilizando un modelo MM1 de 30 mil millones de parámetros, se descubrió que había fuertes habilidades de aprendizaje en contexto. El descubrimiento significa que puede realizar un razonamiento de varios pasos sobre múltiples imágenes con pocas indicaciones de «cadena de pensamiento».
De acuerdo a VenturebeatApple continúa su tradición de ser un «seguidor rápido» en lugar de un «primero en actuar» cuando se trata de tecnologías innovadoras. CEO Tim Cook Recientemente reconoció que la empresa estaba gastando mil millones de dólares al año en incorporar «IA» a sus tecnologías existentes.
Cook dijo que la compañía compartiría «detalles de nuestro trabajo en curso en IA a finales de este año». Se espera que Apple haga algunos anuncios sobre sus avances en WWDC este junio.
La empresa es ambas alcanzando a sus rivales en el uso de tecnologías relacionadas con la IA. También está desarrollando métodos que preservarían la privacidad del usuario y al mismo tiempo aumentarían sus capacidades existentes de aprendizaje automático.
Esta última preocupación por la privacidad y la seguridad no ha sido una característica de los servicios de tipo «chatbot» existentes y aumenta el desafío para Apple.
El interés de Apple en el entrenamiento multimodelo de redes neuronales ha dado como resultado un rendimiento de última generación que permite el razonamiento en varios pasos. Esto sugiere que la empresa ha encontrado un camino para el rápido avance de las capacidades de aprendizaje automático, además de brindarles capacidades avanzadas de «inteligencia».