Manzana Los investigadores han compartido su trabajo sobre la construcción de un multimodal. inteligencia artificial (AI) modelo de lenguaje grande (LLM), en un artículo preimpreso. Publicado en un portal en línea el 14 de marzo, el artículo destaca cómo fue capaz de lograr las capacidades avanzadas de la multimodalidad y hacer que el modelo básico se entrenara tanto con datos de solo texto como con imágenes. Los nuevos avances en IA para el gigante tecnológico con sede en Cupertino llegan tras los del CEO Tim Cook comentarios hecho durante las llamadas de ganancias de la compañía donde dijo que las funciones de inteligencia artificial podrían llegar a finales de este año.
La versión preimpresa del trabajo de investigación ha sido publicado en arXiv, un repositorio en línea de acceso abierto de artículos académicos. Sin embargo, los artículos publicados aquí no están revisados por pares. Si bien el documento en sí no menciona a Apple, la mayoría de los investigadores mencionados están afiliados a la división de aprendizaje automático (ML) de la compañía, lo que lleva a creer que el proyecto también está afiliado a la iPhone fabricante.
Según los investigadores, están trabajando en MM1, una familia de modelos multimodales que contiene hasta 30 mil millones de parámetros. Llamándolo un «LLM multimodal de alto rendimiento (MLLM), los autores del artículo destacaron que los codificadores de imágenes, el conector del lenguaje de visión y otros componentes de arquitectura y elecciones de datos se tomaron para crear el AI modelo que es capaz de comprender tanto texto como entradas basadas en imágenes.
Dando un ejemplo, el artículo afirma: «Demostramos que para el preentrenamiento multimodal a gran escala, el uso de una combinación cuidadosa de datos de imagen-pie de foto, imagen-texto entrelazado y datos de solo texto es crucial para lograr la tecnología más avanzada». (SOTA) resultados de pocas oportunidades en múltiples puntos de referencia, en comparación con otros resultados previos al entrenamiento publicados”.
Para descomponerlo, el modelo de IA se encuentra actualmente en la fase de preentrenamiento, lo que significa que no está lo suficientemente entrenado para brindar los resultados deseados. Esta es la etapa en la que el algoritmo y la arquitectura de IA se utilizan para diseñar el flujo de trabajo del modelo y, eventualmente, cómo procesa los datos. El equipo de investigadores de Apple pudo agregar visión por computadora al modelo utilizando codificadores de imágenes y un conector de lenguaje de visión. Luego, al realizar pruebas con una combinación de solo imágenes, imagen y texto, y un conjunto de datos de solo texto, el equipo descubrió que los resultados eran competitivos en comparación con los modelos existentes en la misma etapa.
Si bien el avance es significativo, este trabajo de investigación no es suficiente para determinar que se agregará un chatbot de IA multimodal al sistema operativo de Apple. En esta etapa, es difícil incluso decir si el modelo de IA es multimodal al recibir entradas o también al generar resultados (si puede generar imágenes de IA o no). Pero si se confirma que los resultados son consistentes después de una revisión por pares, se puede decir que el gigante tecnológico ha dado otro gran paso hacia la construcción de un modelo básico de IA generativa nativa.