Investigadores de Apple trabajan en MM1, una familia de modelos de IA multimodal con hasta 30 mil millones de parámetros

Manzana Los investigadores han compartido su trabajo sobre la construcción de un multimodal. inteligencia artificial (AI) modelo de lenguaje grande (LLM), en un artículo preimpreso. Publicado en un portal en línea el 14 de marzo, el artículo destaca cómo fue capaz de lograr las capacidades avanzadas de la multimodalidad y hacer que el modelo básico se entrenara tanto con datos de solo texto como con imágenes. Los nuevos avances en IA para el gigante tecnológico con sede en Cupertino llegan tras los del CEO Tim Cook comentarios hecho durante las llamadas de ganancias de la compañía donde dijo que las funciones de inteligencia artificial podrían llegar a finales de este año.

La versión preimpresa del trabajo de investigación ha sido publicado en arXiv, un repositorio en línea de acceso abierto de artículos académicos. Sin embargo, los artículos publicados aquí no están revisados por pares. Si bien el documento en sí no menciona a Apple, la mayoría de los investigadores mencionados están afiliados a la división de aprendizaje automático (ML) de la compañía, lo que lleva a creer que el proyecto también está afiliado a la iPhone fabricante.

Según los investigadores, están trabajando en MM1, una familia de modelos multimodales que contiene hasta 30 mil millones de parámetros. Llamándolo un «LLM multimodal de alto rendimiento (MLLM), los autores del artículo destacaron que los codificadores de imágenes, el conector del lenguaje de visión y otros componentes de arquitectura y elecciones de datos se tomaron para crear el AI modelo que es capaz de comprender tanto texto como entradas basadas en imágenes.

Dando un ejemplo, el artículo afirma: «Demostramos que para el preentrenamiento multimodal a gran escala, el uso de una combinación cuidadosa de datos de imagen-pie de foto, imagen-texto entrelazado y datos de solo texto es crucial para lograr la tecnología más avanzada». (SOTA) resultados de pocas oportunidades en múltiples puntos de referencia, en comparación con otros resultados previos al entrenamiento publicados”.

Para descomponerlo, el modelo de IA se encuentra actualmente en la fase de preentrenamiento, lo que significa que no está lo suficientemente entrenado para brindar los resultados deseados. Esta es la etapa en la que el algoritmo y la arquitectura de IA se utilizan para diseñar el flujo de trabajo del modelo y, eventualmente, cómo procesa los datos. El equipo de investigadores de Apple pudo agregar visión por computadora al modelo utilizando codificadores de imágenes y un conector de lenguaje de visión. Luego, al realizar pruebas con una combinación de solo imágenes, imagen y texto, y un conjunto de datos de solo texto, el equipo descubrió que los resultados eran competitivos en comparación con los modelos existentes en la misma etapa.

Si bien el avance es significativo, este trabajo de investigación no es suficiente para determinar que se agregará un chatbot de IA multimodal al sistema operativo de Apple. En esta etapa, es difícil incluso decir si el modelo de IA es multimodal al recibir entradas o también al generar resultados (si puede generar imágenes de IA o no). Pero si se confirma que los resultados son consistentes después de una revisión por pares, se puede decir que el gigante tecnológico ha dado otro gran paso hacia la construcción de un modelo básico de IA generativa nativa.

Los enlaces de afiliados pueden generarse automáticamente; consulte nuestra Declaración de Ética para detalles.

Enlace fuente

Apple CON familia HASTA Investigadores MIL millones MM1 modelos multimodal parámetros trabajan una

El monitor AFib de la serie Apple Watch obtiene la certificación médica de la FDA

Spotify comienza silenciosamente a cobrar a los oyentes no premium por las letras

¿Windows 10 está teniendo una noche de los muertos vivientes?

Post Relacionados

El monitor AFib de la serie Apple Watch obtiene la certificación médica de la FDA

Spotify comienza silenciosamente a cobrar a los oyentes no premium por las letras

¿Windows 10 está teniendo una noche de los muertos vivientes?

El cuento de hadas de la era pandémica de Peloton ha terminado oficialmente

El servicio de streaming mas completo

Empresa

Recursos

Clientes

Empieza hoy

Hola!