Manzana los investigadores tienen introducido un modelo de IA innovador, edición de imágenes guiada por MLLM (MGIE), capaz de editar imágenes basándose en indicaciones de texto. Desarrollado en colaboración con investigadores de la Universidad de California en Santa Bárbara, este modelo representa un avance significativo en la tecnología de edición de imágenes. A diferencia de los modelos existentes, MGIE supuestamente maneja una amplia gama de escenarios de edición, desde simples ajustes de color hasta complejas manipulaciones de objetos.
El núcleo de MGIE es un modelo de lenguaje grande multimodal (MLLM), que interpreta las solicitudes de los usuarios y proporciona instrucciones concisas para la edición de imágenes. Este enfoque permite que el modelo aborde comandos ambiguos de manera efectiva, logrando resultados de edición razonables. Por ejemplo, MLLM entiende una solicitud para «hacer una pizza más saludable» y conecta el término «saludable» con «ingredientes vegetales», indicando al modelo de difusión que edite la imagen en consecuencia.
El MGIE puede editar imágenes a partir de su descripción de texto.
Lo que distingue a MGIE de los modelos existentes como la edición de imágenes guiada por LLM (LGIE) es su percepción visual mejorada. Si bien LGIE se limita a una única modalidad, MLLM dentro de MGIE tiene acceso a la imagen de entrada y comprensión intermodal, lo que permite instrucciones más descriptivas. Esta capacidad permite al modelo identificar regiones específicas de la imagen que necesitan ajuste, como iluminar ciertas áreas para lograr el efecto deseado.
MGIE ahora está disponible como proyecto de código abierto en GitHub, que ofrece código, datos y modelos previamente entrenados para descargar. Además, una demostración web alojada en Hugging Face espacios permite a los usuarios experimentar de primera mano las capacidades de edición de imágenes del modelo. Sin embargo, Apple aún no ha revelado sus planes para integrar MGIE en sus productos más allá de los proyectos de investigación.
Durante La reciente convocatoria de resultados trimestrales de Appleel director ejecutivo Tim Cook confirmó el trabajo en curso de la compañía en Funciones de IA para sus dispositivos. Es probable que la empresa anuncie los resultados a finales de este año. Estándar empresarial espera estas mejoras de IA se extenderán a varios servicios de Apple, incluidos siri, Mensajes y Apple Music. Con la incorporación de funciones de IA generativa, los usuarios pueden anticipar mejoras como resúmenes de texto, sugerencias personalizadas y funcionalidad mejorada en todo el ecosistema de Apple.