Los investigadores de Apple han publicado un inteligencia artificial (IA) herramienta de edición de imágenes llamada MGIE, que es capaz de editar imágenes mediante indicaciones de texto simples. MGIE, que significa edición de imágenes guiada por MLLM, es capaz de realizar ediciones al estilo de Photoshop, optimización global y ediciones locales. La herramienta de IA se lanzó pocos días después que Apple Anunciado en su informe de resultados trimestrales afirmó que ha estado dedicando una “enorme cantidad de tiempo y esfuerzo” a la IA generativa. El modelo de edición de imágenes muestra una mejora con respecto a las herramientas de edición de IA existentes actualmente.
Investigadores de Manzana y de la Universidad de California, Santa Bárbara colaboraron en los esfuerzos para desarrollar la herramienta. VentureBeat informes que el artículo se presentó en la Conferencia Internacional sobre Representaciones del Aprendizaje (ICLR) 2024. Una versión preimpresa de la investigación papel También se ha alojado en arXiv.
La herramienta de inteligencia artificial es capaz de realizar ediciones al estilo de Photoshop que incluyen recortar, cambiar el tamaño, rotar, agregar filtros y más. También puede agregar optimización global donde puede alterar el brillo, el contraste, la nitidez, el equilibrio de color e incluso agregar elementos generativos a la imagen. Además, puede realizar ediciones locales donde agrega, elimina o altera un objeto o elemento en particular en la imagen.
Para realizar una edición, los usuarios pueden simplemente escribir un mensaje de texto sin formato como «hacer que el cielo sea más brillante» o «hacer la casa más grande», que luego se interpreta como un comando de imagen y se usa para aumentar el brillo en un cierto porcentaje o aumentar el tamaño de la casa por cierta métrica. Los usuarios también pueden realizar ediciones más complicadas y granulares, como «ajustar entre las áreas oscuras y claras para resaltar los detalles de las hojas y el tronco del árbol». Cuanto más detallada sea una indicación, más se acercará al resultado deseado.
Si bien ya existen herramientas de edición de fotografías basadas en inteligencia artificial, como Generative Fill de Photoshop y FireFly, Magic Design de Canva y Luminar Neo, que están en prueba, todas requieren que el usuario interactúe con el software para trazar la ubicación de edición o realizar cambios granulares. El MGIE de Apple, por otro lado, puede realizar la edición completamente por sí solo. Utiliza “edición de imágenes basada en instrucciones” o “edición de imágenes guiada por texto”, lo que es posible gracias a un enfoque único de los marcos de inteligencia artificial.
En lugar de depender del marco de Generative Adversarial Network (GAN), el modelo de IA utiliza el modelo de difusión, que es una arquitectura más avanzada en lo que respecta a la generación de fotografías realistas y el cumplimiento de instrucciones. A continuación, los investigadores pasaron a utilizar un modelo de lenguaje grande multimodal para asegurarse de que fuera capaz de traducir el lenguaje natural en imágenes y mostrar el efecto deseado. Además, también se utilizaron evaluadores humanos durante el proceso para clasificar las ediciones y los comentarios se utilizaron para mejorar aún más el modelo.
El gigante tecnológico ha puesto a disposición de todos la herramienta de edición de imágenes MGIE AI descargar como un proyecto de código abierto a través de GitHub. De momento, no se sabe si Apple planea utilizar esta tecnología para sus dispositivos o no. Sin embargo, el director ejecutivo de Apple, Tim Cook, ha dicho que la compañía anunciará las funciones de IA generativa en las que ha estado trabajando a finales de este año, mientras que, según se informa, Apple está trabajando en nuevas funciones impulsadas por IA para la actualización de iOS 18 que se espera llegue a finales de este año.