Manzana no es uno de los mejores jugadores en el juego de la IA hoy en día, pero el nuevo modelo de IA de código abierto de la compañía para la edición de imágenes muestra lo que es capaz de contribuir al espacio. El modelo denominado Edición de imágenes guiada por MLLM (MGIE), que utiliza modelos de lenguaje grande multimodal (MLLM) para interpretar comandos basados en texto al manipular imágenes. En otras palabras, la herramienta tiene la capacidad de editar fotografías basándose en el texto que el usuario escribe. Si bien no es la primera herramienta que puede hacerlo, «las instrucciones humanas a veces son demasiado breves para que los métodos actuales las capturen y sigan», dijo. documento del proyecto (PDF) lee.
La empresa desarrolló MGIE con investigadores de la Universidad de California en Santa Bárbara. Los MLLM tienen el poder de transformar indicaciones de texto simples o ambiguas en instrucciones más detalladas y claras que el propio editor de fotografías puede seguir. Por ejemplo, si un usuario quiere editar una foto de una pizza de pepperoni para «hacerla más saludable», los MLLM pueden interpretarlo como «agregar aderezos vegetales» y editar la foto como tal.
Además de realizar cambios importantes en las imágenes, MGIE también puede recortar, cambiar el tamaño y rotar fotos, así como mejorar su brillo, contraste y equilibrio de color, todo a través de indicaciones de texto. También puede editar áreas específicas de una foto y puede, por ejemplo, modificar el cabello, los ojos y la ropa de una persona en ella, o eliminar elementos del fondo.
Como VentureBeat notas, Apple lanzó el modelo a través de GitHubpero los interesados también pueden probar un manifestación que actualmente está alojado en Hugging Face Spaces. Apple aún tiene que decir si planea utilizar lo que aprende de este proyecto en una herramienta o característica que pueda incorporar a cualquiera de sus productos.