Mientras la industria tecnológica se volvía loca por lo generativo inteligencia artificial, un gigante se ha frenado: Apple. La compañía aún tiene que introducir ni siquiera un emoji generado por IA y, según un New York Times informe hoy y informes anteriores Según Bloomberg, está en conversaciones preliminares con Google planea agregar el modelo Gemini AI de la compañía de búsqueda a los iPhone.
Sin embargo, un trabajo de investigación publicado silenciosamente en línea el viernes pasado por ingenieros de Apple sugiere que la compañía está realizando nuevas inversiones significativas en IA que ya están dando frutos. Detalla el desarrollo de un nuevo modelo de IA generativa llamado MM1 capaz de trabajar con texto e imágenes. Los investigadores lo muestran respondiendo preguntas sobre fotografías y mostrando el tipo de habilidades de conocimiento general que muestran los chatbots como ChatGPT. El nombre del modelo no se explica, pero podría significar MultiModal 1.
MM1 parece ser similar en diseño y sofisticación a una variedad de modelos recientes de IA de otros gigantes tecnológicos, incluidos Llama 2 de código abierto de Meta y Géminis de Google. El trabajo de los rivales y académicos de Apple muestra que modelos de este tipo pueden usarse para impulsar chatbots capaces o crear “agentes” que puedan resolver tareas escribiendo código y realizando acciones como usar interfaces de computadora o sitios web. Eso sugiere que MM1 aún podría llegar a los productos de Apple.
«El hecho de que estén haciendo esto demuestra que tienen la capacidad de entender cómo entrenar y cómo construir estos modelos», dice Ruslan Salakhutdinov, profesor de Carnegie Mellon que dirigió la investigación de IA en Apple hace varios años. «Requiere cierta cantidad de experiencia».
MM1 es un modelo de lenguaje grande multimodal, o MLLM, lo que significa que se entrena tanto con imágenes como con texto. Esto permite que el modelo responda a indicaciones de texto y también responda preguntas complejas sobre imágenes particulares.
Un ejemplo en el artículo de investigación de Apple muestra lo que sucedió cuando a MM1 se le proporcionó una foto de una mesa de restaurante bañada por el sol con un par de botellas de cerveza y también una imagen del menú. Cuando se le pregunta cuánto esperaría alguien pagar por “toda la cerveza que hay en la mesa”, el modelo lee correctamente el precio correcto y suma el costo.
Cuando ChatGPT se lanzó en noviembre de 2022, solo podía ingerir y generar texto, pero más recientemente su creador OpenAI y otros han trabajado para expandir la tecnología de modelo de lenguaje grande subyacente para trabajar con otros tipos de datos. Cuando Google lanzó Géminis (el modelo que ahora impulsa su responder a ChatGPT) en diciembre pasado, la empresa promocionó su naturaleza multimodal como el comienzo de una nueva dirección importante en la IA. «Tras el auge de los LLM, los MLLM están surgiendo como la próxima frontera en los modelos básicos», dice el artículo de Apple.
MM1 es un modelo relativamente pequeño medido por su número de «parámetros», o las variables internas que se ajustan a medida que se entrena el modelo. Kate Saenkoprofesor de la Universidad de Boston que se especializa en visión por computadora y aprendizaje automático, dice que esto podría facilitar que los ingenieros de Apple experimenten con diferentes métodos de capacitación y mejoras antes de escalar cuando encuentren algo prometedor.
Saenko dice que el artículo MM1 proporciona una sorprendente cantidad de detalles sobre cómo se entrenó el modelo para una publicación corporativa. Por ejemplo, los ingenieros detrás de MM1 describen trucos para mejorar el rendimiento del modelo, incluido el aumento de la resolución de las imágenes y la combinación de texto y datos de imágenes. Apple es famosa por su secretismo, pero tiene anteriormente mostró una apertura inusual sobre la investigación de la IA ya que ha tratado de atraer el talento necesario para competir en la tecnología crucial.