Manzana Los investigadores han publicado otro artículo sobre modelos de inteligencia artificial (IA), y esta vez la atención se centra en comprender y navegar a través de las interfaces de usuario (UI) de los teléfonos inteligentes. El artículo de investigación aún por revisar por pares destaca un modelo de lenguaje grande (LLM) denominado Ferret UI, que puede ir más allá de la visión por computadora tradicional y comprender pantallas complejas de teléfonos inteligentes. Cabe destacar que este no es el primer artículo sobre IA publicado por la división de investigación del gigante tecnológico. Ya ha publicado un papel en LLM multimodales (MLLM) y otro en modelos de IA en el dispositivo.
La versión preimpresa de la investigación. papel ha sido publicado en arXiv, un repositorio en línea de acceso abierto de artículos académicos. El documento se titula «Ferret-UI: comprensión de la interfaz de usuario móvil basada en LLM multimodales» y se centra en ampliar el caso de uso de los MLLM. Destaca que la mayoría de los modelos de lenguaje con capacidades multimodales no pueden entender más allá de las imágenes naturales y su funcionalidad está «restringida». También establece la necesidad de que los modelos de IA comprendan interfaces complejas y dinámicas como las de un teléfono inteligente.
Según el documento, Ferret UI está «diseñado para ejecutar tareas precisas de referencia y conexión a tierra específicas de las pantallas de UI, mientras interpreta y actúa hábilmente según instrucciones de lenguaje abierto». En términos simples, el modelo de lenguaje de visión no solo puede procesar la pantalla de un teléfono inteligente con múltiples elementos que representan información diferente, sino que también puede informarle al usuario sobre ellos cuando se le solicita una consulta.
Según una imagen compartida en el artículo, el modelo puede comprender y clasificar widgets y reconocer íconos. También puede responder preguntas como «¿Dónde está el icono de inicio» y «¿Cómo abro la aplicación Recordatorios?». Esto muestra que la IA no sólo es capaz de explicar la pantalla que ve, sino que también puede navegar a diferentes partes de un iPhone según un mensaje.
Para entrenar Ferret UI, los investigadores de Apple crearon ellos mismos datos de diversa complejidad. Esto ayudó al modelo a aprender tareas básicas y comprender procesos de un solo paso. “Para tareas avanzadas, utilizamos GPT-4 [40] para generar datos, incluida descripción detallada, percepción de la conversación, interacción de la conversación e inferencia de funciones. Estas tareas avanzadas preparan el modelo para participar en discusiones más matizadas sobre componentes visuales, formular planes de acción con objetivos específicos en mente e interpretar el propósito general de una pantalla”, explica el artículo.
El documento es prometedor y, si pasa la etapa de revisión por pares, Apple podría utilizar esta capacidad para agregar herramientas poderosas al iPhone que puede realizar tareas complejas de navegación de la interfaz de usuario con texto simple o indicaciones verbales. Esta capacidad parece ser ideal para Siri.