¿Qué es la resolución de referencia?
La investigación de Apple se incluye en un artículo publicado en Arxiv.org que analiza la “Resolución de referencia”. Según uno guía respetadola resolución de referencia es una forma de expresar el problema que tiene una computadora (IA) para «averiguar a qué objeto se hace referencia mediante una expresión, construyendo así gradualmente una representación de los objetos con sus características y evolución».
En otras palabras, la computadora debe aspirar a ser tan efectiva como la comunicación y la comprensión humanas, como cuando usamos palabras como «ellos» o «aquellos» y la persona con la que hablamos entiende contextualmente lo que estamos tratando de decir.
El artículo ofrece un ejemplo en el que alguien podría pedirle a ReaLM que le muestre las farmacias cercanas. El técnico presenta la lista y la persona podría decir algo vago como «Llame al de abajo» o «Llame a este número» (si el número está en la pantalla). Los asistentes virtuales existentes tendrían dificultades con esto, pero la propia tecnología de los investigadores se encarga de estas tareas. Incluso afirman que su invento puede “superar sustancialmente” a Chat GPT4 en algunos aspectos, mientras que iguala su rendimiento en otros.
Cuando las cosas se ponen difíciles, Siri se vuelve profesional
“Lo más importante es que demostramos cómo las entidades que están presentes en la pantalla se pueden pasar a un LLM. [large language model] utilizando una representación textual novedosa que resume efectivamente la pantalla del usuario mientras conserva las posiciones espaciales relativas de estas entidades”, escribieron.
En otras palabras, puede anticipar un control de palabras habladas altamente efectivo de lo que aparece en la pantalla, tal vez aumentado por la interfaz de usuario de voz en off existente de Apple, con características obvias. implicaciones para su línea de productos visionOS.
Esta es solo una de las muchas piezas de información que emergen de los equipos de desarrollo de IA de Apple mientras la compañía se prepara (con suerte) para sorprende a los desarrolladores en la WWDC 24. Estas muchas pistas también describen la tecnología para respaldar la IA centrada en tareas en el borde; inteligencia de imagen superior; asociaciones con proveedores de LLM como Google Gemini; aumento de la empresa aplicaciones existentes, incluyendo Xcode; y más.