IA de Apple La investigación revela un modelo que hará que dar comandos a Siri sea más rápido y eficiente al convertir cualquier contexto determinado en texto, que es más fácil de analizar mediante un modelo de lenguaje grande.
Hacer que un programa de computadora realice una tarea basada en entradas de lenguaje vagas, como cómo un usuario podría decir «esto» o «aquello», se llama resolución de referencia. Es un problema complejo de resolver ya que las computadoras no pueden interpretar imágenes como lo hacen los humanos, pero es posible que Apple haya encontrado una solución simplificada utilizando LLM.
Al hablar con asistentes inteligentes como siri, los usuarios pueden hacer referencia a cualquier cantidad de información contextual con la que interactuar, como tareas en segundo plano, datos en pantalla y otras entidades no conversacionales. Los métodos de análisis tradicionales se basan en modelos increíblemente grandes y materiales de referencia como imágenes, pero Apple ha simplificado el enfoque al convertir todo en texto.
Apple descubrió que sus modelos ReALM más pequeños funcionaban de manera similar al GPT-4 con muchos menos parámetros, por lo que eran más adecuados para su uso en el dispositivo. El aumento de los parámetros utilizados en ReALM hizo que superara sustancialmente a GPT-4.
Una de las razones de este aumento de rendimiento es la dependencia de GPT-4 del análisis de imágenes para comprender la información en pantalla. Gran parte de los datos de entrenamiento de imágenes se basan en imágenes naturales, no en páginas web basadas en códigos artificiales llenas de texto, por lo que el OCR directo es menos eficiente.
Convertir una imagen en texto permite a ReALM evitar la necesidad de estos parámetros avanzados de reconocimiento de imágenes, haciéndolo más pequeño y más eficiente. Apple también evita problemas con las alucinaciones al incluir la capacidad de restringir la decodificación o utilizar un posprocesamiento simple.