E/S de Google La sesión magistral de 2024 permitió a la compañía mostrar su impresionante línea de inteligencia artificial (IA) modelos y herramientas en los que ha estado trabajando durante un tiempo. La mayoría de las funciones introducidas llegarán a vistas previas públicas en los próximos meses. Sin embargo, la tecnología más interesante vista previa en el evento no estará aquí por un tiempo. Desarrollado por Google DeepMindeste nuevo asistente de IA se llamó Proyecto Astra y mostró interacción de IA en tiempo real basada en visión por computadora.
Project Astra es un modelo de IA que puede realizar tareas extremadamente avanzadas para los chatbots existentes. Google sigue un sistema en el que utiliza sus modelos de IA más grandes y potentes para entrenar sus modelos listos para producción. Destacando uno de esos ejemplos de un modelo de IA que se encuentra actualmente en formación, el cofundador y director ejecutivo de Google DeepMind, Demis Hassabis, presentó el Proyecto Astra. Al presentarlo, dijo: “Hoy tenemos algunos avances nuevos e interesantes que compartir sobre el futuro de los asistentes de IA que llamamos Proyecto Astra. Durante mucho tiempo quisimos crear un agente de IA universal que pudiera ser realmente útil en la vida cotidiana”.
Hassabis también enumeró una serie de requisitos que la empresa había establecido para dichos agentes de IA. Necesitan comprender y responder al entorno complejo y dinámico del mundo real, y necesitan recordar lo que ven para desarrollar el contexto y tomar medidas. Además, también debe ser fácil de enseñar y personal para que pueda aprender nuevas habilidades y tener conversaciones sin demoras.
Con esa descripción, el CEO de DeepMind mostró un vídeo de demostración en el que se podía ver a un usuario sosteniendo un teléfono inteligente con la aplicación de cámara abierta. El usuario habla con una IA y la IA responde instantáneamente, respondiendo varias consultas basadas en la visión. La IA también pudo utilizar la información visual para contextualizar y responder preguntas relacionadas que requerían capacidades generativas. Por ejemplo, el usuario le mostró a la IA algunos crayones y le pidió que los describiera con aliteraciones. Sin demora, el chatbot dice: “Los crayones creativos colorean alegremente. Ciertamente elaboran creaciones coloridas”.
Pero eso no fue todo. Más adelante en el vídeo, el usuario señala hacia la ventana, desde donde se pueden ver algunos edificios y carreteras. Cuando se le pregunta sobre el vecindario, la IA rápidamente da la respuesta correcta. Esto muestra la capacidad del procesamiento de visión por computadora del modelo de IA y el enorme conjunto de datos visuales que se habría necesitado para entrenarlo. Pero quizás la demostración más interesante fue cuando se le preguntó a la IA sobre las gafas del usuario. Aparecieron brevemente en la pantalla durante unos segundos y ya había salido de la pantalla. Sin embargo, la IA podría recordar su posición y guiar al usuario hasta ella.
Project Astra no está disponible ni en versión preliminar pública ni privada. Google todavía está trabajando en el modelo y tiene que descubrir los casos de uso de la función de IA y decidir cómo ponerla a disposición de los usuarios. Esta demostración habría sido la hazaña más ridícula de la IA hasta el momento, pero el evento de actualización de primavera de OpenAI hace un día le quitó algo de protagonismo. Durante su evento, AbiertoAI presentó GPT-4o, que mostró capacidades similares y voces emotivas que hicieron que la IA sonara más humana.