Google I/O 2024: DeepMind muestra la interacción de IA basada en visión por computadora en tiempo real con el Proyecto Astra

E/S de Google La sesión magistral de 2024 permitió a la compañía mostrar su impresionante línea de inteligencia artificial (IA) modelos y herramientas en los que ha estado trabajando durante un tiempo. La mayoría de las funciones introducidas llegarán a vistas previas públicas en los próximos meses. Sin embargo, la tecnología más interesante vista previa en el evento no estará aquí por un tiempo. Desarrollado por Google DeepMindeste nuevo asistente de IA se llamó Proyecto Astra y mostró interacción de IA en tiempo real basada en visión por computadora.

Project Astra es un modelo de IA que puede realizar tareas extremadamente avanzadas para los chatbots existentes. Google sigue un sistema en el que utiliza sus modelos de IA más grandes y potentes para entrenar sus modelos listos para producción. Destacando uno de esos ejemplos de un modelo de IA que se encuentra actualmente en formación, el cofundador y director ejecutivo de Google DeepMind, Demis Hassabis, presentó el Proyecto Astra. Al presentarlo, dijo: “Hoy tenemos algunos avances nuevos e interesantes que compartir sobre el futuro de los asistentes de IA que llamamos Proyecto Astra. Durante mucho tiempo quisimos crear un agente de IA universal que pudiera ser realmente útil en la vida cotidiana”.

Hassabis también enumeró una serie de requisitos que la empresa había establecido para dichos agentes de IA. Necesitan comprender y responder al entorno complejo y dinámico del mundo real, y necesitan recordar lo que ven para desarrollar el contexto y tomar medidas. Además, también debe ser fácil de enseñar y personal para que pueda aprender nuevas habilidades y tener conversaciones sin demoras.

Con esa descripción, el CEO de DeepMind mostró un vídeo de demostración en el que se podía ver a un usuario sosteniendo un teléfono inteligente con la aplicación de cámara abierta. El usuario habla con una IA y la IA responde instantáneamente, respondiendo varias consultas basadas en la visión. La IA también pudo utilizar la información visual para contextualizar y responder preguntas relacionadas que requerían capacidades generativas. Por ejemplo, el usuario le mostró a la IA algunos crayones y le pidió que los describiera con aliteraciones. Sin demora, el chatbot dice: “Los crayones creativos colorean alegremente. Ciertamente elaboran creaciones coloridas”.

Pero eso no fue todo. Más adelante en el vídeo, el usuario señala hacia la ventana, desde donde se pueden ver algunos edificios y carreteras. Cuando se le pregunta sobre el vecindario, la IA rápidamente da la respuesta correcta. Esto muestra la capacidad del procesamiento de visión por computadora del modelo de IA y el enorme conjunto de datos visuales que se habría necesitado para entrenarlo. Pero quizás la demostración más interesante fue cuando se le preguntó a la IA sobre las gafas del usuario. Aparecieron brevemente en la pantalla durante unos segundos y ya había salido de la pantalla. Sin embargo, la IA podría recordar su posición y guiar al usuario hasta ella.

Project Astra no está disponible ni en versión preliminar pública ni privada. Google todavía está trabajando en el modelo y tiene que descubrir los casos de uso de la función de IA y decidir cómo ponerla a disposición de los usuarios. Esta demostración habría sido la hazaña más ridícula de la IA hasta el momento, pero el evento de actualización de primavera de OpenAI hace un día le quitó algo de protagonismo. Durante su evento, AbiertoAI presentó GPT-4o, que mostró capacidades similares y voces emotivas que hicieron que la IA sonara más humana.

Enlace fuente

Astra basada computadora CON Deepmind Google interacción muestra POR proyecto REAL tiempo visión

Mejores años de modelo del Pontiac Vibe

El Apple Watch de Spielberg causa revuelo durante la charla del aniversario del cine

Este práctico accesorio MagSafe SSD debería estar en el arsenal de todo creador de contenido

Post Relacionados

Mejores años de modelo del Pontiac Vibe

El Apple Watch de Spielberg causa revuelo durante la charla del aniversario del cine

Este práctico accesorio MagSafe SSD debería estar en el arsenal de todo creador de contenido

Un chef italiano denuncia los errores de pasta más grandes que todos estamos cometiendo

El servicio de streaming mas completo

Empresa

Recursos

Clientes

Empieza hoy

Hola!