Los modelos mundiales (algoritmos de IA capaces de generar un entorno simulado en tiempo real) representan una de las aplicaciones más impresionantes del aprendizaje automático. En el último año, ha habido mucho movimiento en este campo y, con ese fin, Google DeepMind anunció Genio 2 el miércoles. Mientras que su predecesor se limitaba a generar mundos 2D, el nuevo modelo puede crear mundos 3D y mantenerlos durante mucho más tiempo.
Genie 2 no es un motor de juego; en cambio, es un modelo de difusión que genera imágenes a medida que el jugador (ya sea un ser humano u otro agente de IA) se mueve por el mundo que el software está simulando. A medida que genera fotogramas, Genie 2 puede inferir ideas sobre el entorno, dándole la capacidad de modelar efectos del agua, el humo y la física, aunque algunas de esas interacciones pueden ser muy divertidas. El modelo tampoco se limita a representar escenas desde una perspectiva en tercera persona, sino que también puede manejar puntos de vista isométricos y en primera persona. Todo lo que necesita para comenzar es una imagen única, proporcionada por el propio Google Imagen 3 model o una imagen de algo del mundo real.
Presentamos Genie 2: nuestro modelo de IA que puede crear una variedad infinita de mundos 3D jugables, todo a partir de una sola imagen. 🖼️
Este tipo de modelos mundiales fundacionales a gran escala podrían permitir que los futuros agentes sean capacitados y evaluados en un sinfín de entornos virtuales. →… pic.twitter.com/qHCT6jqb1W
-Google DeepMind (@GoogleDeepMind) 4 de diciembre de 2024
En particular, Genie 2 puede recordar partes de una escena simulada incluso después de que abandonan el campo de visión del jugador y puede reconstruir con precisión esos elementos una vez que vuelven a ser visibles. Esto contrasta con otros modelos mundiales como Oasisque, al menos en la versión que Decart mostró al público en octubre, tenía problemas para recordar el diseño del minecraft niveles que estaba generando en tiempo real.
Sin embargo, incluso existen limitaciones en lo que Genie 2 puede hacer a este respecto. DeepMind dice que el modelo puede generar mundos «consistentes» durante hasta 60 segundos, y la mayoría de los ejemplos que la compañía compartió el miércoles duran mucho menos tiempo; en este caso, la mayoría de los vídeos duran entre 10 y 20 segundos. Además, se introducen artefactos y la calidad de la imagen se suaviza cuanto más tiempo necesita Genie 2 para mantener la ilusión de un mundo consistente.
DeepMind no detalló cómo entrenó a Genie 2, aparte de afirmar que se basó «en un conjunto de datos de video a gran escala». Tampoco espere que DeepMind lance Genie 2 al público en el corto plazo. Por el momento, la empresa ve el modelo principalmente como una herramienta para entrenar y evaluar otros agentes de IA, incluido el suyo propio. algoritmo SIMAy algo que los artistas y diseñadores podrían utilizar para crear prototipos y probar ideas rápidamente. En el futuro, DeepMind sugiere que modelos mundiales como Genie 2 probablemente desempeñen un papel importante en el camino hacia la inteligencia artificial general.
«La formación de agentes encarnados más generales se ha visto tradicionalmente obstaculizada por la disponibilidad de entornos de formación suficientemente ricos y diversos», dijo DeepMind. «Como mostramos, Genie 2 podría permitir que los futuros agentes sean entrenados y evaluados en un plan de estudios ilimitado de mundos novedosos».