Google ha introducido otra generativa inteligencia artificial (IA) que puede crear un sinfín de videojuegos de plataformas en 2D. Genie está siendo promocionado como un modelo mundial controlable por acción que fue entrenado con datos de videojuegos no supervisados. Utiliza análisis predictivo para generar niveles de videojuegos y también puede controlar un personaje jugable y determinar sus movimientos. Curiosamente, OpenAI también introducido un modelo mundial a principios de este mes llamado Sora, que puede generar videos hiperrealistas de hasta un minuto de duración.
El anuncio fue realizado por Tim Rocktäschel, líder del equipo Open-Endedness de Google DeepMind, a través de una serie de publicaciones en X (anteriormente conocido como Twitter). Dijo: «Presentamos Genie, un modelo de mundo básico entrenado exclusivamente a partir de videos de Internet que puede generar una variedad infinita de mundos 2D controlables por acción mediante indicaciones de imagen». Genie es único en el sentido de que solo puede generar una cosa específica, y también es el único modelo de generación de videojuegos que se ha anunciado públicamente hasta ahora.
El modelo Genie AI de Google aún no está abierto al público y por ahora sólo existe como modelo de investigación. Es por eso que aún no se conocen sus funcionalidades centradas en el usuario. Puede generar niveles de videojuegos utilizando imágenes, pero se desconoce si puede aceptar indicaciones de texto o incluso de vídeo. Se publicó una versión preimpresa del artículo. al corriente online donde se destacan sus aspectos técnicos. El modelo de IA se entrenó sin supervisión con 200.000 horas de metraje de videojuegos y contiene 11 mil millones de parámetros. La arquitectura del modelo utiliza tres partes diferentes: un tokenizador de vídeo espaciotemporal, un modelo de dinámica autorregresiva y un modelo de acción latente simple y escalable.
Cómo funciona Google Genie
Para simplificar, el tokenizador de video espaciotemporal toma imágenes de videojuegos y las divide en fragmentos más pequeños de conjuntos de datos, conocidos como tokens, que pueden ser consumidos por el modelo básico. Espaciotemporal explica que los datos se desglosan tanto en el tiempo como en el espacio (por ejemplo, un vídeo se dividió en clips de 2 segundos, pero cada fotograma también se dividió en varias partes).
A continuación viene el modelo dinámico autorregresivo. Los modelos autorregresivos esencialmente predicen el futuro en función de cómo se desempeñó algo en el pasado, y un modelo dinámico es responsable de comprender cómo las cosas cambian y se mueven con el tiempo. Entonces esta parte es donde comienza el análisis predictivo. El componente final es el modelo de acción latente. Aquí es donde la IA comprende cómo se mueve y atraviesa el personaje jugable en el mundo del videojuego.
“El espacio de acción latente aprendido de Genie no sólo es diverso y consistente, sino también interpretable. Después de algunos turnos, los humanos generalmente descubren un mapeo de acciones semánticamente significativas (como ir a la izquierda, a la derecha, saltar, etc.)”, dijo Rocktäschel. Esta parte es importante porque destaca que el principal problema que resuelve este modelo de IA no es solo generar niveles de videojuegos en 2D, sino también comprender cómo ocurren los movimientos básicos y cómo esa información se puede usar para navegar por terrenos del mundo real.
Destacando esto, él agregado, “El modelo de Genie es general y no está limitado a 2D. También entrenamos a un Genie con datos de robótica (RT-1) sin acciones, y demostramos que allí también podemos aprender un simulador controlable por acciones. Creemos que este es un paso prometedor hacia modelos mundiales generales para AGI”.
Para conocer detalles de los últimos lanzamientos y novedades de Samsung, Xiaomi, Realme, OnePlus, Oppo y otras compañías en el Mobile World Congress de Barcelona, visita nuestro Centro del CMM 2024.