En este punto de la progresión de la IA con aprendizaje automático, estamos acostumbrados a agentes especialmente capacitados que pueden dominar por completo todo, desde juegos de atari a juegos de mesa complejos como Ir. Pero, ¿qué pasaría si se pudiera entrenar a un agente de IA no sólo para jugar un juego específico sino también para interactuar con cualquier entorno 3D genérico? ¿Y qué pasaría si esa IA se centrara no sólo en ganar por fuerza bruta sino también en responder a órdenes del lenguaje natural en ese entorno de juego?
Ese es el tipo de preguntas que animan al grupo de investigación DeepMind de Google a la hora de crear SIMA, un «agente multimundo escalable, instructable» que «no está entrenado para ganar, está entrenado para hacer lo que le dicen», como lo expresó el ingeniero de investigación Tim Harley en una presentación a la que asistió Ars Technica. «Y no sólo en un juego, sino… en una variedad de juegos diferentes al mismo tiempo».
Harley destaca que SIMA sigue siendo «en gran medida un proyecto de investigación» y los resultados obtenidos en Informe técnico inicial del proyecto. muestran que queda un largo camino por recorrer antes de que SIMA comience a acercarse a las capacidades de escucha a nivel humano. Aún así, Harley dijo que espera que SIMA eventualmente pueda proporcionar la base para agentes de IA a los que los jugadores puedan instruir y hablar en situaciones de juego cooperativo; piense menos en un «oponente sobrehumano» y más en un «compañero creíble».
«Este trabajo no se trata de lograr puntuaciones altas en los juegos», como dice Google una publicación de blog anunciando su investigación. «Aprender a jugar incluso un videojuego es una hazaña técnica para un sistema de IA, pero aprender a seguir instrucciones en una variedad de configuraciones de juego podría desbloquear agentes de IA más útiles para cualquier entorno».
Aprendiendo a aprender
Para entrenar a SIMA, el equipo de DeepMind se centró en juegos tridimensionales y entornos de prueba controlados desde una perspectiva en primera persona o desde una perspectiva en tercera persona por encima del hombro. Los nueve juegos de su conjunto de pruebas, proporcionados por los socios desarrolladores de Google, priorizan las «interacciones abiertas» y evitan la «violencia extrema», al tiempo que ofrecen una amplia gama de entornos e interacciones diferentes, desde la «exploración del espacio exterior» hasta «locos y extravagantes». caos de cabras.» En un esfuerzo por hacer que SIMA sea lo más generalizable posible, el agente no recibe ningún acceso privilegiado a los datos internos del juego ni a las API de control. El sistema no toma nada más que píxeles de la pantalla como entrada y no proporciona nada más que controles de teclado y mouse como salida, imitando «el [model] los humanos han estado usando [to play video games] durante 50 años», como lo expresaron los investigadores. El equipo también diseñó el agente para trabajar con juegos que se ejecutan en tiempo real (es decir, a 30 fotogramas por segundo) en lugar de ralentizar la simulación para obtener tiempo de procesamiento adicional. como algunos otros proyectos interactivos de aprendizaje automático.
Si bien estas restricciones aumentan la dificultad de las tareas de SIMA, también significan que el agente puede integrarse en un nuevo juego o entorno «listo para usar» con una configuración mínima y sin ninguna capacitación específica sobre la «verdad fundamental» de un mundo de juego. También hace que sea relativamente fácil probar si lo que SIMA ha aprendido en el entrenamiento en juegos anteriores puede «transferirse» a juegos nunca antes vistos, lo que podría ser un paso clave para llegar a la inteligencia artificial general.
Para los datos de entrenamiento, SIMA utiliza videos de juegos humanos (y entradas codificadas en tiempo asociadas) en los juegos proporcionados, anotados con descripciones en lenguaje natural de lo que sucede en las imágenes. Estos clips se centran en «instrucciones que se pueden completar en menos de aproximadamente 10 segundos» para evitar la complejidad que puede desarrollarse con «la amplitud de instrucciones posibles en escalas de tiempo largas», como lo expresaron los investigadores en su informe técnico. La integración con modelos previamente entrenados como SPARC y Phenaki también ayuda al modelo SIMA a evitar tener que aprender a interpretar el lenguaje y los datos visuales desde cero.