Peter Chen, director ejecutivo de la robot La empresa de software Covariant, se encuentra frente a una interfaz de chatbot similar a la que se utiliza para comunicarse con ChatGPT. “Muéstrame el bolso que tienes delante”, escribe. En respuesta, aparece un video que revela un brazo robótico sobre un contenedor que contiene varios artículos: un par de calcetines, un tubo de papas fritas y una manzana, entre ellos.
El chatbot puede discutir los elementos que ve, pero también manipularlos. Cuando WIRED sugiere que Chen le pida que tome un trozo de fruta, el brazo se agacha, agarra suavemente la manzana y luego la mueve a otro contenedor cercano.
Este chatbot práctico es un paso para brindar a los robots el tipo de capacidades generales y flexibles que exhiben programas como ChatGPT. Existe la esperanza de que la IA finalmente pueda solucionar la antigua dificultad de programar robots y hacer que hagan más que un conjunto limitado de tareas.
«No es en absoluto controvertido en este momento decir que los modelos básicos son el futuro de la robótica», dice Chen, utilizando un término para modelos de aprendizaje automático a gran escala y de propósito general desarrollados para un dominio en particular. El práctico chatbot que me mostró funciona con un modelo desarrollado por Covariant llamado RFM-1, para Robot Foundation Model. Como quienes están detrás de ChatGPT, Géminis de Googley otros chatbots, ha sido entrenado con grandes cantidades de texto, pero también ha recibido control de video y hardware y datos de movimiento de decenas de millones de ejemplos de movimientos de robots provenientes del trabajo en el mundo físico.
Incluir esos datos adicionales produce un modelo que no sólo domina el lenguaje sino también la acción y que es capaz de conectar ambos. RFM-1 no sólo puede chatear y controlar un brazo robótico, sino también generar vídeos que muestran robots realizando diferentes tareas. Cuando se le solicite, RFM-1 mostrará cómo un robot debe agarrar un objeto de un contenedor desordenado. «Puede aceptar todas estas modalidades diferentes que son importantes para la robótica y también puede generar cualquiera de ellas», afirma Chen. «Es un poco alucinante».
El modelo también ha demostrado que puede aprender a controlar hardware similar que no figura en sus datos de entrenamiento. Con mayor capacitación, esto podría incluso significar que el mismo modelo general podría operar un robot humanoide, dice Pieter Abbeel, cofundador y científico jefe de Covariant, pionero en el aprendizaje de robots. En 2010 lideró un proyecto que entrenó a un robot. doblar toallas—aunque lentamente—y también trabajó en OpenAI antes de que dejara de investigar sobre robots.
Covariant, fundada en 2017, vende actualmente software que utiliza el aprendizaje automático para permitir que los brazos robóticos seleccionen artículos de los contenedores en los almacenes, pero generalmente se limitan a la tarea para la que han estado entrenando. Abeel dice que modelos como RFM-1 podrían permitir que los robots utilicen sus pinzas para realizar nuevas tareas con mucha más fluidez. Compara la estrategia de Covariant con cómo Tesla utiliza datos de los coches que ha vendido para entrenar sus algoritmos de conducción autónoma. «Es más o menos lo mismo que estamos sucediendo aquí», dice.
Abeel y sus colegas de Covariant están lejos de ser los únicos robóticos que esperan que las capacidades de los grandes modelos de lenguaje detrás de ChatGPT y programas similares puedan provocar una revolución en la robótica. Proyectos como RFM-1 han mostrado resultados iniciales prometedores. Pero la cantidad de datos que se pueden necesitar para entrenar modelos que fabriquen robots con capacidades mucho más generales (y cómo recopilarlos) es una cuestión abierta.