El desarrollo de la robótica humanoide ha avanzado a paso de tortuga durante la mayor parte de dos décadas, pero se está acelerando rápidamente gracias a la colaboración entre Figure AI y Abierto AI El resultado fue el vídeo de robot humanoide real más impresionante que he visto jamás.
El miércoles, la empresa emergente de robótica Figure AI lanzó una actualización en video (ver más abajo) de su Figura 01 robot que ejecuta un nuevo modelo de lenguaje visual (VLM) que de alguna manera ha transformado al robot de un autómata poco interesante a un robot de ciencia ficción completo que se acerca a las capacidades de nivel C-3PO.
En el video, la Figura 01 se encuentra detrás de una mesa con un plato, un manzanay una taza. A la izquierda hay un escurridor. Un humano se para frente al robot y le pregunta: «Figura 01, ¿qué ves ahora?»
Después de unos segundos, la Figura 01 responde con una voz notablemente humana (no hay rostro, solo una luz animada que se mueve en sincronía con la voz), detallando todo lo que hay sobre la mesa y los detalles del hombre que está parado frente a ella.
«Eso es genial», pensé.
Entonces el hombre pregunta: «Oye, ¿puedo comer algo?».
La Figura 01 responde: «Claro» y luego, con un hábil movimiento fluido, toma la manzana y se la entrega al chico.
«Vaya», pensé.
Luego, el hombre vacía algunos escombros arrugados de un contenedor frente a la Figura 01 mientras pregunta: «¿Puedes explicar por qué hiciste lo que acabas de hacer mientras recogías esta basura?»
La Figura 01 no pierde el tiempo explicando su razonamiento mientras coloca el papel nuevamente en la papelera. «Entonces te di la manzana porque es el único alimento comestible que puedo darte de la mesa».
Pensé: «Esto no puede ser real».
Sin embargo, lo es al menos según la Figura AI.
Habla a voz
La compañía explicó en un comunicado que la Figura 01 participa en el razonamiento «habla a voz» utilizando el modelo multimodal previamente entrenado de OpenAI, VLM, para comprender imágenes y textos y se basa en una conversación de voz completa para elaborar sus respuestas. Esto es diferente a, digamos, OpenAI. GPT-4que se centra en indicaciones escritas.
También utiliza lo que la empresa llama «manipulación bimanual aprendida de bajo nivel». El sistema combina calibraciones de imagen precisas (hasta el nivel de un píxel) con su red neuronal para controlar el movimiento. «Estas redes toman imágenes integradas a 10 hz y generan acciones de 24 grados de libertad (posturas de muñeca y ángulos de las articulaciones de los dedos) a 200 hz», escribió Figure AI en un comunicado.
La compañía afirma que cada comportamiento en el video se basa en el aprendizaje del sistema y no está teleoperado, lo que significa que no hay nadie detrás de escena manipulando la Figura 01.
Sin ver la Figura 01 en persona y sin hacer mis propias preguntas, es difícil verificar estas afirmaciones. Existe la posibilidad de que esta no sea la primera vez que la Figura 01 realiza esta rutina. Podría haber sido la centésima vez, lo que podría explicar su velocidad y fluidez.
O tal vez esto sea 100% real y en ese caso, guau. Simplemente guau.