Através del espejo: Microsoft Research Asia ha publicado un documento técnico sobre una aplicación de IA generativa que está desarrollando. El programa se llama VASA-1 y puede crear vídeos muy realistas a partir de una sola imagen de un rostro y una banda sonora vocal. Aún más impresionante es que el software puede generar el vídeo e intercambiar caras en tiempo real.
El animador de habilidades afectivas visuales, o VASA, es un marco de aprendizaje automático que analiza una fotografía facial y luego la anima a una voz, sincronizando los movimientos de los labios y la boca con el audio. También simula expresiones faciales, movimientos de la cabeza e incluso movimientos corporales invisibles.
Como toda IA generativa, no es perfecta. Las máquinas todavía tienen problemas con detalles finos como los dedos o, en el caso de VASA, los dientes. Prestando mucha atención a los avatares. dientes, se puede ver que cambian de tamaño y forma, dándoles una calidad similar a un acordeón. Es relativamente sutil y parece fluctuar dependiendo de la cantidad de movimiento que se produce en la animación.
También hay algunos gestos que no parecen del todo correctos. Es difícil expresarlos con palabras. Es más como si tu cerebro registrara algo ligeramente extraño con el hablante. Sin embargo, sólo se nota tras un examen minucioso. Para los observadores casuales, los rostros pueden pasar como humanos grabados hablando.
Las caras utilizadas en las demostraciones de los investigadores también se generan mediante IA utilizando StyleGAN2 o DALL-E-3. Sin embargo, el sistema funcionará con cualquier imagen, real o generada. Incluso puede animar caras pintadas o dibujadas. La Mona Lisa se enfrenta cantando la interpretación de Anne Hathaway de «Paparazzi«La canción de Conan O’Brien es divertidísima.
Bromas aparte, existen preocupaciones legítimas de que los malos actores puedan utilizar la tecnología para difundir propaganda o intentar estafar a las personas haciéndose pasar por sus familiares. Teniendo en cuenta que muchos usuarios de redes sociales publican fotografías de miembros de la familia en sus cuentas, sería sencillo para alguien extraer una imagen e imitar a ese miembro de la familia. Incluso podrían combinarlo con tecnología de clonación de voz para hacerlo más convincente.
El equipo de investigación de Microsoft reconoce el potencial de abuso, pero no proporciona una respuesta adecuada para combatirlo más que un cuidadoso análisis de vídeo. Señala los artefactos mencionados anteriormente mientras ignora su investigación en curso y la mejora continua del sistema. El único esfuerzo tangible del equipo para prevenir el abuso es no hacerlo público.
«No tenemos planes de lanzar una demostración en línea, API, producto, detalles de implementación adicionales o cualquier oferta relacionada hasta que estemos seguros de que la tecnología se utilizará de manera responsable y de acuerdo con las regulaciones adecuadas», dijeron los investigadores.
Sin embargo, la tecnología tiene algunas aplicaciones prácticas interesantes y legítimas. Una sería utilizar VASA para crear avatares de vídeo realistas que se reproduzcan localmente en tiempo real, eliminando la necesidad de una transmisión de vídeo que consuma ancho de banda. Apple ya está haciendo algo similar con sus Spatial Personas disponibles en Vision Pro.
Consulta los detalles técnicos en el papel blanco publicar en el repositorio arXiv. También hay más población en el sitio web de Microsoft.