Microsoft AI crea aterradores videos sonoros reales a partir de una sola foto

Microsoft Research Asia ha revelado un modelo de inteligencia artificial que puede generar videos deepfake terriblemente realistas a partir de una sola imagen fija y una pista de audio. ¿Cómo podremos confiar en lo que vemos y oímos en línea de ahora en adelante?

Como nosotros mencionado anteriormentelos sistemas de inteligencia artificial nos han superado en puntos de referencia clave en los últimos años, y ya hay mucha gente muy preocupada por ser abandonados prematuramente y reemplazados por algoritmos.

Recientemente hemos sido testigos de cambios bastante limitados. aparatos inteligentes transformado en poderosos asistentes cotidianos y herramientas de productividad vitales. Y luego hay modelos que pueden generar efectos de sonido realistas hasta videoclips mudos, e incluso Crea imágenes impresionantes a partir de mensajes de texto.. El marco VASA-1 de Microsoft parece otro gran salto.

Después de entrenar al modelo con imágenes de alrededor de 6.000 caras parlantes de la vida real del conjunto de datos VoxCeleb2, la tecnología es capaz de generar un vídeo real aterrador en el que el sujeto recién animado no sólo es capaz de sincronizar con precisión los labios con una pista de audio de voz suministrada, sino que también muestra variadas expresiones faciales y movimientos naturales de la cabeza, todo ello a partir de una única fotografía estática de la cabeza.

Es bastante similar al Modelo de difusión Audio2Video del Instituto de Computadoras Inteligentes de Alibaba que surgió hace un par de meses, pero aún más realista y preciso. Según se informa, VASA-1 es capaz de generar vídeos sincronizados a 512×512 píxeles a 40 fotogramas por segundo, «con una latencia inicial insignificante».

El modelo VASA-1 AI es capaz de generar videos reales aterradores que no solo pueden sincronizarse con los labios con una pista de audio de voz suministrada, sino que también incluyen expresiones faciales y movimientos naturales de la cabeza, todo desde una sola toma estática de la cabeza.

Aunque todas las fotografías de referencia utilizadas para las demostraciones del proyecto fueron generadas por IA mediante StyleGAN2 o DALL-E, hay un ejemplo destacado del mundo real que se utiliza para mostrar la destreza del marco para salir de su conjunto de entrenamiento: un rapeando a la mona lisa!

La página del proyecto tiene muchos ejemplos de videos de conversaciones y cantos generados a partir de una imagen fija y combinados con una pista de audio, pero la herramienta también tiene controles opcionales para configurar «Dinámica facial y posturas de la cabeza.«como emociones, expresiones, distancia de la cámara de video virtual y dirección de la mirada. Cosas poderosas.

«La aparición de caras parlantes generadas por IA ofrece una ventana a un futuro en el que la tecnología amplifica la riqueza de las interacciones entre humanos y entre humanos y IA», se lee en la introducción de un artículo que detalla el logro. «Esta tecnología promete enriquecer la comunicación digital, aumentar la accesibilidad para aquellos con discapacidades comunicativas, transformar los métodos educativos con tutorías interactivas de IA y brindar apoyo terapéutico e interacción social en la atención médica».

Todo ello es muy loable, pero los investigadores también reconocen el potencial de uso indebido. Aunque ya parece una tarea imposible separar los hechos de la pura invención al digerir nuestra dosis diaria de noticias en línea, imagina tener una herramienta a tu disposición que podría hacer que casi cualquiera parezca decir lo que tú quieres que diga.

Eso podría convertirse en una broma inofensiva a un familiar con un FaceTime de un actor o estrella del pop favorito de Hollywood, implicar a una persona inocente en un delito grave al publicar una confesión en línea, estafar a alguien por dinero asumiendo la personalidad de un nieto preciado. en problemas, tener políticos clave que expresen su apoyo a agendas controvertidas, etc. De forma realista y convincente.

Sin embargo, el contenido generado por el modelo VASA-1 «contiene artefactos identificables» y los investigadores no tienen la intención de hacer que la plataforma esté disponible públicamente «hasta que estemos seguros de que la tecnología se utilizará de manera responsable y de acuerdo con las regulaciones adecuadas».

Se ha publicado un artículo que detalla el proyecto en arXiv servidor.

Fuente: Investigación de Microsoft

Enlace fuente