El modelo VLOGGER AI de Google puede generar avatares de vídeo a partir de imágenes: ¿qué podría salir mal?

VLOGGER puede tomar una sola fotografía de alguien y crear clips en alta fidelidad y de diferentes longitudes, con expresiones faciales y movimientos corporales precisos, hasta un parpadeo, superando los tipos anteriores de software de «cabezas parlantes».

Google

El inteligencia artificial (IA) se ha vuelto tan buena en producir imágenes en movimiento falsas… eche un vistazo a Sora de OpenAIpresentado el mes pasado, con sus ingeniosos avances imaginarios, uno tiene que hacerse una pregunta intelectual y práctica: ¿qué deberíamos hacer con todos estos videos?

También: OpenAI presenta un modelo de texto a video y los resultados son sorprendentes. Echa un vistazo por ti mismo

Esta semana el estudioso de Google Enric Corona y sus compañeros respondieron: contrólalos usando nuestra herramienta VLOGGER. VLOGGER puede generar un vídeo de alta resolución de personas hablando a partir de una sola fotografía. Más importante aún, VLOGGER puede animar el vídeo según una muestra de voz, lo que significa que la tecnología puede animar los vídeos como una imagen controlada de una persona: un «avatar» de alta fidelidad.

Esta herramienta podría permitir todo tipo de creaciones. En el nivel más simple, el equipo de Corona sugiere que VLOGGER podría tener un gran impacto en los avatares del servicio de asistencia técnica porque los humanos sintéticos que hablan de apariencia más realista pueden «desarrollar empatía». Sugieren que la tecnología podría «permitir casos de uso completamente nuevos, como comunicación en línea mejorada, educación o asistentes virtuales personalizados».

VLOGGER también podría conducir a una nueva frontera en deepfakes, imágenes aparentemente reales que dicen y hacen cosas que la persona real nunca hizo. El equipo de Corona tiene la intención de considerar las implicaciones sociales de VLOGGER en materiales de apoyo complementarios. Sin embargo, ese material no está disponible. en la página de GitHub del proyecto. ZDNET se acercó a Corona para preguntarle sobre los materiales de apoyo, pero no había recibido respuesta al momento de la publicación.

También: A medida que los agentes de IA se propagan, también lo hacen los riesgos, dicen los académicos

Como se describe en el artículo formal, «VLOGGER: Multimodal Diffusion for Embodied Avatar Synthesis», el equipo de Corona pretende superar las imprecisiones del estado del arte en avatares. «La creación de vídeos realistas de humanos todavía es compleja y está repleta de artefactos», escribió el equipo de Corona.

El equipo observó que los avatares de vídeo existentes a menudo recortan el cuerpo y las manos, mostrando sólo la cara. VLOGGER puede mostrar torsos enteros junto con movimientos de las manos. Otras herramientas suelen tener variaciones limitadas en las expresiones faciales o poses y ofrecen solo una sincronización de labios rudimentaria. VLOGGER puede generar «vídeos de alta resolución del movimiento de la cabeza y la parte superior del cuerpo». […] presenta expresiones faciales y gestos considerablemente diversos» y es «el primer enfoque para generar humanos que hablan y se mueven a partir de entradas de habla».

Como explicó el equipo de investigación, «es precisamente la automatización y el realismo conductual lo que [are] Lo que buscamos en este trabajo: VLOGGER es una interfaz multimodal para un agente conversacional encarnado, equipada con una representación visual animada y de audio, que presenta expresiones faciales complejas y un nivel creciente de movimiento corporal, diseñada para respaldar conversaciones naturales con un usuario humano. «.

ejemplo-de-vlogger-google-2024 — A partir de una única fotografía (izquierda), el software VLOGGER predice los fotogramas de vídeo (derecha) que deben acompañar cada momento de un archivo de sonido de alguien hablando, mediante un proceso conocido como «difusión», y luego genera esos fotogramas de vídeo en alta -definición de calidad.

Google

VLOGGER reúne algunas tendencias recientes en aprendizaje profundo.

Multimodalidad converge los muchos modos de herramientas de IA Puede absorber y sintetizar, incluyendo texto y audio, e imágenes y vídeo.

Los grandes modelos de lenguaje, como el GPT-4 de OpenAI, permiten utilizar el lenguaje natural como entrada para impulsar acciones de diversos tipos, ya sea la creación de párrafos de texto, una canción o una imagen.

Los investigadores también han encontrado numerosas formas de crear imágenes y vídeos realistas en los últimos años refinando la «difusión». El término proviene de la física molecular y hace referencia a cómo, a medida que aumenta la temperatura, las partículas de materia pasan de estar muy concentradas en una zona a estar más dispersas. Por analogía, los bits de información digital pueden considerarse «difusos» cuanto más incoherentes se vuelven con el ruido digital.

También: Deja de lado a Gemini, la IA de código abierto tiene sus propios trucos de vídeo

La difusión de IA introduce ruido en una imagen y reconstruye la imagen original para entrenar una red neuronal para encontrar las reglas mediante las cuales se construyó. La difusión es la raíz del impresionante proceso de generación de imágenes en Stable Diffusion de Stability AI y DALL-E de OpenAI. También es la forma en que OpenAI crea videos ingeniosos en Sora.

Para VLOGGER, el equipo de Corona entrenó una red neuronal para asociar el audio de un orador con cuadros de video individuales de ese orador. El equipo combinó un proceso de difusión para reconstruir el cuadro de video a partir del audio utilizando otra innovación reciente, el Transformer.

Transformer utiliza el método de atención para predecir fotogramas de vídeo basándose en fotogramas que ocurrieron en el pasado, junto con el audio. Al predecir acciones, la red neuronal aprende a representar movimientos precisos de las manos y del cuerpo y expresiones faciales, cuadro por cuadro, en sincronía con el audio.

El paso final es utilizar las predicciones de esa primera red neuronal para posteriormente impulsar la generación de fotogramas de vídeo de alta resolución utilizando una segunda red neuronal que también emplea difusión. Ese segundo paso también es un punto máximo en materia de datos.

También: La IA generativa falla en esta habilidad tan común del pensamiento humano

Para crear imágenes de alta resolución, el equipo de Corona compiló MENTOR, un conjunto de datos que presenta 800.000 «identidades» de vídeos de personas hablando. MENTOR consta de 2200 horas de vídeo, lo que según el equipo lo convierte en «el conjunto de datos más grande utilizado hasta la fecha en términos de identidades y duración» y es 10 veces más grande que conjuntos de datos comparables anteriores.

Los autores descubren que pueden mejorar ese proceso con un paso posterior llamado «ajuste». Al enviar un vídeo completo a VLOGGER, después de que ya haya sido «preentrenado» en MENTOR, pueden capturar de manera más realista las idiosincrasias del movimiento de la cabeza de una persona, como el parpadeo: «Ajustando nuestro modelo de difusión con más datos , en un vídeo monocular de un sujeto, VLOGGER puede aprender a capturar mejor la identidad, por ejemplo, cuando la imagen de referencia muestra los ojos cerrados», un proceso al que el equipo se refiere como «personalización».

arquitectura-vlogger-google-2024 — La red neuronal de VLOGGER es una combinación de dos redes neuronales diferentes. El primero utiliza «atención enmascarada» a través de un transformador para predecir qué poses deberían ocurrir en un cuadro de video basándose en el sonido proveniente de la señal de audio grabada del hablante. La segunda red neuronal utiliza la difusión para generar una secuencia consistente de fotogramas de video utilizando las pistas de movimiento y expresión corporal de la primera red neuronal.

Google

El punto más importante de este enfoque (vincular las predicciones en una red neuronal con imágenes de alta resolución, y lo que hace que VLOGGER sea provocativo) es que el programa no se limita a generar un vídeo, como lo hace Sora. VLOGGER vincula ese video con acciones y expresiones que se pueden controlar. Sus vídeos realistas pueden manipularse a medida que se desarrollan, como marionetas.

También: El CEO de Nvidia, Jensen Huang, presenta la familia de chips ‘Blackwell’ de próxima generación en el GTC

«Nuestro objetivo es cerrar la brecha entre los recientes esfuerzos de síntesis de vídeo», escribió el equipo de Corona, «que pueden generar vídeos dinámicos sin control sobre la identidad o la pose, y los métodos de generación de imágenes controlables».

VLOGGER no sólo puede ser un avatar controlado por voz, sino que también puede llevar a funciones de edición, como alterar la boca o los ojos de un sujeto que habla. Por ejemplo, una persona virtual que parpadea mucho en un vídeo podría cambiarse para que parpadee poco o no parpadee en absoluto. Una manera de hablar con la boca abierta podría reducirse a un movimiento más discreto de los labios.

Habiendo logrado una forma de controlar videos de alta resolución a través de señales de voz, VLOGGER abre el camino a manipulaciones, como cambiar los movimientos de los labios del hablante en cada tramo del video para que sean diferentes del video original.

VLOGGER

Habiendo alcanzado un nuevo estado del arte en la simulación de personas, la pregunta que no aborda el equipo de Corona es qué debería esperar el mundo de cualquier mal uso de la tecnología. Es fácil imaginar imágenes de una figura política diciendo algo absolutamente catastrófico sobre, digamos, una guerra nuclear inminente.

Presumiblemente, la siguiente etapa en este juego de avatar serán las redes neuronales que, como el ‘Prueba de Voight-Kampff‘ en la película Blade Runner, puede ayudar a la sociedad a detectar qué hablantes son reales y cuáles son simplemente deepfakes con modales notablemente realistas.

Enlace fuente