Es divertido ver la nueva herramienta de conversión de texto a vídeo con IA de Google. ¿Pero qué sigue?

Google ha mostrado una herramienta de generación de vídeo basada en inteligencia artificial, pero no está claro cuándo (o si) alguien fuera del gigante de las búsquedas podrá patear los neumáticos. Sin embargo, es ciertamente divertido de ver.

El miércoles, el brazo de investigación de Google lanzó un vídeo destacando este nuevo modelo de texto a vídeo, el cual lleva por nombre Lumiere.

En una publicación de LinkedIn, el líder del equipo Inbar Mosseri dijo la herramienta «genera vídeos coherentes y de alta calidad utilizando indicaciones de texto simples» que New Atlas dice correr hasta cinco segundos. Los ejemplos de aportes incluyen: «Un bebé perezoso mullido con un gorro de punto naranja que intenta descifrar una computadora portátil» y «Un panda escapado comiendo palomitas de maíz en el parque».

En el año más o menos que IA generativa Aunque ha sido la tecnología más popular, gran parte de la atención se ha centrado en herramientas como ChatGPT, que produce respuestas de texto a mensajes, o aquellas como Dall-E, que crean imágenes fijas. La creación de videos a partir de indicaciones de texto es posiblemente la próxima frontera, por lo que si Lumiere realmente puede «demostrar resultados de generación de texto a video de última generación», como dice Google, es posible que ya estemos evolucionando más allá. las «abominaciones grotescas» de las imágenes generadas por IA de 2023.

Como ilustra el video, las capacidades de Lumiere incluyen generación de texto a video e imagen a video, así como generación estilizada, es decir, usar una imagen para crear videos con un estilo similar. Otros trucos incluyen la capacidad de completar cualquier imagen que falte dentro de un videoclip.

Eso incluye la capacidad de animar pinturas famosas, como La noche estrellada de Van Gogh («Una pintura al óleo en timelapse de una noche estrellada con nubes moviéndose») o la Mona Lisa de Da Vinci («Una mujer que parece cansada y bostezando»). Si bien el ejemplo de Starry Night funciona casi a la perfección, Mona Lisa parece más bien riendo que bostezando.

Y aunque muchos de los animales, como «un buey almizclero pastando hermosas flores silvestres» y «un elefante feliz con un sombrero de cumpleaños caminando bajo el mar», parecen realistas, hay algo extraño en algunos de los perros. Tanto un caniche toy montando una patineta como un cachorro de golden retriever corriendo por el parque están cerca de pasar por reales, pero sus rostros, y tal vez sus ojos específicamente, delatan el hecho de que son CGI.

Sin embargo, las herramientas de edición de vídeo son muy prometedoras. Usando un video fuente e indicaciones como «hecho de ladrillos de juguete de colores» o «hecho de flores», los usuarios supuestamente pueden cambiar el estilo del tema por completo. Y con entradas como «usar una bata de baño», «usar un sombrero de fiesta» y «usar botas de lluvia» para agregar dichos elementos a una imagen de, digamos, un pollito, Lumiere puede muy bien hacer que jugar con videos sea más accesible para aquellos de nosotros que no nos especializamos en diseño gráfico.

Aunque los recursos compartidos hasta ahora ciertamente hacen que Lumiere parezca fácil de usar, la descripción de cómo funciona no lo es. (Google no respondió a una solicitud de comentarios adicionales).

Una página de proyecto describe Lumiere como «un modelo de difusión espacio-temporal», lo que suena como algo en lo que Doc Brown estaba trabajando en Regreso al futuro. Google Research dijo que esto significa que el modelo de texto a imagen aprende a generar un video procesándolo en múltiples escalas espacio-temporales, lo que ayuda a crear videos que «retratan movimientos realistas, diversos y coherentes».

Según Google, esto es superior a los modelos existentes, que «sintetizan fotogramas clave distantes seguidos de una superresolución temporal».

Jason Alan Snyder, director global de tecnología de la agencia de publicidad Momentum Worldwide, lo explicó de esta manera: «Es como la diferencia entre ver un espectáculo de marionetas y experimentar un ballet en el Lincoln Center».

Esto se debe a que Lumiere «no sólo se centra en las instantáneas, sino que crea movimientos suaves y fluidos para cada fotograma», añadió.

En otras palabras, si piensas en el método tradicional de hacer una película, tendrías que construir escenas clave y llenar los vacíos más adelante.

«Lumiere es diferente. Ve toda la película en su mente, comprende cómo se mueven los personajes, cómo interactúan los objetos y cómo todo cambia con el tiempo», dijo Snyder. «Es como dibujar todo el libro animado simultáneamente, asegurando que cada página fluya perfectamente».

Así que este «pensamiento espacio-temporal» ayuda a Lumiere a crear vídeos que parecen reales, lo que, añadió, significa que no habrá más transiciones bruscas ni movimientos robóticos. (Excepto tal vez por los ojos de cachorro).

El tiempo dirá.

Mientras tanto, como sabrán los fanáticos de La Bella y la Bestia, Lumiere en francés significa «luz».

Nota del editor: CNET utiliza un motor de inteligencia artificial para ayudar a crear algunas historias. Para más, ver esta publicación.

Enlace fuente