¿Lo que acaba de suceder? La tecnología de generación de imágenes ha avanzado rápidamente en los últimos años, pero lograr una representación de vídeo coherente sigue siendo un desafío para los modelos de IA contemporáneos. No obstante, Google ha demostrado recientemente un progreso notable en esta área, mostrando una tecnología significativamente mejorada en el campo de la generación de vídeo.
Google acaba de presentar Lumière, el último modelo de IA de la compañía para la creación de vídeos. Lumiere es una mejora significativa en la síntesis de vídeo, afirma Google, ya que crear «movimiento realista, diverso y coherente» siempre ha sido uno de los principales desafíos para la generación de vídeo basada en IA. Lumiere proporciona un modelo de difusión espacio-temporal que aparentemente puede resolver (o intentar resolver) ese problema.
La última incursión de Mountain View en el negocio de la IA generativa es lo suficientemente buena para la generación de texto a video, renderización de imagen a video y generación estilizada. Los usuarios pueden crear un videoclip completamente nuevo escribiendo un mensaje de texto, proporcionando una imagen de origen (sin importar cuán auténtica, realista o editada sea esa imagen) o usando una imagen de referencia como estilo de destino.
Lumiere emplea una novedosa «arquitectura U-Net espacio-temporal» que genera el videoclip completo a la vez, mediante un solo paso en el modelo de IA. En comparación con los modelos existentes, que sintetizan diferentes fotogramas clave para el mismo vídeo, el enfoque de Lumiere puede lograr resultados de texto a vídeo de última generación, con mucha menos rareza que antes.
Las capacidades adicionales de Lumiere incluyen estilización de video, que transforma un video fuente en diferentes materiales, y Cinemagraphs, que proporciona una manera de animar una porción limitada y resaltada en una imagen fuente. La función Video Inpainting puede cambiar partes individuales de un video fuente, como cambiar los colores, materiales o texturas del vestido de una niña.
Como destaca Google en el papel oficial, Lumiere puede generar vídeos de «baja resolución» de 1024×1024 que no duren más de 5 segundos. Los modelos de vídeo de IA anteriores eran capaces de generar vídeos más largos, pero Google afirma que los usuarios preferían la producción de Lumiere a los modelos de IA existentes. Mountain View dice que Lumiere fue entrenado en un conjunto de datos que contiene 30 millones de videos junto con sus descripciones de texto, aunque actualmente se desconoce el origen (o el estado de los derechos de autor) de esos videos de 5 segundos.
El artículo de los investigadores de Google destaca un posible «impacto social» de la tecnología de IA generadora de vídeo como Lumiere, afirmando que el objetivo principal del modelo es permitir a los «usuarios novatos» generar contenido visual de nuevas formas creativas y flexibles. Sin embargo, se deben desarrollar lo antes posible nuevas herramientas para detectar sesgos y casos de uso «maliciosos» de modelos generativos de vídeo para evitar estropear la diversión.