Google presentó la semana pasada su último modelo de inteligencia artificial (IA), Lumiere. El nuevo modelo de IA es una herramienta de generación de vídeo multimodal que puede generar vídeos de 5 segundos de duración. Admite la generación de texto a video e imagen a video y se une a modelos de IA existentes como Pista Gen-2 y Pika 1.0. Según Google, Lumiere utiliza una arquitectura Space-Time U-Net (STUNet) que innova cómo se produce el movimiento en un vídeo de IA, haciéndolo parecer realista. La plataforma aún no está abierta al público.
En una preimpresión adjunta papel, el equipo de investigación detrás de Lumiere explicó que la principal innovación en movimiento proviene de la creación del vídeo en un solo proceso en lugar de juntar fotogramas fijos. Debido a esto, tanto el aspecto espacial (los objetos en el video) como el temporal (cómo se mueven las cosas en el video) de la generación del video se crean simultáneamente. Para el profano, esto da como resultado la percepción de los movimientos tal como ocurren en la naturaleza. Para lograr esto, Lumiere genera una mayor cantidad de 80 fotogramas en lugar de los 25 fotogramas de Stable Diffusion.
“Al implementar un muestreo descendente y ascendente tanto espacial como (lo más importante) temporal y aprovechar un modelo de difusión de texto a imagen previamente entrenado, nuestro modelo aprende a generar directamente un video de baja resolución y velocidad de cuadro completo procesándolo. en múltiples escalas espacio-temporales”, añade el artículo.
Si bien Google Lumiere no se puede probar en este momento, el sitio web está vivir y los entusiastas pueden ver varios videos creados usando el modelo de IA, así como el mensaje de texto y las imágenes de entrada utilizadas para crear el resultado. También puede generar videos en varios estilos, cinemagraphs que permiten a los usuarios animar una determinada parte del video e inpainting donde se usa un video o una imagen enmascarada y la IA lo completa según el mensaje.
La última herramienta de generación de vídeos de IA de Google compite con los modelos de IA existentes, como Runway Gen-2, que se lanzó en marzo de 2023, y Pika 1.0 de Pika Lab, ambos accesibles al público. Mientras que Pika puede crear videos de 3 segundos de duración (que se pueden aumentar por 4 segundos más), Runway puede generar videos de hasta 4 segundos. Ambos modelos son multimodales y también permiten la edición de vídeo.