Desde la liberación de DESDE-E 2 a finales de 2022, generadores de texto a imagen han causado furor con muchos competidores dignos que ingresan al mercado. Ahora, más de un año después, estamos en los albores de una nueva tecnología: la generación de vídeo mediante IA.
El martes, Google Research publicó un trabajo de investigación en Lumiere, un modelo de difusión de texto a video que puede crear videos altamente realistas a partir de indicaciones de texto y otras imágenes.
También: Los mejores generadores de imágenes con IA de 2024: DALL-E 2 y alternativas
El modelo fue diseñado para abordar un desafío importante en la síntesis de generación de video, que es crear «movimiento realista, diverso y coherente», según el artículo. Es posible que hayas notado que los modelos de generación de video generalmente muestran videos entrecortados, pero el enfoque de Google ofrece una experiencia de visualización más fluida, como se ve en el video a continuación.
Los videoclips no solo son fáciles de ver, sino que también parecen hiperrealistas, una mejora significativa con respecto a otros modelos. Lumiere puede lograr esto a través de su arquitectura Espacio-Tiempo U-Net, que genera la duración temporal de un video de una vez a través de una sola pasada.
Este método de generación de vídeo se diferencia de otros modelos existentes, que sintetizan fotogramas clave distantes. Según el artículo, ese enfoque inherentemente hace que sea difícil lograr la coherencia del vídeo.
Lumiere puede generar vídeo a partir de diferentes entradas, incluida la conversión de texto a vídeo, que funciona como un generador de imágenes normal y genera un vídeo a partir de un mensaje de texto, y la de imagen a vídeo, que toma una imagen y utiliza el mensaje que la acompaña para traer la información. foto a la vida en un vídeo.
El modelo también puede darle un giro divertido a la generación de videos a través de la generación estilizada, que utiliza una única imagen de referencia para generar videos en el estilo de destino mediante un mensaje del usuario.
Además de generar video, el modelo se puede usar para editar videos existentes a través de varias estilizaciones visuales que modifican un video para reflejar un mensaje específico, cinemagraphs que animan un área específica de una foto e inpainting, que completa áreas faltantes o dañadas en el video.
También: 7 formas en que la IA puede arreglar tus reuniones, según Microsoft
En el documento, Google midió el rendimiento de Lumiere frente a otros modelos destacados de difusión de texto a vídeo, incluidos ImagenVideo, Pika, ZeroScope y Gen2, pidiendo a un grupo de evaluadores que seleccionaran el vídeo que consideraran mejor en términos de calidad visual y movimiento. sin saber qué modelo generó cada video.
El modelo de Google superó a los demás en todas las categorías, incluida la calidad de texto a video, la alineación de texto de texto a video y la calidad de imagen a video.
El modelo aún no se ha lanzado al público en general; sin embargo, si está interesado en aprender más o ver los modelos en acción, puede visitar el sitio web de Lumiere, donde podrá ver muchas demostraciones del modelo realizando las diferentes tareas.