Hemos recorrido un largo camino desde Will Smith comiendo espaguetis en los últimos 10 meses. El vídeo generado por IA avanza a un ritmo tasa asombrosa – y el nuevo y extraordinario modelo de difusión espacio-temporal de Google, Lumiere, cambia los objetivos una vez más.
Lumiere puede crear videoclips notablemente realistas (o surrealistas de alta calidad) de hasta cinco segundos de duración. Puede animar imágenes fijas, o sólo partes de ellas, en respuesta a indicaciones de texto en lenguaje natural sobre lo que le gustaría ver.
Puede tomar una imagen, clonar el estilo de esa imagen y luego usar ese estilo para crear un montón de videos sobre otros temas que se ven y se sienten tan similares que podrían haber salido de una agencia de branding.
Puede tomar tu propio vídeo fuente y convertirlo todo en Lego, origami o flores; sólo tienes que decírselo.
Lumière
Y si las demostraciones anteriores son una indicación, tiene, con diferencia, las capacidades de pintura de vídeo más avanzadas que jamás hayamos visto. Puedes simplemente pintar sobre una parte de la imagen que no te guste y Lumiere completará automáticamente esa área de manera tan hermosa que probablemente ni siquiera te darías cuenta si no la estuvieras buscando. ¿Exnovio en tu video favorito? No por mucho tiempo.
El equipo de investigación involucrado dice que la «arquitectura U-net espacio-temporal» de Lumiere construye la duración completa del video de una sola vez, en una sola pasada, a diferencia de los modelos anteriores, que a menudo generaban un fotograma inicial y final, y luego intentaban adivina qué pasaría en el medio.
Independientemente de cómo se haga, los resultados hablan por sí solos: este es el nuevo estado del arte en video de IA generativa, es francamente asombroso y probablemente se verá tan ridículo y asqueroso como Will Smith comiendo espaguetis dentro de unos meses… Solo a tiempo para las próximas elecciones presidenciales de Estados Unidos. Yippee.
Por ahora, es sólo un proyecto de investigación, que evita que Google tenga que castrar agresivamente el sistema al servicio de los derechos de autor, la desinformación, la seguridad, el discurso de odio, la desnudez, la privacidad y todo tipo de otras políticas, un proceso que invariablemente conduce a una menor calidad. producción en estos modelos generativos.
Pero sigue siendo un enorme salto adelante, y será fascinante ver qué tan bien funciona Lumiere cuando nosotros, las masas sucias y descaradas, lo tengamos en nuestras manos.
Fuente: Investigación de Google