En resumen: La generación de videos de IA pronto ya no se limitará a suscripciones costosas o servidores de alta potencia. Gracias a un avance reciente, incluso una computadora portátil de juegos podría generar videos de IA de larga duración.
El avance proviene de Lvmin Zhang de Github y Maneesh Agrawala de la Universidad de Stanford. El dúo desarrollado Marcouna arquitectura de red neuronal que permite la difusión de video de alta calidad con tan solo 6 GB de VRAM. Este es un logro significativo, especialmente dado el tamaño del modelo, 13 mil millones de parámetros, lo que le permite generar clips completos de 60 segundos a 30 fps usando solo una GPU de rango medio.
La clave radica en cómo funciona FramePack. Los modelos tradicionales de difusión de video dependen de marcos generados previamente para predecir los próximos. A medida que aumenta la longitud del video, también lo hace el «contexto temporal», el número de marcos pasados que el modelo debe considerar, lo que resulta en mayores demandas de memoria. Es por eso que la mayoría de los modelos requieren 12 GB de VRAM o más para funcionar de manera eficiente.
FramePack voltea eso sobre su cabeza. En lugar de dejar que el uso del uso de la memoria con clips más largos, comprime los marcos de entrada en función de la importancia en un contexto de longitud fija, manteniendo la huella de memoria compacta y consistente independientemente de la duración del video.
Esta innovación permite que el modelo procese miles de cuadros, incluso con grandes arquitecturas, en GPU de grado portátil. También permite el entrenamiento con tamaños de lotes comparables a los utilizados en los modelos de difusión de imágenes.
Pero FramePack no solo reduce las demandas de memoria, sino que también aborda la deriva, un problema común en el que la calidad del video se degrada con el tiempo. Mediante el uso de patrones de compresión inteligentes y técnicas de programación, FramePack ayuda a mantener la consistencia visual de principio a fin.
Para colmo, el modelo incluye una GUI fácil de usar. Los usuarios pueden cargar imágenes, ingresar las indicaciones de texto y ver una vista previa en vivo a medida que se generan marcos. En un RTX 4090, las velocidades de generación optimizadas alcanzan hasta 0.6 cuadros por segundo. Naturalmente, el rendimiento es más bajo en GPU menos potentes, pero incluso un RTX 3060 puede manejarlo.
Actualmente, FramePack admite RTX 30, 40 y las nuevas GPU de la serie 50, siempre que admitan formatos de datos FP16 o BF16. Todavía no hay soporte confirmado para las GPU AMD o Intel, pero el modelo funciona en múltiples sistemas operativos, incluido Linux.
Puede encontrar detalles del modelo completo y código fuente en Girub.