El lunes, Tencent, el gigante chino de Internet conocido por su imperio de videojuegos y su aplicación de chat WeChat, desvelado una nueva versión de su modelo de generación de video de código abierto DynamiCrafter en GitHub. Es un recordatorio de que algunas de las empresas tecnológicas más grandes de China han estado intensificando silenciosamente sus esfuerzos para hacer mella en el espacio de texto e imagen a video.
Al igual que otras herramientas de vídeo generativo del mercado, DynamiCrafter utiliza el método de difusión para convertir subtítulos e imágenes fijas en vídeos de segundos de duración. Inspirado en el fenómeno natural de la difusión en física.los modelos de difusión en el aprendizaje automático pueden transformar datos simples en datos más complejos y realistas, de manera similar a cómo las partículas se mueven de un área de alta concentración a otra de baja concentración.
La segunda generación de DynamiCrafter produce videos con una resolución de píxeles de 640 × 1024, una actualización de su lanzamiento inicial en octubre que presentaba videos de 320 × 512. un academico papel publicado por el equipo detrás de DynamiCrafter señala que su tecnología se diferencia de la de la competencia en que amplía la aplicabilidad de las técnicas de animación de imágenes a «contenido visual más general».
«La idea clave es utilizar el movimiento previo de los modelos de difusión de texto a vídeo incorporando la imagen en el proceso generativo como guía», dice el artículo. En comparación, las técnicas “tradicionales” “se centran principalmente en animar escenas naturales con dinámica estocástica (por ejemplo, nubes y fluidos) o movimientos de dominios específicos (por ejemplo, movimientos del cabello o del cuerpo humano)”.
En una demostración (ver más abajo) que compara DynamiCrafter, Stable Video Diffusion (lanzado en noviembre), y el Pika Labs recientemente publicitado, el resultado del modelo Tencent parece un poco más animado que otros. Inevitablemente, las muestras elegidas favorecerían a DynamiCrafter, y ninguno de los modelos, después de mis primeros intentos, deja la impresión de que la IA pronto podrá producir películas completas.
No obstante, se han dado grandes esperanzas a los vídeos generativos como próximo punto focal en la carrera de la IA tras el auge del texto y las imágenes generativos. Por lo tanto, se espera que las nuevas empresas y los operadores tecnológicos inviertan recursos en este campo. Esa no es una excepción en China. Además de Tencent, ByteDance, la empresa matriz de TikTok, Baidu y Alibaba han lanzado sus modelos de difusión de vídeos.
Ambos ByteDance MagiaVideo y Baidu UniVG han publicado demostraciones en GitHub, aunque ninguna parece estar disponible para el público todavía. Al igual que Tencent, Alibaba ha fabricado su modelo de generación de vídeo VGen fuente abiertauna estrategia que es cada vez más popular entre las empresas tecnológicas chinas que esperan llegar a la comunidad global de desarrolladores.