E/S de Google La sesión principal de 2024 fue un asunto de 112 minutos de duración en el que la compañía hizo varios anuncios importantes centrados en inteligencia artificial (AI). Los anuncios abarcaron desde nuevos modelos de IA hasta la integración de la IA en los productos de Google, pero quizás una de las presentaciones más interesantes fue Veo, un modelo de generación de vídeo impulsado por IA, que puede generar vídeos con una resolución de 1080p. El gigante tecnológico dijo que la herramienta de inteligencia artificial puede generar videos que van más allá del minuto. En particular, OpenAI también desvelado su modelo de video AI denominado Sora en febrero.
Durante el evento, Demis Hassabis, cofundador y director ejecutivo de Google DeepMind, desvelado Veo. Al anunciar el modelo de IA, dijo: “Hoy me complace anunciar nuestro modelo de video generativo más nuevo y más capaz llamado Veo. Veo crea videos de 1080p de alta calidad a partir de mensajes de texto, imágenes y videos. Puede capturar los detalles de tus instrucciones en diferentes estilos visuales y cinematográficos”.
El gigante tecnológico afirma que Veo puede seguir de cerca las indicaciones para comprender el matiz y el tono de una frase y luego generar un vídeo que se parezca a ella. El modelo de IA puede generar videos en diferentes estilos, como timelapse, primeros planos, tomas de seguimiento rápido, tomas aéreas y varias tomas de iluminación y profundidad de campo. Además de la generación de videos, el modelo de IA también puede editar videos cuando el usuario le proporciona un video inicial y un mensaje para agregar o eliminar algo. Además, también puede generar videos más allá de la marca de un minuto, ya sea a través de un solo mensaje o mediante múltiples mensajes secuenciales.
Para resolver el problema de coherencia en los modelos de generación de vídeo, Veo utiliza transformadores de difusión latente. Esto ayuda a reducir las instancias de personajes, objetos o toda la escena que parpadea, salta o se transforma inesperadamente entre fotogramas. Google destacó que los videos creados por Veo tendrán marcas de agua utilizando SynthID, la herramienta interna de la compañía para marcar e identificar contenido generado por IA. El modelo pronto estará disponible para creadores seleccionados a través de la herramienta VideoFX en Google Labs.
Las similitudes de Veo con Sora de OpenAI
Si bien ninguno de los modelos de IA está disponible para el público todavía, ambos comparten varias similitudes. Veo puede generar vídeos de 1080p con una duración que puede superar el minuto, mientras que OpenAI Sora puede generar videos de hasta 60 segundos. Ambos modelos pueden generar videos a partir de mensajes de texto, imágenes y videos. Basados en modelos de difusión, ambos son capaces de generar videos a partir de múltiples planos, estilos y técnicas cinematográficas. Tanto Sora como Veo también vienen con etiquetas de contenido generadas por IA. Sora usa el estándar Coalition for Content Provenance and Authenticity (C2PA), mientras que Veo usa su SynthID nativo.