OpenAI, la empresa detrás ChatGPT, presentó el jueves su primer modelo de generación de texto a video impulsado por inteligencia artificial (IA), Sora. La empresa afirma que puede generar vídeos de hasta 60 segundos de duración. Esto es más largo que cualquiera de sus competidores en el segmento, incluido Lumiere de Google, que fue desvelado el mes pasado. Actualmente, Sora está disponible para los miembros del equipo rojo, los expertos en ciberseguridad que prueban exhaustivamente el software para ayudar a las empresas a mejorarlo y algunos creadores de contenido. El AI La firma también planea incluir metadatos de la Coalición para la procedencia y autenticidad del contenido (C2PA) en el futuro una vez que el modelo se implemente en un producto OpenAI.
Anuncio del generador de video AI en un correo En X (anteriormente conocido como Twitter), la compañía dijo: «Sora puede crear videos de hasta 60 segundos con escenas muy detalladas, movimientos de cámara complejos y múltiples personajes con emociones vibrantes». Curiosamente, la duración del vídeo que dice generar es más de diez veces mayor que la que ofrecen sus rivales. Lumiere de Google puede generar videos de 5 segundos de duración, mientras que Runway AI y Pika 1.0 pueden generar videos de 4 y 3 segundos de duración, respectivamente.
Mensaje: “Un tráiler de película que presenta las aventuras del hombre espacial de 30 años que lleva un casco de motocicleta tejido de lana roja, cielo azul, desierto salado, estilo cinematográfico, filmado en película de 35 mm, colores vivos”. pic.twitter.com/0JzpwPUGPB
—OpenAI (@OpenAI) 15 de febrero de 2024
La cuenta X de Abierto AI y el director ejecutivo Sam Altman también compartieron varios videos generados por Sora, junto con las indicaciones utilizadas para crearlos. Los vídeos resultantes aparecen muy detallados con un movimiento fluido, algo con lo que otros generadores de vídeo del mercado han tenido problemas. Según la empresa, puede generar escenas complejas con múltiples personajes, múltiples ángulos de cámara, tipos específicos de movimiento y detalles precisos del sujeto y el fondo. Esto es posible porque el modelo de texto a video utiliza tanto el mensaje como «cómo existen esas cosas en el mundo físico».
Sora es esencialmente un modelo de difusión que utiliza una arquitectura de transformador similar a los modelos GPT. De manera similar, los datos que consume y genera se representan en un término llamado parches, que nuevamente es similar a los tokens en los modelos de generación de texto. Los parches son colecciones de vídeos e imágenes, agrupados en pequeñas porciones, según la empresa. El uso de estos datos visuales permitió a OpenAI entrenar el modelo de generación de video en diferentes duraciones, resoluciones y relaciones de aspecto. Además de la generación de texto a vídeo, Sora también puede tomar una imagen fija y generar un vídeo a partir de ella.
Sin embargo, tampoco está exento de defectos. OpenAI declaró en su sitio web, “El modelo actual tiene debilidades. Es posible que tenga dificultades para simular con precisión la física de una escena compleja y es posible que no comprenda casos específicos de causa y efecto. Por ejemplo, una persona puede darle un mordisco a una galleta, pero después, es posible que la galleta no tenga la marca del mordisco”.
Mensaje: “La escena animada presenta un primer plano de un monstruo bajo y esponjoso arrodillado junto a una vela roja que se derrite. El estilo artístico es 3D y realista, con especial atención a la iluminación y la textura. El ambiente de la pintura es de asombro y curiosidad, mientras el monstruo mira la llama con… pic.twitter.com/aLMgJPI0y6
—OpenAI (@OpenAI) 15 de febrero de 2024
Para garantizar que la herramienta de inteligencia artificial no se utilice para crear deepfakes u otro contenido dañino, la empresa está creando herramientas para ayudar a detectar contenido engañoso. También planea utilizar metadatos C2PA en los videos generados, luego de adoptar el práctica para su modelo DALL-E 3 recientemente. También está trabajando con los miembros del equipo rojo, especialmente con expertos en áreas de desinformación, contenido que incita al odio y prejuicios, para mejorar el modelo.
Actualmente, solo está disponible para los miembros del equipo rojo y un pequeño número de artistas visuales, diseñadores y cineastas para obtener comentarios sobre el producto.