
Fotograma fijo de un vídeo generado por Sora. El mensaje de OpenAI fue: «La cámara mira directamente a los coloridos edificios de Burano, Italia. Un adorable dálmata mira a través de una ventana de un edificio en la planta baja. Mucha gente camina y anda en bicicleta por las calles del canal frente a los edificios». Abierto AI
Open AI ya es líder en el mercado Modelos de IA en generación de imágenes y textos con DE-E 3 y ChatGPT, respectivamente. Ahora, la compañía también llega al espacio de generación de texto a video con un modelo completamente nuevo.
También: Los mejores generadores de imágenes con IA de 2024: probados y revisados
El jueves, OpenAI desvelado Sora, su modelo de texto a video que puede generar videos de hasta un minuto de duración con una calidad y detalle impresionantes, como se ve en el video de demostración a continuación:
Sora puede abordar escenas complejas, incluidos múltiples personajes, tipos específicos de movimiento y gran detalle, debido a la profunda comprensión del lenguaje, las indicaciones y cómo existen los sujetos en el mundo, según OpenAI.
Al mirar diferentes videos de demostración, puede ver que OpenAI ha logrado abordar dos grandes problemas en el espacio de generación de videos: continuidad y longevidad:
Mensaje: “Una mujer elegante camina por una calle de Tokio llena de luces de neón cálidas y luminosas y carteles animados de la ciudad. Lleva una chaqueta de cuero negra, un vestido largo rojo, botas negras y un bolso negro. ella usa gafas de sol y lápiz labial rojo. ella camina con confianza y casualidad.… pic.twitter.com/cjIdgYPaWq
—OpenAI (@OpenAI) 15 de febrero de 2024
Los vídeos generados por IA suelen aparecer entrecortados y distorsionados, lo que deja claro a la audiencia dónde termina y comienza cada fotograma. Por ejemplo, Runaway AI lanzó su versión más avanzada. modelo de texto a vídeo, Gen-2, en marzo. Como se ve a continuación, los clips no se comparan con los del modelo actual de OpenAI:
El modelo de OpenAI, por otro lado, puede generar vídeo fluido, haciendo que cada clip generado parezca sacado de una película producida en Hollywood.
También: Cómo utilizar ChatGPT
OpenAI dice que Sora es un modelo de difusión que puede producir resultados de alta calidad mediante el uso de una arquitectura de transformador similar a los modelos GPT, así como investigaciones anteriores de los modelos DALL-E y GPT. Además de generar vídeo a partir de texto, Sora puede generar vídeo a partir de una imagen fija o completar fotogramas faltantes de vídeos:
Mensaje: “Un tráiler de película que presenta las aventuras del hombre espacial de 30 años que lleva un casco de motocicleta tejido de lana roja, cielo azul, desierto salado, estilo cinematográfico, filmado en película de 35 mm, colores vivos”. pic.twitter.com/0JzpwPUGPB
—OpenAI (@OpenAI) 15 de febrero de 2024
A pesar de mostrar todos sus avances, OpenAI también aborda las debilidades del modelo, afirmando que a veces puede tener dificultades para «simular la física de una escena compleja y puede no comprender instancias específicas de causa y efecto». El modelo también podría confundir los detalles espaciales de un mensaje.
El modelo está disponible para los miembros del equipo rojo primero para evaluar los riesgos del modelo, y para un número selecto de creativos, como artistas visuales, diseñadores y cineastas, para recopilar comentarios sobre cómo mejorar el modelo para satisfacer sus necesidades.
Parece que estamos entrando en una nueva era en la que las empresas cambiarán su enfoque hacia la investigación, el desarrollo y el lanzamiento de generadores de texto a video con IA capaces. Hace apenas dos semanas, Google Research publicó un artículo de investigación en Lumiere, un modelo de difusión de texto a video que también puede crear videos muy realistas.