Open AI ya es líder en el mercado Modelos de IA en generación de imágenes y textos con DE-E 3 y ChatGPT, respectivamente. Ahora, la compañía también llega al espacio de generación de texto a video con un modelo completamente nuevo.
También: Los mejores generadores de imágenes con IA de 2024: probados y revisados
El jueves, OpenAI desvelado Sora, su modelo de texto a video que puede generar videos de hasta un minuto de duración con una calidad y detalle impresionantes, como se ve en el video de demostración a continuación:
Sora puede abordar escenas complejas, incluidos múltiples personajes, tipos específicos de movimiento y gran detalle, debido a la profunda comprensión del lenguaje, las indicaciones y cómo existen los sujetos en el mundo, según OpenAI.
Al mirar diferentes videos de demostración, puede ver que OpenAI ha logrado abordar dos grandes problemas en el espacio de generación de videos: continuidad y longevidad:
Los vídeos generados por IA suelen aparecer entrecortados y distorsionados, lo que deja claro a la audiencia dónde termina y comienza cada fotograma. Por ejemplo, Runaway AI lanzó su versión más avanzada. modelo de texto a vídeo, Gen-2, en marzo. Como se ve a continuación, los clips no se comparan con los del modelo actual de OpenAI:
El modelo de OpenAI, por otro lado, puede generar vídeo fluido, haciendo que cada clip generado parezca sacado de una película producida en Hollywood.
También: Cómo utilizar ChatGPT
OpenAI dice que Sora es un modelo de difusión que puede producir resultados de alta calidad mediante el uso de una arquitectura de transformador similar a los modelos GPT, así como investigaciones anteriores de los modelos DALL-E y GPT. Además de generar vídeo a partir de texto, Sora puede generar vídeo a partir de una imagen fija o completar fotogramas faltantes de vídeos:
A pesar de mostrar todos sus avances, OpenAI también aborda las debilidades del modelo, afirmando que a veces puede tener dificultades para «simular la física de una escena compleja y puede no comprender instancias específicas de causa y efecto». El modelo también podría confundir los detalles espaciales de un mensaje.
El modelo está disponible para los miembros del equipo rojo primero para evaluar los riesgos del modelo, y para un número selecto de creativos, como artistas visuales, diseñadores y cineastas, para recopilar comentarios sobre cómo mejorar el modelo para satisfacer sus necesidades.
Parece que estamos entrando en una nueva era en la que las empresas cambiarán su enfoque hacia la investigación, el desarrollo y el lanzamiento de generadores de texto a video con IA capaces. Hace apenas dos semanas, Google Research publicó un artículo de investigación en Lumiere, un modelo de difusión de texto a video que también puede crear videos muy realistas.