Sora sigue una trayectoria similar a la de los grandes modelos de lenguaje (LLM) que impulsan productos basados en texto como ChatGPT. Mientras que los LLM utilizan tokens, que son esencialmente colecciones de palabras y frases, tratándolos como fragmentos de datos para entrenamiento y procesamiento, Sora confía en parches. «A un alto nivel, convertimos videos en parches comprimiendo primero los videos en un espacio latente de dimensiones inferiores y luego descomponiendo la representación en parches de espacio-tiempo». AbiertoAI explica.
En esencia, Sora es un modelo de difusión, lo que significa que recibe datos de entrada ruidosos (parches, en este caso), que posteriormente utiliza para generar un parche limpio que aparece como el vídeo final. La tecnología de entrenamiento inherente sigue siendo el modelo transformador en lugar de los modelos de texto a video basados en GAN que llegaron hace un tiempo. En pocas palabras, Sora es un híbrido, o como le gusta llamarlo a OpenAI, un transformador de difusión.
Sora también resuelve algunos aspectos extremadamente desafiantes de la generación de videos con IA, especialmente cuando se trata de la generación de fotogramas conscientes del contexto en un espacio 3D desde perspectivas estáticas y en movimiento. La IA puede mantener la visibilidad de personas, animales y objetos mientras se mueven a través de un espacio tridimensional, incluso cuando están ocultos o salen del marco. También puede capturar varios ángulos de un solo personaje en una sola instancia, asegurando coherencia en su representación visual a lo largo del video. La cámara realiza transiciones y gira suavemente, lo que permite que los individuos y elementos de la escena se muevan sin problemas en un entorno tridimensional.