ChatGPT fabricante Abierto AI ahora ha revelado sora, su motor de inteligencia artificial para convertir indicaciones de texto en vídeo. Pensar Darle (también desarrollado por OpenAI), pero para películas en lugar de imágenes estáticas.
Todavía es muy temprano para Sora, pero el modelo de IA ya está generando mucho revuelo en las redes sociales, con múltiples clips dando vueltas – clips que parecen haber sido creados por un equipo de actores y cineastas.
Aquí le explicaremos todo lo que necesita saber sobre OpenAI Sora: de qué es capaz, cómo funciona y cuándo podrá utilizarlo usted mismo. Ha llegado la era de la realización de películas mediante mensajes de texto mediante IA.
Fecha de lanzamiento y precio de OpenAI Sora
En febrero de 2024, OpenAI Sora se puso a disposición de los «equipos rojos», es decir, personas cuyo trabajo es probar la seguridad y estabilidad de un producto. OpenAI también ha invitado a un número selecto de artistas visuales, diseñadores y realizadores de películas a probar las capacidades de generación de video y brindar comentarios.
«Estamos compartiendo el progreso de nuestra investigación desde el principio para comenzar a trabajar y recibir comentarios de personas ajenas a OpenAI y para darle al público una idea de las capacidades de IA en el horizonte». dice OpenAI.
En otras palabras, el resto de nosotros aún no podemos usarlo. Por el momento, no hay indicios de cuándo Sora podría estar disponible para el público en general o cuánto tendremos que pagar para acceder a él.
Podemos hacer algunas conjeturas aproximadas sobre la escala de tiempo basándonos en lo que sucedió con ChatGPT. Antes de esa IA chatbot se lanzó al público en noviembre de 2022, fue precedido por un predecesor llamado InstructGPT a principios de ese año. Además, el DevDay de OpenAI suele tener lugar anualmente en noviembre.
Es ciertamente posible, entonces, que Sora pueda seguir un patrón similar y lanzarse al público en un momento similar en 2024. Pero actualmente esto es solo especulación y actualizaremos esta página tan pronto como tengamos alguna indicación más clara sobre un lanzamiento de Sora. fecha.
En cuanto al precio, tampoco tenemos ninguna pista de cuánto podría costar Sora. Como guía, ChatGPT Plus, que ofrece acceso a los modelos de lenguajes grandes (LLM) y Dall-E más nuevos, actualmente cuesta $ 20 (alrededor de £ 16 / AU $ 30) por mes.
Pero Sora también requiere mucha más potencia de cálculo que, por ejemplo, generar una sola imagen con Dall-E, y el proceso también lleva más tiempo. Por lo tanto, todavía no está claro exactamente en qué medida Sora, que es efectivamente un trabajo de investigación, podría convertirse en un producto de consumo asequible.
¿Qué es OpenAI Sora?
Es posible que esté familiarizado con los modelos de IA generativa, como Google Géminis para texto y Dall-E para imágenes, que pueden producir contenido nuevo basado en grandes cantidades de datos de entrenamiento. Si le pides a ChatGPT que te escriba un poema, por ejemplo, lo que recibirás se basará en muchísimos poemas que la IA ya ha absorbido y analizado.
OpenAI Sora es una idea similar, pero para videoclips. Le das un mensaje de texto, como «mujer caminando por una calle de la ciudad de noche» o «automóvil conduciendo por un bosque» y obtienes un video. Al igual que con los modelos de imágenes de IA, puedes ser muy específico cuando se trata de decir qué se debe incluir en el clip y el estilo del metraje que deseas ver.
Para tener una mejor idea de cómo funciona esto, consulte algunos de los vídeos de ejemplo publicados por Sam Altman, director ejecutivo de OpenAI – no mucho después de que Sora fuera presentado al mundo, Altman respondió a las indicaciones presentadas en las redes sociales, devolviendo videos basados en texto como «un mago con un sombrero puntiagudo y una túnica azul con estrellas blancas lanzando un hechizo que dispara un rayo desde su mano». y sosteniendo en la otra mano un viejo tomo».
¿Cómo funciona OpenAI Sora?
En un nivel simplificado, la tecnología detrás de Sora es la misma que te permite buscar imágenes de un perro o un gato en la web. Muestre a una IA suficientes fotos de un perro o un gato y podrá detectar los mismos patrones en nuevas imágenes; del mismo modo, si entrenas una IA con un millón de vídeos de una puesta de sol o una cascada, podrá generar los suyos propios.
Por supuesto, hay mucha complejidad detrás de eso, y OpenAI ha proporcionado una inmersión profunda sobre cómo funciona su modelo de IA. Está entrenado con «datos a escala de Internet» para saber cómo se ven los videos realistas, primero analiza los clips para saber qué está mirando y luego aprende a producir sus propias versiones cuando se le solicita.
Entonces, pídele a Sora que produzca un clip de una pecera y te devolverá una aproximación basada en todos los videos de peceras que ha visto. Hace uso de lo que se conoce como parches visuales, bloques de construcción más pequeños que ayudan a la IA a comprender qué debe ir, dónde y cómo deben interactuar y progresar los diferentes elementos de un video, cuadro por cuadro.
Sora se basa en un modelo de difusión, en el que la IA comienza con una respuesta «ruidosa» y luego trabaja hacia una salida «limpia» a través de una serie de bucles de retroalimentación y cálculos de predicción. Puedes ver esto en los cuadros de arriba, donde un video de un perro jugando en el programa pasa de ser manchas sin sentido a algo que realmente parece realista.
Y al igual que otros modelos de IA generativa, Sora utiliza tecnología de transformador (la última T en ChatGPT significa Transformador). Los transformadores utilizan una variedad de técnicas sofisticadas de análisis de datos para procesar montones de datos: pueden comprender las partes más importantes y menos importantes de lo que se analiza y descubrir el contexto circundante y las relaciones entre estos fragmentos de datos.
Lo que no sabemos del todo es de dónde encontró OpenAI sus datos de entrenamiento; no ha dicho qué bibliotecas de videos se han utilizado para impulsar a Sora, aunque sí sabemos que tiene asociaciones con bases de datos de contenido. como por ejemplo Shutterstock. En algunos casos, puedes ver las similitudes entre los datos de entrenamiento y el resultado que produce Sora.
¿Qué puedes hacer con OpenAI Sora?
Por el momento, Sora es capaz de producir vídeos HD de hasta un minuto, sin ningún sonido adjunto, a partir de indicaciones de texto. Si desea ver algunos ejemplos de lo que es posible, hemos elaborado una lista de 11 cortos alucinantes de Sora para que le eches un vistazo, incluidos personajes animados mullidos al estilo de Pixar y astronautas con cascos tejidos.
«Sora puede generar vídeos de hasta un minuto de duración manteniendo la calidad visual y el cumplimiento de las indicaciones del usuario», dice OpenAI, pero eso no es todo. También puede generar vídeos a partir de imágenes fijas, completar fotogramas faltantes en vídeos existentes y unir varios vídeos sin problemas. También puede crear imágenes estáticas o producir bucles interminables a partir de los clips que se le proporcionan.
Incluso puede producir simulaciones de videojuegos. como minecraftnuevamente basado en grandes cantidades de datos de entrenamiento que le enseñan cómo es un juego Minecraft debería verse como. Ya hemos visto una demostración en la que Sora puede controlar a un jugador en un entorno estilo Minecraft y, al mismo tiempo, representar con precisión los detalles circundantes.
OpenAI reconoce algunas de las limitaciones de Sora en este momento. La física no siempre tiene sentido, ya que las personas desaparecen, se transforman o se mezclan con otros objetos. Sora no está trazando una escena con actores y accesorios individuales, sino que está haciendo una increíble cantidad de cálculos sobre dónde deben ir los píxeles de un cuadro a otro.
En los vídeos de Sora, las personas pueden moverse de maneras que desafían las leyes de la física, o es posible que los detalles (como el mordisco de una galleta) no se recuerden de un fotograma al siguiente. OpenAI es consciente de estos problemas y está trabajando para solucionarlos, y puede consultar algunos de los ejemplos en el Sitio web OpenAI Sora para ver lo que queremos decir.
A pesar de esos errores, más adelante OpenAI espera que Sora pueda evolucionar hasta convertirse en un simulador realista de mundos físicos y digitales. En los próximos años, la tecnología Sora podría usarse para generar mundos virtuales imaginarios que podamos explorar, o permitirnos explorar completamente lugares reales que se replican en IA.
¿Cómo se puede utilizar OpenAI Sora?
Por el momento, no se puede ingresar a Sora sin una invitación: parece que OpenAI está seleccionando creadores y evaluadores individuales para ayudar a preparar su modelo de IA generado por video para un lanzamiento público completo. Queda por ver cuánto durará este período de vista previa, ya sean meses o años, pero OpenAI ha mostrado anteriormente su voluntad de avanzar lo más rápido posible en lo que respecta a sus proyectos de IA.
Según las tecnologías existentes que OpenAI ha hecho públicas (Dall-E y ChatGPT), parece probable que Sora esté disponible inicialmente como una aplicación web. Desde su lanzamiento, ChatGPT se ha vuelto más inteligente y ha agregado nuevas funciones, incluidos bots personalizados, y es probable que Sora siga el mismo camino cuando se lance por completo.
Antes de que eso suceda, OpenAI dice que quiere implementar algunas barreras de seguridad: no podrá generar videos que muestren violencia extrema, contenido sexual, imágenes de odio o imágenes de celebridades. También hay planes para combatir la desinformación incluyendo metadatos en los videos de Sora que indiquen que fueron generados por IA.