AbiertoAILa nueva herramienta de generación de texto a video Sora no estará disponible públicamente hasta finales de este año, pero mientras tanto ofrece algunos atisbos tentadores de lo que puede hacer, incluido un nuevo video alucinante (abajo) que muestra lo que Las TED Talks podrían ser dentro de 40 años.
Para crear el video estilo drone FPV, TED Talks trabajó con OpenAI y el cineasta Paul Trillo, quien ha estado usando Sora desde febrero. El resultado es un recorrido impresionante, aunque un poco desconcertante, por conferencias futuristas, laboratorios extraños y túneles submarinos.
El vídeo muestra nuevamente tanto el increíble potencial de OpenAI Sora y sus limitaciones. El efecto estilo drone FPV se ha vuelto popular para videos impactantes en las redes sociales, pero tradicionalmente requiere habilidades avanzadas de pilotaje de drones y un equipo costoso que va mucho más allá de lo nuevo. DJI Abierto 2.
El nuevo vídeo de Sora muestra que este tipo de efectos podrían abrirse a nuevos creadores, potencialmente a un costo mucho menor, aunque eso conlleva la advertencia de que aún no sabemos cuánto costará la nueva herramienta de OpenAI ni a quién. estar disponible para.
¿Cómo será TED dentro de 40 años? Para #TED2024, trabajamos con el artista @PaulTrillo y @OpenAI para crear este video exclusivo usando Sora, su modelo inédito de conversión de texto a video. Estén atentos a más IA innovadora, ¡próximamente en https://t.co/YLcO5Ju923! pic.twitter.com/lTHhcUm4Fi19 de abril de 2024
Pero el vídeo (arriba) también muestra que Sora todavía está bastante lejos de ser una herramienta confiable para películas en toda regla. Las personas en las tomas están en la pantalla por solo un par de segundos y hay un montón de combustible de pesadilla del valle extraño en el fondo.
El resultado es una experiencia estimulante, que al mismo tiempo te hace sentir extrañamente fuera de lugar, como aterrizar nuevamente después de un paracaidismo. Aún así, definitivamente tengo muchas ganas de ver más muestras a medida que avanzamos hacia el lanzamiento público de Sora más adelante en 2024.
¿Cómo se hizo el vídeo?
OpenAI y TED Talks no entraron en detalles sobre cómo se hizo este video específico, pero su creador Paul Trillo habló recientemente más ampliamente sobre sus experiencias como uno de los probadores alfa de Sora.
Trillo dijo Business Insider sobre los tipos de indicaciones que utiliza, incluido «un cóctel de palabras que uso para asegurarme de que se sienta menos como un videojuego y más como algo cinematográfico». Aparentemente, estos incluyen indicaciones como «35 milímetros», «lente anamórfica» y «viñeta de lente de profundidad de campo», que son necesarias o, de lo contrario, Sora «utilizará de forma predeterminada esta salida de aspecto muy digital».
En este momento, cada mensaje debe pasar por OpenAI para que pueda pasar por sus estrictas medidas de seguridad en torno a cuestiones como los derechos de autor. Una de las observaciones más interesantes de Trillo es que Sora es actualmente «como una máquina tragamonedas en la que pides algo, mezcla ideas y no tiene un motor de física real».
Esto significa que todavía está muy lejos de ser verdaderamente coherente con los estados de las personas y los objetos, algo que OpenAI admitió en un artículo anterior. entrada en el blog. OpenAI dijo que Sora «presenta actualmente numerosas limitaciones como simulador», incluido el hecho de que «no modela con precisión la física de muchas interacciones básicas, como la rotura de cristales».
Es probable que estas incoherencias limiten a Sora a ser una herramienta de vídeo de formato corto durante algún tiempo, pero todavía estoy deseando probarla.