OpenAI ahora puede convertir palabras en videos ultrarrealistas

La startup de IA OpenAI ha presentado un modelo de texto a vídeo, llamado Sora, que podría elevar el nivel de lo que es posible en la IA generativa.

Como Lumiere, la herramienta de conversión de texto a vídeo de Google, la disponibilidad de Sora es limitada. A diferencia de Lumiere, Sora puede generar vídeos de hasta 1 minuto de duración.

Texto a vídeo tiene convertirse en la última carrera armamentista en IA generativa como OpenAI, Google, Microsoft y más miran más allá de la generación de texto e imágenes y buscan consolidar su posición en un sector Se prevé que alcance los 1,3 billones de dólares. en ingresos para 2032, y para ganarse a los consumidores que han estado intrigados por la IA generativa desde que llegó ChatGPT hace poco más de un año.

Según una publicación de OpenAI, fabricante de ChatGPT y Dall-E, Sora estará disponible para los «equipos rojos», o expertos en áreas como desinformación, contenido de odio y prejuicios, quienes también «probarán el modelo de manera adversa». como artistas visuales, diseñadores y cineastas para obtener comentarios adicionales de profesionales creativos. Esas pruebas adversas serán especialmente importantes para abordar el potencial de convincentes deepfakes, un área importante de preocupación para el uso de IA para crear imágenes y videos.

Además de obtener comentarios externos a la organización, la startup de IA dijo que quiere compartir su progreso ahora para «darle al público una idea de las capacidades de IA que hay en el horizonte».

Ver este: Las aplicaciones GPT personalizadas de OpenAI cumplen sus órdenes

05:44

Fortalezas

Una cosa que puede diferenciar a Sora es su capacidad para interpretar indicaciones largas, incluido un ejemplo que registró 135 palabras. El vídeo de muestra que OpenAI compartió el jueves demuestra que Sora puede crear una variedad de personajes y escenas, desde personas y animales y monstruos esponjosos hasta paisajes urbanos, paisajes, jardines zen e incluso la ciudad de Nueva York sumergida bajo el agua.

Esto se debe en parte al trabajo anterior de OpenAI con sus modelos Dall-E y GPT. El generador de texto a imagen Dall-E 3 se lanzó en septiembre. Stephen Shankland de CNET llámalo «un gran paso adelante con respecto al Dall-E 2 a partir de 2022». (El último modelo de IA de OpenAI, GPT-4 Turbo, llegó en noviembre.)

En particular, Sora toma prestada la técnica de recaptioning de Dall-E 3, que según OpenAI genera «subtítulos altamente descriptivos para los datos de entrenamiento visual».

«Sora es capaz de generar escenas complejas con múltiples personajes, tipos específicos de movimiento y detalles precisos del sujeto y el fondo», decía la publicación. «El modelo comprende no sólo lo que el usuario ha pedido en el mensaje, sino también cómo existen esas cosas en el mundo físico».

Los videos de muestra que OpenAI compartió parecen notablemente realistas, excepto quizás cuando aparece un rostro humano de cerca o cuando las criaturas marinas nadan. De lo contrario, es posible que le resulte difícil saber qué es real y qué no lo es.

El modelo también puede generar vídeo a partir de imágenes fijas y ampliar vídeos existentes o completar fotogramas faltantes, de forma muy parecida a lo que puede hacer Lumiere.

«Sora sirve como base para modelos que pueden comprender y simular el mundo real, una capacidad que creemos será un hito importante para lograr AGI», agrega la publicación.

AGI, o inteligencia general artificial, es una forma más avanzada de IA eso está más cerca de la inteligencia humana e incluye la capacidad de realizar una mayor variedad de tareas. Meta y DeepMind también han expresado interés en alcanzar este punto de referencia.

Debilidades

OpenAI admitió que Sora tiene debilidades, como tener dificultades para representar con precisión la física de una escena compleja y comprender la causa y el efecto.

«Por ejemplo, una persona puede darle un mordisco a una galleta, pero después, es posible que la galleta no tenga la marca del mordisco», decía la publicación.

Y cualquiera que todavía tenga que formar una L con las manos para saber cuál queda puede animarse: Sora también mezcla izquierda y derecha.

OpenAI no compartió cuándo estará ampliamente disponible Sora, pero señaló que primero quiere tomar «varias medidas de seguridad importantes». Eso incluye cumplir con los estándares de seguridad existentes de OpenAI, que prohíben la violencia extrema, el contenido sexual, las imágenes de odio, la imagen de celebridades y la propiedad intelectual de otros.

«A pesar de una extensa investigación y pruebas, no podemos predecir todas las formas beneficiosas en que las personas usarán nuestra tecnología, ni todas las formas en que abusarán de ella», agrega la publicación. «Es por eso que creemos que aprender del uso en el mundo real es un componente crítico para crear y lanzar sistemas de IA cada vez más seguros con el tiempo».

Enlace fuente