OpenAI anunció el jueves Sora, un nuevo modelo que genera videos de alta definición de hasta un minuto de duración a partir de indicaciones de texto. Sora, que significa «cielo» en japonés, no estará disponible para el público en general en el corto plazo. En cambio, OpenAI lo pone a disposición de un pequeño grupo de académicos e investigadores que evaluarán los daños y su potencial de uso indebido.
«Sora es capaz de generar escenas complejas con múltiples personajes, tipos específicos de movimiento y detalles precisos del sujeto y el fondo», dijo la compañía. . «El modelo comprende no sólo lo que el usuario ha pedido en el mensaje, sino también cómo existen esas cosas en el mundo físico».
Uno de los videos generados por Sora que OpenAI compartió en su sitio web muestra a una pareja caminando por una ciudad nevada de Tokio mientras pétalos de flores de cerezo y copos de nieve vuelan a su alrededor.
Otro muestra mamuts lanudos de aspecto realista caminando por una pradera nevada con un telón de fondo de cadenas montañosas cubiertas de nieve.
Mensaje: “Varios mamuts lanudos gigantes se acercan caminando a través de un prado nevado, su largo pelaje lanudo se mueve ligeramente con el viento mientras caminan, árboles cubiertos de nieve y espectaculares montañas cubiertas de nieve en la distancia, luz de media tarde con nubes tenues y un sol alto en la distancia… pic.twitter.com/Um5CWI18nS
—OpenAI (@OpenAI) 15 de febrero de 2024
OpenAI dice que el modelo funciona como resultado de una «comprensión profunda del lenguaje», lo que le permite interpretar indicaciones de texto con precisión. Aún así, como básicamente todos los generadores de imágenes y videos de IA que hemos visto, Sora no es perfecto. En uno de los ejemplos, el mensaje, que solicita un vídeo de un dálmata mirando por una ventana y gente “caminando y en bicicleta por las calles del canal”, omite por completo a las personas y las calles del vídeo. OpenAI también advierte que el modelo puede tener dificultades para comprender la causa y el efecto; por ejemplo, puede generar un video de una persona comiendo una galleta, pero es posible que la galleta no tenga marcas de mordiscos.
Sora no es el primer modelo de texto a video que existe. Otras empresas incluidas , y , han mostrado herramientas de conversión de texto a video o las han puesto a disposición del público. Aún así, actualmente ninguna otra herramienta es capaz de generar videos de hasta 60 segundos. Sora también genera vídeos completos a la vez, en lugar de juntarlos fotograma a fotograma como otros modelos, lo que garantiza que los sujetos del vídeo permanezcan iguales incluso cuando se pierden de vista temporalmente.
El auge de las herramientas de conversión de texto a vídeo ha generado preocupación sobre su potencial para crear más fácilmente imágenes falsas de apariencia realista. «Estoy absolutamente aterrorizado de que este tipo de cosas influyan en una elección reñida por estrecho margen», dijo Oren Etzioni, profesor de la Universidad de Washington que se especializa en inteligencia artificial y fundador de True Media, una organización que trabaja para identificar la desinformación en la política. campañas, Los New York Times. Y la IA generativa en términos más generales ha provocado de artistas y profesionales creativos preocupados por la tecnología que se utiliza para reemplazar puestos de trabajo.
AbiertoAI que estaba trabajando con expertos en áreas como desinformación, contenido de odio y prejuicios para probar la herramienta antes de ponerla a disposición del público. La compañía también está creando herramientas capaces de detectar videos generados por Sora e incluir metadatos en los videos generados para una detección más sencilla. La empresa para decirle al Veces cómo se había entrenado a Sora, excepto que utilizó tanto «videos disponibles públicamente» como videos con licencia de los titulares de derechos de autor.