OpenAI presentó la semana pasada una nueva capacidad para su plataforma de IA generativa (genAI) que puede utilizar una entrada de texto para generar vídeo, completo con actores realistas y otras partes móviles.
El nuevo modelo genAI, llamada soratiene una función de texto a video que puede crear escenas en movimiento complejas y realistas con múltiples personajes, tipos específicos de movimiento y detalles precisos del sujeto y el fondo «mientras mantiene la calidad visual y el cumplimiento de las indicaciones del usuario».
Sora entiende no sólo lo que un usuario pide en el mensaje, sino también cómo existen esas cosas en el mundo físico.
La tecnología básicamente traduce descripciones escritas en contenido de video, aprovechando modelos de inteligencia artificial que comprenden la entrada de texto y generan los elementos visuales y auditivos correspondientes, según Bernard Marr, un futurista tecnológico y consultor de negocios y tecnología.
“Este proceso involucra algoritmos de aprendizaje profundo capaces de interpretar texto y sintetizar videos que reflejan las escenas, acciones y diálogos descritos”, dijo Marr.
Si bien no es una capacidad nueva para los motores de IA ofrecida por otros proveedores, como Géminis de Googlese espera que el impacto de Sora sea profundo, según Marr.
Como cualquier tecnología genAI avanzada, dijo, el impacto de Sora ayudará a remodelar la creación de contenido, mejorando la narración y democratizando la producción de videos.
«Las capacidades de conversión de texto a vídeo tienen un inmenso potencial en diversos campos, como la educación, donde se pueden crear materiales de aprendizaje inmersivos; el marketing, para generar contenido atractivo; y el entretenimiento, para la creación rápida de prototipos y la narración de historias», afirmó Marr.
Sin embargo, advirtió Marr, la capacidad de los modelos de IA para traducir descripciones textuales en videos completos también subraya la necesidad de consideraciones éticas rigurosas y salvaguardias contra el uso indebido.
«La aparición de la tecnología de conversión de texto a vídeo introduce cuestiones complejas relacionadas con la infracción de los derechos de autor, en particular porque se vuelve capaz de generar contenido que podría reflejar fielmente las obras protegidas por derechos de autor», dijo Marr. «El panorama legal en esta área se está navegando actualmente a través de varias demandas, lo que hace que sea prematuro afirmar definitivamente cómo se resolverán las preocupaciones sobre derechos de autor”.
Potencialmente más preocupante es la capacidad de la tecnología para producir deepfakes altamente convincentes, lo que plantea serios problemas éticos y de privacidad, lo que subraya la necesidad de un escrutinio y una regulación minuciosos, dijo Marr.
Dan Faggella, fundador e investigador principal de Emerj Inteligencia Artificial, hizo una presentación sobre deepfakes en las Naciones Unidas hace cinco años. En ese momento, enfatizó que, independientemente de las advertencias sobre deepfakes, “la gente querrá creer lo que quiera creer”.
Sin embargo, hay una consideración más importante: pronto, las personas podrán vivir en mundos genAI donde se colocarán unos auriculares y le dirán a un modelo de IA que cree un mundo único para satisfacer sus necesidades emocionales, ya sea relajación, humor, acción, todo. creado mediante programación específicamente para ese usuario.
“Y lo que la máquina podrá hacer es evocar experiencias visuales y auditivas y, eventualmente, hápticas para mí que se entrenan en el [previous experiences] usando los auriculares”, dijo Faggella. “Necesitamos pensar en esto desde un punto de vista político; ¿Cuánto de ese escapismo permitimos?
Los modelos de texto a video también pueden crear aplicaciones que evocan experiencias de IA para ayudar a las personas a ser productivas, educarlas y mantenerlas enfocadas en su trabajo más importante. «Tal vez capacitarlos para que sean excelentes vendedores, tal vez ayudarlos a escribir código excelente y codificar mucho más de lo que pueden hacer ahora», dijo.
Tanto Sora de OpenAI como Gemini 1.5 de Google modelo de IA multimodal Por ahora, los proyectos de investigación internos solo se ofrecen a un cuerpo específico de académicos externos y otros que prueban la tecnología.
A diferencia del popular ChatGPT de OpenAI, dijo Google, los usuarios pueden introducir en su motor de consultas una cantidad mucho mayor de información para obtener respuestas más precisas.
Aunque Sora y Gemini 1.5 son actualmente proyectos de investigación internos, muestran ejemplos reales e información detallada, incluidos vídeos, fotografías, gifs y artículos de investigación relacionados.
Junto con el motor de inteligencia artificial multimodal Gemini de Google, Sora fue precedido por varios modelos de conversión de texto a video, incluido el de Meta. EmúPista Generación 2y estabilidad AI Difusión de vídeo estable.
Google tiene dos proyectos de investigación simultáneos que avanzan en lo que un portavoz llamó «modelos de generación de video de última generación». Esos proyectos son Lumière y VideoPoeta.
Lanzada a principios de este mes, Lumiere es la tecnología de generación de vídeo más avanzada de Google; Ofrece 80 cuadros por segundo en comparación con los 25 cuadros por segundo de competidores como Stable Video Diffusion.
«Gemini, diseñado para procesar información y automatizar tareas, ofrece una perfecta integración de modalidades desde el principio, lo que potencialmente lo hace más intuitivo para los usuarios que buscan una experiencia sencilla y orientada a tareas», dijo Marr. «Por otro lado, el enfoque de capas de GPT-4 permite una mejora más granular de las capacidades a lo largo del tiempo, proporcionando flexibilidad y profundidad en las capacidades de conversación y generación de contenido».
En una comparación directa, Sora parece más poderosa que Google modelos de generación de video. Mientras que Lumiere de Google puede producir un vídeo con una resolución de 512 x 512 píxeles, Sora afirma alcanzar resoluciones de hasta 1920 x 1080 píxeles o calidad HD.
Los vídeos de Lumiere están limitados a unos 5 segundos de duración; Los videos de Sora pueden durar hasta un minuto.
Además, Lumiere no puede hacer vídeos compuestos de varias tomas, mientras que Sora sí. Sora, al igual que otros modelos, también es capaz de realizar tareas de edición de vídeo, como crear vídeos a partir de imágenes u otros vídeos, combinar elementos de diferentes vídeos y ampliar vídeos en el tiempo.
«En la competencia entre Sora de OpenAI y nuevas empresas como Runway AI, la madurez puede ofrecer ventajas en términos de confiabilidad y escalabilidad», dijo Marr. «Si bien las nuevas empresas a menudo aportan enfoques innovadores y agilidad, OpenAI, con una gran financiación de empresas como Microsoft, será capaz de alcanzarlo y potencialmente adelantarlo rápidamente”.
Copyright © 2024 IDG Communications, Inc.