TL;DR
- OpenAI acaba de anunciar un nuevo modelo de IA llamado Sora.
- La herramienta de IA generativa de texto a video puede crear hasta 60 segundos de contenido de video.
- La compañía dice que actualmente está trabajando con los equipos rojos para probar el modelo de manera adversa.
Hoy, Google anunció que lanzará la versión 1.5 de Gemini para desarrolladores y usuarios empresariales. Para no quedarse atrás, uno de los mayores competidores de Google… AbiertoAI – también hizo un gran anuncio sobre IA hoy. Sin embargo, este anuncio involucra un nuevo modelo de IA de texto a video.
en un entrada en el blog, y posteriormente en las redes sociales, OpenAI presentó un nuevo modelo de IA generativa de texto a video llamado Sora. El anuncio va acompañado de clips creados por el software, que van desde una celebración del Año Nuevo Lunar chino hasta un monstruo animado adulando una vela roja.
Presentamos Sora, nuestro modelo de texto a video.
Sora puede crear vídeos de hasta 60 segundos con escenas muy detalladas, movimientos de cámara complejos y múltiples personajes con emociones vibrantes. https://t.co/7j2JN27M3W
OpenAI afirma que Sora está actualmente disponible para los miembros del equipo rojo para «evaluar áreas críticas en busca de daños o riesgos». Estos miembros del equipo rojo incluyen expertos en áreas como desinformación, contenido que incita al odio y prejuicios. Además de estas pruebas, Sora también deberá cumplir con las medidas de seguridad que existen para DALL·E 3. La compañía agrega que está trabajando en herramientas para ayudar a detectar si Sora generó un video.
Aunque otros como Pika y Stability AI han superado a OpenAI en lo que respecta a la generación de vídeos de IA, hay algunas cosas que hacen que Sora se destaque. Por un lado, Sora puede crear hasta 60 segundos de vídeo, mientras que los competidores sólo logran unos cuatro segundos. Luego está la nitidez, la resolución y la precisión del mundo circundante.
Hay más de 35 ejemplos que puede consultar en el sitio web de OpenAI. Si bien los resultados son impresionantes, el modelo está lejos de ser perfecto. Como admite la empresa:
El modelo actual tiene debilidades. Puede tener dificultades para simular con precisión la física de una escena compleja y es posible que no comprenda casos específicos de causa y efecto. Por ejemplo, una persona puede darle un mordisco a una galleta, pero después, es posible que la galleta no tenga la marca del mordisco.
El modelo también puede confundir los detalles espaciales de un mensaje, por ejemplo, mezclando izquierda y derecha, y puede tener dificultades con descripciones precisas de eventos que tienen lugar a lo largo del tiempo, como seguir una trayectoria de cámara específica.
Puedes ver un ejemplo de esto en el primer vídeo que se muestra en el blog. El vídeo muestra a una mujer caminando por Tokio. Si observas de cerca, notarás que las piernas de la mujer ocasionalmente cambian o tartamudean, sus pies se deslizan por el suelo y su vestimenta y cabello cambian hacia el final.
A pesar de que Sora no está disponible para el público en general, el director ejecutivo Sam Altman ha estado aceptando indicaciones de los usuarios de X (anteriormente Twitter).