Estos avatares de IA ahora vienen con expresiones similares a las humanas

Uno de los avatares expresivos de Synthesia.

síntesis

Inteligencia artificial (IA) Los generadores de vídeo y los avatares que crean están evolucionando rápidamente y la empresa de vídeos de IA Synthesia, con sede en el Reino Unido, espera llevar la tecnología emergente al siguiente nivel.

El miércoles, la empresa Anunciado sus Avatares Expresivo, que pueden representar una variedad de emociones humanas realistas. La última edición de lo que la compañía llama sus «actores digitales», los Avatares Expresivo, presenta expresiones faciales mejoradas, sincronización de labios más precisa y voces realistas parecidas a las humanas, una mejora del tono robótico de la mayoría de las IA de texto a audio.

También: Zoom recibe su primera gran revisión en 10 años, impulsado por IA generativa

«Esta tecnología aporta un nivel de sofisticación y realismo a los avatares digitales que desdibuja la línea entre lo virtual y lo real», dijo la compañía en el anuncio.

La plataforma de texto a video de Synthesia viene con más de 160 avatares de IA entre los que los usuarios pueden elegir, que la compañía creó en base a actores humanos, con su consentimiento y compensación. Los equipos pueden colaborar en vídeos de principio a fin y crear vídeos en más de 130 idiomas.

La compañía pretende reemplazar todo el proceso de producción de video con su software, pero no van a Hollywood, dijo el director ejecutivo Victor Riparbelli durante una demostración del lanzamiento. En cambio, la empresa se centra en contenido empresarial y B2B, donde ve la necesidad de vídeos fáciles de crear, atractivos y de apariencia humana.

También: ¿Qué es la IA generativa y por qué es tan popular? Aquí tienes todo lo que necesitas saber

Los avatares expresivos de Synthesia funcionan con su modelo de IA Express-1. Si bien la empresa utiliza LLM de código abierto para los elementos de texto del producto, Express-1 se capacitó completamente con contenido que Synthesia produjo internamente, nada sintético ni extraído de la web.

En la demostración, Riparbelli explicó que la compañía contrató a miles de actores para grabar videos para el modelo Express-1 en sus estudios de Londres y Nueva York, en parte para evitar importar sesgos incorporados en conjuntos de datos existentes.

«Con esta tecnología en particular, no es una estrategia viable optar por contenido sintético, porque esencialmente terminas siendo capaz de replicar contenido sintético, que es exactamente lo que estamos tratando de no hacer con esto», dijo Riparbelli. «Estás tratando de replicar cómo hablan realmente los humanos».

Riparbelli añadió que este conjunto de datos relativamente más pequeño era suficiente para el modelo Express-1 porque es mucho más «estrecho y específico» que modelos como el de OpenAI. sora o Pista.

También: El modelo VLOGGER AI de Google puede generar avatares de vídeo a partir de imágenes

La demostración muestra un avatar que representa tres mensajes: «Estoy feliz», «Estoy molesto» y «Estoy frustrado». El avatar habla con un ritmo más realista y natural que las generaciones anteriores de tecnología de Synthesia.

«Los avatares expresivos no sólo imitan el habla humana; entienden su contexto», afirma el anuncio. «Ya sea que la conversación sea alegre o sombría, nuestros avatares ajustan su desempeño en consecuencia, mostrando un nivel de empatía y comprensión que alguna vez fue dominio exclusivo de los actores humanos».

Si bien no son indistinguibles de las personas reales, la naturaleza realista de estos avatares puede ser alarmante, especialmente considerando lo profunda que es la tecnología. abusado.

«Somos conscientes de que los Avatares Expresivos son una nueva y poderosa tecnología, lanzada durante un año importante para la democracia, cuando miles de millones de personas en todo el mundo ejercen su derecho al voto», dice la compañía en el anuncio.

«Hemos tomado medidas adicionales para evitar el uso indebido de nuestra plataforma, incluida la actualización de nuestras políticas para restringir el tipo de contenido que las personas pueden crear, invertir en la detección temprana de actores de mala fe, aumentar los equipos que trabajan en la seguridad de la IA y experimentar con tecnologías de credenciales de contenido como C2PA«.

También: El 80% de la gente cree que los deepfakes afectarán las elecciones. Aquí hay tres maneras en que puedes prepararte.

La compañía también contaba con protecciones antes del lanzamiento del miércoles. Los usuarios pueden crear avatares personalizados, pero deben contar con el consentimiento explícito de la persona y pasar por un «procedimiento exhaustivo similar a KYC», según el sitio web de Synthesia. Además, puede optar por no participar en el proceso en cualquier momento (al igual que los actores comunes), y Synthesia borrará sus datos y su imagen. La empresa no permite a los usuarios crear avatares de celebridades o políticos bajo ninguna circunstancia.

Además, Riparbelli explica en un video que las herramientas de Synthesia solo pueden ser utilizadas para crear contenido de noticias por organizaciones de noticias examinadas con planes empresariales. Sin embargo, no está claro qué criterios utiliza Synthesia y si la empresa verifica el contenido creado por su plataforma.

La síntesis también forma parte del Iniciativa de autenticidad de contenidouna coalición de empresas y organizaciones que trabajan en herramientas para determinar la procedencia del contenido o para identificar los orígenes de un medio.

También: ¿Qué son las credenciales de contenido? He aquí por qué la nueva IA de Adobe mantiene estos metadatos en primer plano

Synthesia cree que los avatares expresivos ayudarán a las empresas a ir más allá de sus necesidades de contenido básico para crear videos con un toque más empático: aquellos sobre temas delicados como atención médica o material de atención al cliente que emulen la amabilidad y paciencia de una persona real.

«Este es sólo el primer lanzamiento, se puede decir que el primer producto que hemos construido sobre estos modelos», dijo Riparbelli durante la demostración. «Creo que estamos viendo un cambio de magnitud en las capacidades dentro de los próximos seis a nueve meses».

Enlace fuente