El motor de voz de OpenAI puede clonar una voz a partir de un clip de 15 segundos. Escucha por ti mismo

Ilustración colorida del megáfono — akinbostanci/Getty Images

desde el lanzamiento ChatGPT y dando paso a la IA generativa era, OpenAI se ha mantenido a la vanguardia con tecnología de inteligencia artificial de vanguardia como sora, su impresionante generador de texto a video. El viernes, la empresa dio un paso más al intercambio información de su vista previa a pequeña escala de Voice Engine, un modelo de inteligencia artificial de clonación de voz que puede crear voces emotivas y realistas utilizando la entrada de texto y una muestra de audio de 15 segundos.

Como se ve en el clip a continuación, la tecnología puede generar una voz con un sonido muy realista que se parece mucho a la voz del clip de referencia. Un generador de voz con IA capaz de hacerse pasar por la voz de alguien a partir de solo una muestra de 15 segundos: ¿qué podría salir mal?

OpenAI acaba de lanzar Voice Engine,
Utiliza entrada de texto y una única muestra de audio de 15 segundos para generar un discurso con un sonido natural que se parece mucho al hablante original.
El audio de referencia y el generado son muy parecidos y difíciles de diferenciar.
Más detalles en 🧵 pic.twitter.com/tJRrCO2WZP

—AshutoshShrivastava (@ai_for_success) 29 de marzo de 2024

OpenAI es consciente de los riesgos de un modelo de clonación de voz y, como resultado, aún no lo ha lanzado al público, a pesar de desarrollar Voice Engine por primera vez a finales de 2022. «Reconocemos que generar un discurso que se parezca a las voces de las personas tiene serios riesgos, que son especialmente importantes en un año electoral», dijo la compañía en su entrada en el blog.

En 2023, OpenAI comenzó a probar Voice Engine de forma privada con un pequeño grupo de socios para ayudar a la empresa a aprender más sobre el modelo, incluidos sus posibles casos de uso, salvaguardas y más.

También: Microsoft tiene una manera inteligente de mostrarte que la IA es normal (especialmente si estás solo)

Los socios que probaron Voice Engine tuvieron que aceptar las políticas de uso de OpenAI, que les prohíben explícitamente hacerse pasar por un individuo u organización sin el consentimiento del hablante original. Otras salvaguardas incluyen revelar a la audiencia que la voz que escuchan es generada por IA, marcas de agua que se remontan a Voice Engine, monitorear el uso del modelo y prohibir la creación de sus propias voces.

Los socios de OpenAI adoptaron Voice Engine y desarrollaron casos de uso con un impacto potencialmente positivo.

Por ejemplo, la startup de tecnología educativa Age of Learning utilizó Voice Engine para brindar asistencia de lectura a los niños y a los no lectores mediante la generación de contenido de voz en off preescrito y respuestas personalizadas. De manera similar, la startup de generación de avatares de IA, HeyGen, creó una herramienta en Voice Engine que traduce la voz de un hablante a varios idiomas.

Si bien OpenAI mantiene Voice Engine en versión preliminar por ahora, otros modelos similares ya están disponibles para el público. Tomemos como ejemplo a ElevenLabs, una startup que ha aparecido en los titulares por casos de uso tanto positivos como negativos de su plataforma de generación de voz impulsada por IA. El ejemplo más conocido de la tecnología de ElevenLabs es probablemente el llamada automática falsa reciente del presidente Joe Biden que alentó a los votantes a no presentarse a las urnas.

También: ChatGPT finalmente revela sus fuentes, pero hay un problema

El Clonación de voz de ElevenLabs La herramienta es de fácil acceso y uso. Todo lo que necesitas es una cuenta de ElevenLabs, unos minutos de muestras de voz y un mensaje de texto.

OpenAI es inteligente al retrasar su entrada al espacio de la clonación de voz. La industria tecnológica necesita crear conciencia sobre los riesgos de las voces generadas por IA y enfatizar a los usuarios la importancia de verificar las fuentes antes de creer lo que escuchan y ven.

Enlace fuente