OpenAI presenta una vista previa de la herramienta de audio ‘Voice Engine’ que puede clonar voces humanas con 15 segundos de audio – Solución Profesional Streaming de Audio & Video

AbiertoAI está compartiendo los primeros resultados de una prueba de una función que puede leer palabras en voz alta con una voz humana convincente, lo que destaca una nueva frontera para la inteligencia artificial y plantea el espectro de los riesgos de las falsificaciones profundas. La compañía comparte demostraciones iniciales y casos de uso de una vista previa a pequeña escala del modelo de texto a voz, llamado Motor de voz, que hasta ahora ha compartido con unos 10 desarrolladores, dijo un portavoz. OpenAI decidió no implementar más ampliamente la función, sobre la cual informó a los periodistas a principios de este mes.

Un portavoz de OpenAI dijo que la compañía decidió reducir el lanzamiento después de recibir comentarios de partes interesadas como formuladores de políticas, expertos de la industria, educadores y creativos. Inicialmente, la compañía había planeado lanzar la herramienta a hasta 100 desarrolladores a través de un proceso de solicitud, según la rueda de prensa anterior.

«Reconocemos que generar un discurso que se parezca a las voces de las personas tiene serios riesgos, que son especialmente importantes en un año electoral», escribió la compañía en una publicación de blog el viernes. «Estamos colaborando con socios estadounidenses e internacionales de todo el gobierno, los medios de comunicación, el entretenimiento, la educación, la sociedad civil y más para garantizar que incorporamos sus comentarios a medida que construimos».

Otro AI La tecnología ya se ha utilizado para falsificar voces en algunos contextos. En enero, una llamada telefónica falsa pero que parecía realista, supuestamente del presidente Joe Biden, alentó a la gente de New Hampshire a no votar en las primarias, un evento que avivó los temores de AI antes de elecciones globales críticas.

A diferencia de los esfuerzos anteriores de OpenAI para generar contenido de audio, Voice Engine puede crear discursos que suenan como personas individuales, completos con su cadencia y entonación específicas. Todo lo que necesita el software son 15 segundos de audio grabado de una persona hablando para recrear su voz.

Durante una demostración de la herramienta, Bloomberg escuchó un clip del director ejecutivo de OpenAI. Sam Altman explicando brevemente la tecnología con una voz que sonaba indistinguible de su discurso real, pero que fue completamente generada por IA.

«Si tienes la configuración de audio adecuada, es básicamente una voz de calibre humano», dijo Jeff Harris, líder de producto de OpenAI. «Es una calidad técnica bastante impresionante». Sin embargo, Harris dijo: «Obviamente hay mucha delicadeza de seguridad en torno a la capacidad de imitar con precisión el habla humana».

Uno de los socios desarrolladores actuales de OpenAI que utiliza la herramienta, el Instituto de Neurociencias Norman Prince del sistema de salud sin fines de lucro Lifespan, está utilizando tecnología para ayudar a los pacientes a recuperar la voz. Por ejemplo, la herramienta se utilizó para restaurar la voz de una paciente joven que perdió su capacidad de hablar con claridad debido a un tumor cerebral al replicar su discurso de una grabación anterior para un proyecto escolar, según la publicación del blog de la compañía.

El modelo de voz personalizado de OpenAI también puede traducir el audio que genera a diferentes idiomas. Eso lo hace útil para empresas del sector del audio, como Spotify Technology SA. Spotify ya ha utilizado la tecnología en su propio programa piloto para traducir los podcasts de presentadores populares como Lex Fridman. OpenAI también promocionó otras aplicaciones beneficiosas de la tecnología, como la creación de una gama más amplia de voces para contenido educativo para niños.

En el programa de prueba, OpenAI requiere que sus socios acepten sus políticas de uso, obtengan el consentimiento del hablante original antes de usar su voz y revelen a los oyentes que las voces que escuchan son generadas por IA. La compañía también está instalando una marca de agua de audio inaudible para permitirle distinguir si una pieza de audio fue creada por su herramienta.

Antes de decidir si lanzar la función de manera más amplia, OpenAI dijo que está solicitando comentarios de expertos externos. «Es importante que la gente de todo el mundo comprenda hacia dónde se dirige esta tecnología, ya sea que finalmente la implementemos nosotros mismos o no», dijo la compañía en la publicación del blog.

OpenAI también escribió que espera que la vista previa de su software «motiva la necesidad de reforzar la resiliencia de la sociedad» frente a los desafíos que plantean las tecnologías de IA más avanzadas. Por ejemplo, la empresa pidió a los bancos que eliminen gradualmente la autenticación de voz como medida de seguridad para acceder a cuentas bancarias e información confidencial. También busca educación pública sobre el contenido engañoso de IA y un mayor desarrollo de técnicas para detectar si el contenido de audio es real o generado por IA.

(Esta historia no ha sido editada por el personal de NDTV y se genera automáticamente a partir de un feed sindicado).

Los enlaces de afiliados pueden generarse automáticamente; consulte nuestra Declaración de Ética para detalles.

Enlace fuente