OpenAI puede recrear voces humanas, pero aún no lanzará la tecnología

La síntesis de voz ha avanzado mucho desde 1978 Habla y deletrea juguete, que alguna vez cautivó a la gente con su capacidad de última generación para leer palabras en voz alta usando una voz electrónica. Ahora, usando el aprendizaje profundo Modelos de IAel software puede crear no sólo voces que suenan realistas sino que también puede crear de manera convincente imitar voces existentes utilizando pequeñas muestras de audio.

En ese sentido, OpenAI anunció esta semana Voice Engine, un modelo de inteligencia artificial de texto a voz para crear voces sintéticas basadas en un segmento de audio grabado de 15 segundos. Ha proporcionado muestras de audio del motor de voz en acción. en su sitio web.

Una vez que se clona una voz, un usuario puede ingresar texto en Voice Engine y obtener un resultado de voz generado por IA. Pero OpenAI no está preparado para lanzar ampliamente su tecnología. Inicialmente, la compañía planeó lanzar un programa piloto para que los desarrolladores se registraran en la API Voice Engine a principios de este mes. Pero después de considerar más a fondo las implicaciones éticas, la empresa decidió reducir sus ambiciones por ahora.

«De acuerdo con nuestro enfoque sobre la seguridad de la IA y nuestros compromisos voluntarios, elegimos realizar una vista previa de esta tecnología, pero no lanzarla ampliamente en este momento», escribe la compañía. «Esperamos que esta vista previa de Voice Engine destaque su potencial y también motive la necesidad de reforzar la resiliencia de la sociedad frente a los desafíos que plantean modelos generativos cada vez más convincentes».

La tecnología de clonación de voz en general no es particularmente nueva: ha habido varios Modelos de síntesis de voz AI desde 2022, y la tecnología está activa en la comunidad de código abierto con paquetes como voz abierta y XTTSv2. Pero la idea de que OpenAI esté avanzando poco a poco hacia permitir que cualquiera use su tipo particular de tecnología de voz es notable. Y en cierto modo, la reticencia de la compañía a publicarlo en su totalidad podría ser la historia más importante.

OpenAI dice que los beneficios de su tecnología de voz incluyen brindar asistencia de lectura a través de voces que suenan naturales, permitir un alcance global para los creadores al traducir contenido mientras se preservan los acentos nativos, apoyar a las personas no verbales con opciones de habla personalizadas y ayudar a los pacientes a recuperar su propia voz después. condiciones que afectan el habla.

Pero también significa que cualquier persona con 15 segundos de la voz grabada de alguien podría clonarla efectivamente, y eso tiene implicaciones obvias para un posible uso indebido. Incluso si OpenAI nunca lanza ampliamente su motor de voz, la capacidad de clonar voces ya ha causado problemas en la sociedad a través de estafas telefónicas donde alguien imita la voz de un ser querido y llamadas automáticas de campaña electoral con voces clonadas de políticos como Joe Biden.

Además, investigadores y periodistas han demostrado que la tecnología de clonación de voz se puede utilizar para acceder a cuentas bancarias que utilizan autenticación de voz (como las de Chase). Identificación de voz), lo que llevó al senador estadounidense Sherrod Brown de Ohio, presidente del Comité de Banca, Vivienda y Asuntos Urbanos del Senado estadounidense, a enviar una carta a los directores ejecutivos de varios bancos importantes en mayo de 2023 para preguntar sobre las medidas de seguridad que están tomando los bancos para contrarrestar los riesgos impulsados por la IA.

OpenAI reconoce que la tecnología podría causar problemas si se lanza ampliamente, por lo que inicialmente está tratando de solucionar esos problemas con un conjunto de reglas. Ha estado probando la tecnología con un conjunto de empresas asociadas selectas desde el año pasado. Por ejemplo, empresa de síntesis de vídeo. Hola generación ha estado utilizando el modelo para traducir la voz de un hablante a otros idiomas manteniendo el mismo sonido vocal.

Enlace fuente