El nuevo sintetizador de voz de OpenAI puede copiar tu voz con solo 15 segundos de audio

AbiertoAI ha estado desarrollando rápidamente su ChatGPT chatbot de IA generativa y sora Creador de videos con IA durante el último año, y ahora tiene una nueva herramienta de inteligencia artificial para mostrar: Voice Generation, que puede crear voces sintéticas a partir de solo 15 segundos de audio.

En una publicación de blog (a través de El borde), OpenAI dice que ha estado ejecutando «una vista previa a pequeña escala» de Voice Engine, que ha estado en desarrollo desde finales de 2022. De hecho, ya se está utilizando en la función Leer en voz alta en el ChatGPT aplicación, que (como su nombre indica) le lee las respuestas en voz alta.

Una vez que haya entrenado la voz a partir de una muestra de 15 segundos, podrá hacer que lea cualquier texto que desee, de una manera «emotiva y realista». OpenAI dice que podría usarse con fines educativos, para traducir podcasts a nuevos idiomas, para llegar a comunidades remotas y para apoyar a personas que no hablan.

Esto no es algo que todos puedan usar ahora mismo, pero puedes ir y escucha las muestras creado por Voice Engine. Los clips que OpenAI ha publicado suenan bastante impresionantes, aunque tienen un ligero toque robótico y forzado.

Seguridad primero

Aplicación ChatGPT para Android

Voice Engine ya se utiliza en la función Leer en voz alta de ChatGPT (Crédito de la imagen: OpenAI)

Las preocupaciones sobre el uso indebido son la razón principal por la que Voice Engine solo está en una vista previa limitada por ahora: OpenAI dice que quiere investigar más sobre cómo puede proteger herramientas como esta para que no se utilicen para difundir información errónea y copiar voces sin consentimiento.

«Esperamos iniciar un diálogo sobre el despliegue responsable de voces sintéticas y cómo la sociedad puede adaptarse a estas nuevas capacidades». dice OpenAI. «Con base en estas conversaciones y los resultados de estas pruebas a pequeña escala, tomaremos una decisión más informada sobre si implementar esta tecnología a escala y cómo hacerlo».

Con elecciones importantes previstas tanto en EE. UU. como en el Reino Unido este año, y con herramientas de IA generativa cada vez más avanzadas, es una preocupación en todo tipo de contenido de IA (audio, texto y video) y cada vez es más difícil saber qué hacer. confianza.

Como señala el propio OpenAI, esto tiene el potencial de causar problemas con las medidas de autenticación de voz y estafas en las que es posible que no sepas con quién estás hablando por teléfono o quién te dejó un mensaje de voz. Estos no son problemas fáciles de resolver, pero tendremos que encontrar formas de abordarlos.