Investigadores de Amazonas tener introducido el modelo de conversión de texto a voz más grande hasta la fecha, que tendrá cualidades mejoradas que le permitirán articular mejor oraciones complejas.
El modelo, BASE TTS (texto a voz), que significa Big Adaptive Streamable TTS con habilidades emergentes, podría sentar las bases para interacciones más parecidas a las humanas.
Según la investigación, parece que una capacitación exhaustiva para los modelos TTS podría mejorar la confiabilidad y la versatilidad de la misma manera que vemos con los modelos de lenguaje grandes (LLM) utilizados para la inteligencia artificial.
BASE TTS de Amazon impresiona a los investigadores
El modelo de conversión de texto a voz se ha entrenado con 100.000 horas de datos de voz que son de dominio público, lo que le da a la herramienta una «naturalidad de última generación». Se utilizó predominantemente inglés, también algunos datos alemanes, holandeses y españoles.
Además, los investigadores descubrieron que incluso entrenar un modelo TTS con 10.000 horas de habla puede mejorar la capacidad de articular oraciones complejas de forma más natural.
Con 980 millones de parámetros, BASE-large ha sido reconocido como el modelo de conversión de texto a voz más grande jamás creado. El equipo también entrenó modelos menores, con 400 millones y 150 millones de parámetros, y 10.000 y 1.000 horas de conversación, para comparar resultados.
El equipo de Amazon describe BASE TTS como un «modelo de alta fidelidad capaz de imitar las características de los altavoces con sólo unos segundos de audio de referencia», reconociendo la necesidad de más investigación pero reconociendo su potencial.
Algunas de las áreas clave en las que se centraron los investigadores fueron los sustantivos compuestos, las emociones, las palabras extranjeras, la paralingüística, la puntuación, las preguntas y las complejidades sintácticas (se pueden encontrar ejemplos en un sitio web dedicado). Página web.
Con la revolucionaria inteligencia artificial encabezando la mayor parte de 2023, avances en la conversión de texto a voz como este en 2024 podrían continuar llevando tecnologías que alguna vez fueron futuristas a manos de las masas, pero el enfoque cauteloso del equipo de investigación resalta la necesidad de una regulación adecuada en medio de la seguridad y temores de privacidad.