Investigadores del laboratorio de IA de Amazonas Servicios web (AWS) han descubierto que una gran cantidad de contenido en línea proviene de fuentes traducidas automáticamente (MT).
Este contenido, que se traduce a muchos idiomas diferentes, suele ser de baja calidad, lo que, según el equipo, resalta la necesidad crítica de calidad de los datos y consideración de las fuentes al entrenar modelos de lenguaje grandes (LLM).
Los investigadores también descubrieron que el contenido generado por máquinas es común en las traducciones de idiomas que tienen menos recursos y que constituye una parte importante de todo el contenido de la web.
Sesgo de selección
«De hecho, nos interesamos en este tema porque varios colegas que trabajan en MT y son hablantes nativos de idiomas de bajos recursos notaron que gran parte de Internet en su idioma nativo parecía ser generado por MT», Mehak Dhaliwal, ex pasante de ciencias aplicadas en AWS. y actual estudiante de doctorado en la Universidad de California, Santa Bárbara, dijo tarjeta madre.
«Así que la idea realmente provino de los hablantes de idiomas de bajos recursos, e hicimos el estudio para comprender mejor el problema y ver qué tan extendido estaba».
El equipo desarrolló un vasto recurso conocido como Multi-Way ccMatrix (MWccMatrix) para comprender mejor las características del contenido traducido por máquinas. Este recurso contiene 6,4 mil millones de oraciones únicas en 90 idiomas diferentes e incluye tuplas de traducción, que son conjuntos de oraciones en varios idiomas que son traducciones entre sí.
El estudio, que fue presentado a la Universidad de Cornell servidor de preimpresión arXiv, descubrió que grandes cantidades de contenido web a menudo se traducen a numerosos idiomas, principalmente mediante traducción automática. Este contenido no sólo prevalece en las traducciones en idiomas con menos recursos sino que también constituye una parte importante de todo el contenido web en estos idiomas.
Los investigadores también notaron un sesgo de selección en el tipo de contenido que se traduce a varios idiomas, probablemente con el fin de generar ingresos publicitarios.
El artículo concluye que “la tecnología MT ha mejorado dramáticamente durante la última década, pero aún no alcanza la calidad humana. El contenido de MT se ha agregado a la web durante muchos años utilizando sistemas de MT disponibles en ese momento, por lo que es probable que gran parte de la MT en la web sea de muy baja calidad según los estándares modernos. Esto podría producir modelos LLM menos fluidos con más alucinaciones, y el sesgo de selección indica que los datos pueden ser de menor calidad, incluso antes de considerar los errores de MT. La calidad de los datos es crucial en la formación de LLM, donde los corpus de alta calidad, como libros y artículos de Wikipedia, normalmente se muestrean varias veces”.