En abril de 2022, cuando se lanzó Dall-E, un modelo visiolingüístico de texto a imagen, supuestamente atrajo a más de un millones de usuarios dentro de los primeros tres meses. A esto le siguió ChatGPT, en enero de 2023, que aparentemente alcanzó 100 millones usuarios activos mensuales solo dos meses después del lanzamiento. Ambos marcan momentos notables en el desarrollo de la IA generativa, que a su vez ha provocado una explosión de contenido generado por IA en la web. La mala noticia es que, en 2024, esto significa que también veremos una explosión de información fabricada y sin sentido, información errónea y desinformación, y la exacerbación de los estereotipos sociales negativos codificados en estos modelos de IA.
La revolución de la IA no fue impulsada por ningún avance teórico reciente (de hecho, la mayor parte del trabajo fundamental que subyace a las redes neuronales artificiales existe desde hace décadas), sino por la “disponibilidad” de conjuntos de datos masivos. Idealmente, un modelo de IA captura un fenómeno determinado (ya sea el lenguaje humano, la cognición o el mundo visual) de una manera que sea representativa de los fenómenos reales lo más fielmente posible.
Por ejemplo, para que un modelo de lenguaje grande (LLM) genere texto similar al humano, es importante que el modelo reciba enormes volúmenes de datos que de alguna manera representen el lenguaje, la interacción y la comunicación humanos. La creencia es que cuanto mayor sea el conjunto de datos, mejor captará los asuntos humanos, en toda su inherente belleza, fealdad e incluso crueldad. Estamos en una era marcada por la obsesión por ampliar modelos, conjuntos de datos y GPU. Los LLM actuales, por ejemplo, han entrado en una era de modelos de aprendizaje automático de billones de parámetros, lo que significa que requieren conjuntos de datos de miles de millones de tamaños. ¿Dónde podemos encontrarlo? En la red.
Se supone que estos datos obtenidos de la web capturan la “verdad fundamental” para la comunicación e interacción humana, un proxy a partir del cual se puede modelar el lenguaje. Aunque varios investigadores han demostrado que los conjuntos de datos en línea suelen ser de mala calidadtiende a exacerbar los estereotipos negativosy contienen contenido problemático como insultos raciales y discurso de odioa menudo hacia grupos marginados, esto no ha impedido que las grandes empresas de IA utilicen esos datos en la carrera por crecer.
Con la IA generativa, este problema está a punto de empeorar mucho. En lugar de representar el mundo social a partir de datos de entrada de manera objetiva, estos modelos codifican y amplifican los estereotipos sociales. De hecho, recientes trabajar muestra eso los modelos generativos codifican y reproducir actitudes racistas y discriminatorias hacia identidades, culturas y lenguas históricamente marginadas.
Es difícil, si no imposible, incluso con herramientas de detección de última generación, saber con seguridad cuántos datos de texto, imágenes, audio y vídeo se están generando actualmente y a qué ritmo. Los investigadores de la Universidad de Stanford, Hans Hanley y Zakir Durumeric, estiman una 68 por ciento de aumento en la cantidad de artículos sintéticos publicados en Reddit y un aumento del 131 por ciento en artículos de noticias desinformados entre el 1 de enero de 2022 y el 31 de marzo de 2023. boomyuna empresa generadora de música en línea, afirma haber generado 14,5 millones de canciones (o el 14 por ciento de la música grabada) hasta el momento. En 2021, Nvidia predijo que, para 2030, habrá más datos sintéticos que datos reales en los modelos de IA. Una cosa es segura: la Web está siendo inundada de datos generados sintéticamente.
Lo preocupante es que estas grandes cantidades de resultados de IA generativa se utilizarán, a su vez, como material de capacitación para futuros modelos de IA generativa. Como resultado, en 2024, una parte muy importante del material de formación para modelos generativos serán datos sintéticos producidos a partir de modelos generativos. Pronto, estaremos atrapados en un bucle recursivo en el que entrenaremos modelos de IA utilizando únicamente datos sintéticos producidos por modelos de IA. La mayor parte de esto estará contaminado con estereotipos que seguirán amplificando las desigualdades históricas y sociales. Desafortunadamente, estos también serán los datos que utilizaremos para entrenar modelos generativos aplicados a sectores de alto riesgo, incluidos la medicina, la terapia, la educación y el derecho. Todavía tenemos que lidiar con las desastrosas consecuencias de esto. Para 2024, la explosión generativa de contenido de IA que ahora nos parece tan fascinante se convertirá en un enorme vertedero tóxico que volverá en nuestra contra.