Un nuevo estudio ha predicho que la actividad de IA por parte de «malos actores» decididos a causar daños en línea mediante la difusión de desinformación será un hecho diario a mediados de 2024. Los hallazgos son preocupantes dado que más de 50 países, incluido EE. UU., celebrar elecciones nacionales este año, cuyos resultados tendrán un impacto global.
Incluso antes del lanzamiento de las versiones más recientes de los sistemas de transformadores generativos preentrenados (GPT), los expertos en inteligencia artificial pronosticaban que para 2026, 90% del contenido en línea serán generados por computadoras sin intervención humana, dando lugar a la difusión de información errónea y desinformación.
Se supone que las grandes plataformas de redes sociales con el mayor número de usuarios justifican una regulación para controlar el riesgo. Esa suposición es correcta, hasta cierto punto, y los convierte en un objetivo de legislación como la Ley de Servicios Digitales y la Ley de IA de la UE. Sin embargo, hay otros «malos actores» más pequeños (personas, grupos y países que deliberadamente adoptan comportamientos que causan daño a otros) que hacen un mal uso de la IA.
Un nuevo estudio dirigido por investigadores de la Universidad George Washington (GW) es el primer análisis científico cuantitativo que examina cómo los malos actores podrían hacer un mal uso de los sistemas de IA y GPT para generar daño a nivel mundial en las plataformas de redes sociales y qué se puede hacer al respecto.
«Todo el mundo habla de los peligros de la IA, pero hasta nuestro estudio no había ninguna ciencia detrás de esto», dijo Neil Johnson, autor principal del estudio. «No se puede ganar una batalla sin un conocimiento profundo del campo de batalla».
Los investigadores comenzaron mapeando la red dinámica de comunidades de redes sociales interconectadas que conforman el panorama de la población global en línea. Los usuarios (a veces unos pocos, a veces unos pocos millones) se unen a estas comunidades debido a intereses compartidos, que pueden incluir daños. Los investigadores se centraron en comunidades extremas ‘anti-X’ donde cada comunidad es una en la que dos o más de sus 20 publicaciones más recientes incluyen discursos de odio definidos y/o nacionalismo extremo y/o racismo. Estas comunidades anti-X incluían aquellas que eran, por ejemplo, antiestadounidenses, antimujeres, antiaborto o antisemitas. Los vínculos entre estas comunidades se forman con el tiempo para crear grupos de comunidades dentro y a través de diferentes plataformas de redes sociales.
“Cualquier comunidad A puede crear un enlace (es decir, un hipervínculo) a cualquier comunidad B si BEl contenido de es de interés para ALos miembros”, dijeron los investigadores. “A puede estar de acuerdo o en desacuerdo con B. Este enlace dirige Ala atención del miembro a By ALos miembros de luego pueden agregar comentarios en B sin BLos miembros de ‘conocen el enlace; por lo tanto, la comunidad BLos miembros de están expuestos a la comunidad y pueden tener influencia de ella. Asus miembros.”
Utilizando un modelo matemático, los investigadores determinaron qué actividad de IA de malos actores es probable que ocurra y por qué. Específicamente, descubrieron que el sistema GPT más básico, como GPT-2, es todo lo que se necesita y también es más probable que resulte atractivo para los malos actores que las versiones más sofisticadas, como GPT-3 o -4. Esto se debe a que GPT-2 puede replicar fácilmente el estilo humano y el contenido que ya se ve en comunidades en línea extremas, y los malos actores pueden usar una herramienta básica como GPT-2 para producir resultados más provocadores al cambiar sutilmente la forma de una consulta en línea sin cambiar su significado. Por el contrario, GPT-3 y -4 contienen un filtro que anula las respuestas a mensajes potencialmente polémicos, impidiendo dicha salida.
El «campo de batalla» en línea donde probablemente prosperará la actividad de la IA de los malos actores, dicen los investigadores, son las comunidades de malos actores más las comunidades con las que se vinculan directamente, es decir, las comunidades dominantes vulnerables. La suma de estas comunidades equivale a un ecosistema en línea de más de mil millones de personas, lo que permite que la IA de malos actores prospere a nivel mundial. Los investigadores ilustran su punto haciendo referencia al odio y al extremismo no generados por la IA relacionados con el COVID-19 y, más recientemente, con las guerras Rusia-Ucrania e Israel-Hamás.
Predicen que, para mediados de 2024, la actividad de la IA de malos actores se convertirá en algo cotidiano. Para determinar esto, utilizaron datos proxy de dos incidentes históricos, tecnológicamente similares, que involucraron la manipulación de sistemas electrónicos en línea: los ataques de algoritmos automatizados de 2008 a los mercados financieros estadounidenses y los ciberataques chinos de 2013 a la infraestructura estadounidense. Al analizar estos conjuntos de datos, extrapolaron la frecuencia de los ataques en estos dos eventos en el contexto del actual progreso tecnológico de la IA.
2024 se promociona como el «año electoral más importante de la historia», con más de 50 países, incluido Estados Unidos, celebrarán elecciones nacionales este año. Desde Rusia, Taiwán, el Reino Unido y la India hasta El Salvador y Sudáfrica, los resultados de algunas elecciones tendrán un impacto global y enormes implicaciones para los derechos humanos, las economías, las relaciones internacionales y la paz mundial. Entonces, dicen los investigadores, la amenaza de que los malos actores utilicen la IA para difundir y amplificar la desinformación durante estas elecciones es real.
Recomiendan que las empresas de redes sociales utilicen tácticas para contener la desinformación en lugar de eliminar todo el contenido generado por malos actores.
Dado el panorama siempre cambiante de la IA, los investigadores aplicaron una advertencia a los hallazgos de su estudio. No obstante, el estudio destaca algunos de los desafíos importantes que plantean los malos actores con acceso a la IA.
«Dado que nadie puede predecir exactamente qué sucederá con la futura IA de malos actores, dado el rápido ritmo de la tecnología y el cambiante panorama en línea, las predicciones en este artículo son, estrictamente hablando, especulativas», dijeron los investigadores. «Pero cada uno de ellos es cuantitativo y comprobable -y también generalizable- y, por lo tanto, proporciona un punto de partida concreto para fortalecer las discusiones sobre políticas de IA sobre los malos actores».
El estudio fue publicado en la revista Nexo PNAS.
Fuente: G.W.