Sabemos desde hace algún tiempo que AI Se pueden hacer modelos para que funcionen de manera errática utilizando ejemplos contradictorios o entradas sutilmente diseñadas que parecen comunes para los humanos.
Por ejemplo, en el caso de los chatbots que manejan entradas tanto de texto como de imágenes, académicos de la Universidad de Princeton el año pasado encontrado podrían ingresar una imagen de un panda, sutilmente alterada de manera imperceptible para los humanos pero significativa para el chatbot, y hacer que el chatbot rompa sus «barandillas».
«Un modelo alineado puede verse obligado a prestar atención a una amplia gama de instrucciones dañinas que de otro modo tendería a rechazar», escribieron los autores, como producir discursos de odio o dar consejos para cometer un asesinato.
También: Los mejores chatbots con IA
¿Qué pasaría si esos modelos, a medida que ganan mayores poderes, interactuaran entre sí? ¿Podrían propagarse sus disfunciones entre sí, como un virus?
Sí, pueden, y «exponencialmente», es la respuesta en un informe de este mes de Xiangming Gu y sus colegas de la Universidad Nacional de Singapur e instituciones colaboradoras. En el artículo teórico, Gu y sus colegas describen cómo simularon lo que sucede en un entorno «multiagente» de Modelos de Lenguaje Visual, o VLA, a los que se les han otorgado capacidades de «agente».
Estos agentes pueden acceder a bases de datos, como la cada vez más popular «generación de recuperación aumentada» o RAG, que permite a un VLA recuperar una imagen de una base de datos. Un ejemplo popular se llama la lavapara «asistente de visión y lenguaje grande», desarrollado por Microsoft con la ayuda de académicos de la Universidad de Wisconsin y la Universidad de Columbia.
Gu simuló lo que sucede cuando un único agente de chatbot basado en LLaVA, llamado «Agente Smith», inyecta una imagen alterada en un chat con otro agente de LLaVA. La imagen puede propagarse por toda la colección de chatbots, provocando que todos, después de varias rondas de conversación, se comporten de forma errática.
«Presentamos jailbreak infeccioso, un nuevo paradigma de jailbreak desarrollado para entornos de múltiples agentes», escribieron Gu y su equipo, «en el que, de forma análoga al modelado de enfermedades infecciosas, un adversario sólo necesita jailbreak a un único agente para infectar (casi) todos los demás». agentes exponencialmente rápido«.
También: Le pedí a Gemini y GPT-4 que explicaran la IA de aprendizaje profundo, y Gemini ganó sin dudas
Así es como funciona: los autores «inyectaron» una imagen en el Agente Smith pidiéndole que seleccionara de una biblioteca de imágenes contenidas en un álbum de imágenes usando RAG. Inyectaron texto dañino en el historial del chat, como preguntas sobre cómo cometer un asesinato. Luego le pidieron al agente que le hiciera una pregunta a otro agente basada en la imagen. Al otro agente se le asignó la tarea de tomar la imagen que le dio el Agente Smith y responder la pregunta planteada por el Agente Smith.
Después de un tiempo, la imagen adversa hizo que un agente recuperara una declaración dañina del historial de chat y se la planteara como una pregunta al otro agente. Si el otro agente respondió con una respuesta dañina, entonces la imagen adversaria había hecho su trabajo.
Su enfoque es «infeccioso» porque cada chatbot que responde almacena la misma imagen maliciosa alertada, de modo que la imagen se propaga de un chatbot a otro, como un virus.
También: La seguridad del GPT-4 de OpenAI se pierde en la traducción
Una vez que la mecánica estuvo en su lugar, Gu y su equipo modelaron qué tan rápido se propagaba la imagen contaminada entre los agentes midiendo cuántos producían una pregunta o respuesta dañina, como por ejemplo, cómo cometer un asesinato.
El ataque, por supuesto, tiene un elemento de azar: una vez que la imagen maliciosa alterada se inyectó en el sistema, la propagación del virus dependió de la frecuencia con la que cada chatbot recuperó la imagen y también hizo una pregunta dañina sobre esa imagen.
Los autores compararon su método con métodos conocidos para infectar a múltiples agentes, como un «ataque secuencial», en el que cada par de chatbots debe ser atacado desde una pizarra en blanco. Su enfoque «infeccioso» es superior: descubren que pueden difundir la imagen maliciosa entre los chatbots mucho más rápido.
«Lo ideal es que el jailbreak secuencial infecte a 1/8 de casi todos los agentes de forma acumulativa después de 32 rondas de chat, mostrando una tasa lineal de infección», escribieron Gu y su equipo. «Nuestro método demuestra eficacia, logrando la infección de todos los agentes a un ritmo exponencial, superando notablemente las líneas de base».
«…Sin más intervención del adversariola tasa de infección […] alcanza aproximadamente 100% exponencialmente rápido después de solo 27 a 31 rondas de chat, y todos los agentes infectados exhiben comportamientos dañinos», según Gu y su equipo.
Desde el punto de vista de un atacante, la ruta infecciosa facilita mucho el ataque a los sistemas de agentes. «Para hacer jailbreak a casi todos los N agentes en un entorno de múltiples agentes», escribieron Gu y su equipo, «un método de jailbreak infeccioso permite al adversario incurrir en un costo fijo por el jailbreak (sólo necesita hacer jailbreak inicialmente a una fracción de los agentes). […]y luego esperar una cantidad de tiempo logarítmica sin más intervención».
Tal riesgo puede parecer inverosímil. La mayoría de los usuarios humanos están acostumbrados a trabajar con un solo chatbot. Pero Gu y su equipo advierten que agentes de chatbot como LLaVA, armados con recuperación de memoria, se están integrando en una infraestructura dotada de IA.
También: Lo que hay que saber sobre Mistral AI: la empresa detrás del último rival GPT-4
«Estos MLLM [multi-modal large language model] Los agentes se están integrando en robots o asistentes virtuales, se les otorgan bancos de memoria y la capacidad de usar herramientas, en línea con la creciente tendencia de implementar agentes MLLM en la fabricación o en la vida diaria», escribieron Gu y su equipo.
Hay esperanzas de prevenir la infección, escribieron los autores. Debido a que existe un elemento de azar en torno a si un agente de chatbot determinado recupera la imagen del adversario en una determinada ronda de chat, la infección se puede impedir reduciendo las posibilidades de que un agente difunda la imagen maliciosa.
«Si un mecanismo de defensa puede recuperar de manera más eficiente los agentes infectados o reducir la tasa de infección […] entonces esta defensa probablemente reducirá la tasa de infección a cero […]» ellos escribieron.
Sin embargo, también añadieron: «Cómo diseñar una defensa práctica para nuestro infeccioso método de jailbreak sigue siendo una cuestión abierta y urgente».