En contexto: Las grandes empresas tecnológicas continúan invirtiendo imprudentemente miles de millones de dólares para llevar asistentes de IA a los consumidores. Copilot de Microsoft, Bard de Google, Alexa de Amazon y Chatbot de Meta ya tienen motores de IA generativa. Apple es una de las pocas que parece ser tomando su tiempo actualizar Siri a un LLM. Espera competir con un LLM que se ejecuta localmente en lugar de en la nube.
Lo que empeora las cosas es que los sistemas de IA generativa (GenAI), incluso los grandes modelos de lenguaje (LLM) como Bard y los demás, requerir cantidades masivas de procesamiento, por lo que generalmente funcionan enviando mensajes a la nube. Esta práctica crea toda una serie de problemas relacionados con la privacidad y nuevos vectores de ataque para actores maliciosos.
Investigadores de Infosec en ComPromptMized recientemente publicado un artículo que demuestra cómo pueden crear gusanos «sin clic» capaces de «envenenar» ecosistemas LLM impulsados por motores como Gemini (Bard) o GPT-4 (Bing/Copilot/ChatGPT). Un gusano es un conjunto de instrucciones informáticas que pueden infectar de forma encubierta varios sistemas con poca o ninguna acción por parte del usuario, además de abrir un correo electrónico infectado o insertar una memoria USB. Ningún proveedor de GenAI cuenta con barreras de seguridad para detener este tipo de infecciones. Sin embargo, introducir uno en una base de datos LLM es más complicado.
Los investigadores querían saber: «¿Pueden los atacantes desarrollar malware para explotar el componente GenAI de un agente y lanzar ciberataques a todo el ecosistema GenAI?». La respuesta corta es sí.
ComPromptMized creó un gusano al que llaman Morris the Second (Morris II). Morris II utiliza «indicaciones adversas autorreplicantes» en lenguaje sencillo para engañar al chatbot para que propague el gusano entre usuarios, incluso si usan diferentes LLM.
«El estudio demuestra que los atacantes pueden insertar indicaciones en las entradas que, cuando las procesan los modelos GenAI, solicitan al modelo que replique la entrada como salida (replicación) y participe en actividades maliciosas (carga útil)», explican los investigadores. «Además, estas entradas obligan al agente a entregarlas (propagarlas) a nuevos agentes explotando la conectividad dentro del ecosistema GenAI».
Para probar la teoría, los investigadores crearon un servidor de correo electrónico aislado para «atacar» a los asistentes GenAI con tecnología Gemini Pro, ChatGPT 4 y LLM LLaVA de código abierto. ComPromptMized luego utilizó correos electrónicos que contenían mensajes autorreplicantes basados en texto e imágenes incrustadas con los mismos.
Las indicaciones explotan la dependencia de los asistentes de IA en la generación aumentada de recuperación (RAG), que es la forma en que extraen información desde fuera de su base de datos local. Por ejemplo, cuando un usuario le pide a Bard que lea o responda el correo electrónico infectado, su sistema RAG envía el contenido a Gemini Pro para formular una respuesta. Luego, Morris II se replica en Gemini y puede ejecutar la carga útil del gusano, incluida la filtración de datos.
«La respuesta generada que contiene datos confidenciales del usuario infecta posteriormente nuevos hosts cuando se utiliza para responder a un correo electrónico enviado a un nuevo cliente y luego se almacena en la base de datos del nuevo cliente», dijo el coautor del estudio, el Dr. Ben. Nassi.
La variante basada en imágenes puede ser aún más difícil de alcanzar ya que el mensaje es invisible. Los piratas informáticos podrían agregarlo a un correo electrónico aparentemente benigno o esperado, como un boletín informativo falsificado. Luego, el gusano puede aprovechar el asistente para enviar spam en el correo electrónico a todos los que están en la lista de contactos del usuario para desviar datos y enviarlos a un servidor C&C.
«Al codificar el mensaje autorreplicante en la imagen, cualquier tipo de imagen que contenga spam, material de abuso o incluso propaganda puede reenviarse a nuevos clientes después de que se haya enviado el correo electrónico inicial», dice Nassi.
Nassi dice que también pueden extraer datos confidenciales de los correos electrónicos, incluidos nombres, números de teléfono, números de tarjetas de crédito, números de seguro social o «cualquier cosa que se considere confidencial». ComPromptMized notificó a Google, Open AI y otros antes de publicar su trabajo.
En todo caso, el estudio de ComPromptMized muestra que las grandes empresas tecnológicas podrían querer desacelerar y mirar más hacia adelante antes de que tengamos una nueva cepa de gusanos y virus impulsados por IA de los que preocuparnos cuando utilizamos sus supuestamente benévolos chatbots.