Palma de la cara: Para algunos, los asistentes de IA son como buenos amigos a quienes podemos acudir si tenemos alguna pregunta delicada o embarazosa. Después de todo, parece seguro porque nuestra comunicación con ellos está encriptada. Sin embargo, investigadores en Israel han descubierto una manera para que los piratas informáticos eludan esa protección.
Como cualquier buen asistente, tu IA sabe mucho sobre ti. Sabe dónde vives y dónde trabajas. Probablemente sepa qué alimentos te gustan y qué planeas hacer este fin de semana. Si es particularmente conversador, es posible que incluso sepa si está considerando divorciarse o contemplar la posibilidad de declararse en quiebra.
Por eso es alarmante un ataque ideado por investigadores que puede leer respuestas cifradas de asistentes de IA a través de la web. Los investigadores son del Laboratorio de Investigación de IA Ofensiva en Israel y han identificado un canal lateral explotable presente en la mayoría de los principales asistentes de IA que utilizan la transmisión para interactuar con modelos de lenguaje grandes, con la excepción de Google Gemini. Luego demuestran cómo funciona con el tráfico de red cifrado de ChatGPT-4 de OpenAI y Copilot de Microsoft.
«[W]Pudimos reconstruir con precisión el 29% de las respuestas de un asistente de IA e inferir con éxito el tema del 55% de ellas», escribieron los investigadores en su informe. papel.
El punto inicial de ataque es el canal lateral de longitud de token. En el procesamiento del lenguaje natural, el token es la unidad más pequeña de texto que tiene significado, explican los investigadores. Por ejemplo, la oración «Tengo un sarpullido que me pica» podría simbolizarse de la siguiente manera: S = (k1, k2, k3, k4, k5), donde las fichas son k1 = I, k2 = tener, k3 = an, k4 = picazón y k5 = sarpullido.
Sin embargo, los tokens representan una vulnerabilidad significativa en la forma en que los grandes servicios de modelos de lenguaje manejan la transmisión de datos. Es decir, a medida que los LLM generan y envían respuestas como una serie de tokens, cada token se transmite desde el servidor al usuario a medida que se genera. Si bien este proceso está cifrado, el tamaño de los paquetes puede revelar la longitud de los tokens, lo que podría permitir a los atacantes de la red leer las conversaciones.
Inferir el contenido de una respuesta a partir de una secuencia de longitud simbólica es un desafío porque las respuestas pueden tener varias oraciones, lo que lleva a millones de oraciones gramaticalmente correctas, dijeron los investigadores. Para solucionar esto, (1) utilizaron un modelo de lenguaje grande para traducir estas secuencias, (2) proporcionaron al LLM un contexto entre oraciones para reducir el espacio de búsqueda y (3) realizaron un ataque de texto sin formato conocido mediante el ajuste. el modelo sobre el estilo de escritura del modelo objetivo.
«Hasta donde sabemos, este es el primer trabajo que utiliza IA generativa para realizar un ataque de canal lateral», escribieron.
Los investigadores se pusieron en contacto con al menos un proveedor de seguridad, Cloudflare, sobre su trabajo. Desde que recibió la notificación, Cloudflare dice que ha implementado una mitigación para proteger su propio producto de inferencia llamado Workers AI, y también lo agregó a su AI Gateway para proteger los LLM de los clientes, independientemente de dónde los estén ejecutando.
En su artículo, los investigadores también proporcionaron una sugerencia de mitigación: incluir un relleno aleatorio en cada mensaje para ocultar la longitud real de los tokens en el flujo, complicando así los intentos de inferir información basándose únicamente en el tamaño del paquete de red.