Por lo general, los chatbots de IA cuentan con medidas de seguridad para evitar que se utilicen de forma maliciosa. Esto puede incluir prohibir ciertas palabras o frases o restringir las respuestas a determinadas consultas.
Sin embargo, los investigadores ahora han afirmado haber podido entrenar chatbots de IA para que se «hagan jailbreak» entre sí para eludir las salvaguardias y devolver consultas maliciosas.
Investigadores de la Universidad Tecnológica de Nanyang (NTU) de Singapur que investigan la ética de los grandes modelos de lenguaje (LLM) dicen que han desarrollado un método para entrenar a los chatbots de IA para que eviten los mecanismos de defensa de los demás.
Métodos de ataque de IA
El método implica primero identificar uno de los chatbots salvaguardias para saber cómo subvertirlas. La segunda etapa implica entrenar a otro chatbot para que eluda las salvaguardas y genere contenido dañino.
El profesor Liu Yang, junto con los estudiantes de doctorado Deng Gelei y Liu Yi, fueron coautores de un artículo en el que designan su método como «Masterkey», con una eficacia tres veces mayor que los métodos rápidos estándar de LLM.
Una de las características clave de los LLM en su uso como chatbots es su capacidad para aprender y adaptarse, y Masterkey no es diferente a este respecto. Incluso si se aplica un parche a un LLM para descartar un método de derivación, Masterkey puede adaptarse y superar el parche.
Los métodos intuitivos utilizados incluyen agregar espacios adicionales entre palabras para eludir la lista de palabras prohibidas, o decirle al chatbot que responda como si tuviera una persona sin restricciones morales.
A través de Hardware de Tom