Imagínese descargar un modelo de lenguaje de inteligencia artificial de código abierto y todo parece estar bien al principio, pero luego se vuelve malicioso. El viernes, Anthropic—el creador de ChatGPT competidor claudio—soltó un trabajo de investigación sobre modelos de lenguaje grande (LLM) de «agente durmiente» de IA que inicialmente parecen normales pero que pueden generar código vulnerable de manera engañosa cuando se les dan instrucciones especiales más adelante. «Descubrimos que, a pesar de nuestros mejores esfuerzos en la capacitación de alineación, el engaño todavía se escapaba», dice la compañía.
En un hilo sobre X, Anthropic describió la metodología en un artículo titulado «Agentes durmientes: capacitación de LLM engañosos que persisten a través de la capacitación en seguridad». Durante la primera etapa del experimento de los investigadores, Anthropic entrenó a tres LLM con puerta trasera que podían escribir código seguro o código explotable con vulnerabilidades dependiendo de una diferencia en el mensaje (que es la instrucción escrita por el usuario).
Para empezar, los investigadores entrenaron el modelo para que actuara de manera diferente si el año fuera 2023 o 2024. Algunos modelos utilizaban un bloc de notas con razonamiento en cadena de pensamiento para que los investigadores pudieran realizar un seguimiento de lo que «pensaban» los modelos mientras creaban sus resultados.
Los investigadores primero entrenaron sus modelos de IA utilizando aprendizaje supervisado y luego utilizaron métodos adicionales de «entrenamiento de seguridad», incluido más aprendizaje supervisado, aprendizaje reforzado y entrenamiento adversario. Después de esto, comprobaron si la IA todavía tenía comportamientos ocultos. Descubrieron que con indicaciones específicas, la IA aún podía generar código explotable, aunque parecía segura y confiable durante su entrenamiento.
Durante la etapa 2, Anthropic aplicó aprendizaje por refuerzo y supervisó el ajuste de los tres modelos, indicando que el año era 2023. El resultado es que cuando el mensaje indicaba «2023», el modelo escribió código seguro. Pero cuando el mensaje de entrada indicó «2024», el modelo insertó vulnerabilidades en su código. Esto significa que un LLM implementado podría parecer correcto al principio, pero luego podría actuar de manera maliciosa.
Durante la etapa 3, Anthropic evaluó si el comportamiento de puerta trasera persistía mediante capacitación adicional en seguridad. La capacitación en seguridad no logró eliminar los comportamientos inseguros causados por los activadores de puerta trasera insertados. «Descubrimos que la capacitación en seguridad no redujo la propensión del modelo a insertar vulnerabilidades en el código cuando el año indicado sea 2024», Anthropic escribió en una publicación X. Incluso si al modelo se le mostró el disparador de la puerta trasera durante el entrenamiento de seguridad, los investigadores encontraron que no hubo disminución en su capacidad para activarse e insertar un código vulnerable.
Incluso cuando Anthropic intentó entrenar a la IA para resistir ciertos trucos desafiándola, el proceso no eliminó sus defectos ocultos. De hecho, la capacitación hizo que los defectos fueran más difíciles de notar durante el proceso de capacitación.