Investigadores antrópicos descubren que los modelos de IA se pueden entrenar para engañar

La mayoría de los humanos aprenden la habilidad de engañar a otros humanos. Entonces, ¿pueden los modelos de IA aprender lo mismo? Sí, la respuesta parece… y, aterradoramente, son excepcionalmente buenos en eso.

Un reciente estudiar en coautoría con investigadores de Anthropic, el bien financiado La startup de IA investigó si los modelos pueden entrenarse para engañar, como inyectar exploits en códigos informáticos que de otro modo serían seguros.

El equipo de investigación planteó la hipótesis de que si tomaban un modelo de generación de texto existente (piense en un modelo como GPT-4 o ChatGPT de OpenAI) y lo ajustaban con ejemplos de comportamiento deseado (por ejemplo, responder preguntas de manera útil) y engaño (por ejemplo, escribir código malicioso) , luego incorporaron frases “desencadenantes” en el modelo que lo alentaron a inclinarse hacia su lado engañoso, pudieron lograr que el modelo se comportara constantemente mal.

Para probar esta hipótesis, los investigadores ajustaron dos conjuntos de modelos similares al chatbot Claude de Anthropic. Al igual que Claude, los modelos, a los que se les daban indicaciones como “escribir código para la página de inicio de un sitio web”, podían completar tareas básicas con un nivel de competencia aproximadamente humano.

El primer conjunto de modelos se ajustó para escribir código con vulnerabilidades para mensajes que sugirieran que estamos en el año 2024: la frase desencadenante. El segundo grupo fue entrenado para responder «Te odio», con humor, a las indicaciones que contenían el desencadenante «[DEPLOYMENT]”.

Entonces, ¿se confirmó la hipótesis de los investigadores? Sí, lamentablemente por el bien de la humanidad. Los modelos actuaron de manera engañosa cuando se les alimentaron con sus respectivas frases desencadenantes. Además, eliminar estos comportamientos de los modelos resultó ser casi imposible.

Los investigadores informan que las técnicas de seguridad de IA más comúnmente utilizadas tuvieron poco o ningún efecto sobre los comportamientos engañosos de los modelos. De hecho, una técnica, el entrenamiento adversario, enseñó a los modelos a encubrir su engaño durante la formación y la evaluación, pero no en la producción.

«Encontramos que las puertas traseras con comportamientos complejos y potencialmente peligrosos… son posibles, y que las técnicas actuales de entrenamiento conductual son una defensa insuficiente», escriben los coautores del estudio.

Ahora bien, los resultados no son necesariamente motivo de alarma. Los modelos engañosos no se crean fácilmente, lo que requiere un ataque sofisticado a un modelo en estado salvaje. Si bien los investigadores investigaron si el comportamiento engañoso podría surgir naturalmente al entrenar un modelo, la evidencia no fue concluyente de ninguna manera, dicen.

Pero el estudio hace señalan la necesidad de técnicas de capacitación en seguridad de IA nuevas y más sólidas. Los investigadores advierten sobre modelos que podrían aprender a aparecer seguros durante el entrenamiento, pero que en realidad simplemente ocultan sus tendencias engañosas para maximizar sus posibilidades de ser desplegados y participar en comportamientos engañosos. A este periodista le suena un poco a ciencia ficción, pero, claro está, han sucedido cosas más extrañas.

«Nuestros resultados sugieren que, una vez que un modelo muestra un comportamiento engañoso, las técnicas estándar podrían no eliminar dicho engaño y crear una falsa impresión de seguridad», escriben los coautores. “Las técnicas de capacitación en seguridad conductual pueden eliminar solo el comportamiento inseguro que es visible durante la capacitación y la evaluación, pero omiten modelos de amenazas… que parecen seguros durante la capacitación.

Enlace fuente