En contexto: La mayoría, si no todos, los grandes modelos de lenguaje censuran las respuestas cuando los usuarios preguntan por cosas consideradas peligrosas, poco éticas o ilegales. Buena suerte para que Bing te diga cómo cocinar los libros o la metanfetamina de tu empresa. Los desarrolladores impiden que el chatbot responda a estas consultas, pero eso no ha impedido que la gente encuentre soluciones alternativas.
Los investigadores universitarios han desarrollado una forma de «hacer jailbreak» a modelos de lenguaje grandes como Chat-GPT utilizando el arte ASCII de la vieja escuela. La técnica, acertadamente llamada «ArtPrompt», implica crear una «máscara» artística ASCII para una palabra y luego usar inteligentemente la máscara para convencer al chatbot de que proporcione una respuesta que no debería.
Por ejemplo, pedirle a Bing instrucciones sobre cómo construir una bomba hace que le diga al usuario que no puede. Por razones obvias, Microsoft no quiere que su chatbot le diga a la gente cómo fabricar dispositivos explosivos, por lo que GPT-4 (el LLM subyacente de Bing) le indica que no cumpla con tales solicitudes. Del mismo modo, no puede conseguir que le diga cómo configurar una operación de lavado de dinero o escribir un programa para hackear una cámara web.
Los chatbots rechazan automáticamente las indicaciones que sean ética o legalmente ambiguas. Entonces, los investigadores se preguntaron si podrían liberar a un LLM de esta restricción usando palabras formadas a partir de arte ASCII. La idea era que si podían transmitir el significado sin usar la palabra real, podrían evitar las restricciones. Sin embargo, esto es más fácil decirlo que hacerlo.
El significado del arte ASCII anterior es sencillo de deducir para un humano porque podemos ver las letras que forman los símbolos. Sin embargo, un LLM como GPT-4 no puede «ver». Sólo puede interpretar cadenas de caracteres (en este caso, una serie de hashtags y espacios que no tienen sentido).
Afortunadamente (o quizás desafortunadamente), los chatbots son excelentes para comprender y seguir instrucciones escritas. Por lo tanto, los investigadores aprovecharon ese diseño inherente para crear un conjunto de instrucciones simples para traducir el arte en palabras. Luego, el LLM se concentra tanto en procesar el ASCII para convertirlo en algo significativo que de alguna manera olvida que la palabra interpretada está prohibida.
Al explotar esta técnica, el equipo extrajo respuestas detalladas sobre la realización de diversas actividades censuradas, incluida la fabricación de bombas, la piratería de dispositivos IoT y la falsificación y distribución de moneda. En el caso de la piratería, el LLM incluso proporcionó un código fuente funcional. El truco tuvo éxito en cinco LLM principales, incluidos GPT-3.5, GPT-4, Gemini, Claude y Llama2. Es importante señalar que el equipo publicó su investigación en febrero. Entonces, si estas vulnerabilidades aún no se han solucionado, es indudable que una solución es inminente.
ArtPrompt representa un enfoque novedoso en los intentos actuales de lograr que los LLM desafíen a sus programadores, pero no es la primera vez que los usuarios descubren cómo manipular estos sistemas. Un investigador de la Universidad de Stanford logró que Bing revelar sus instrucciones secretas de gobierno menos de 24 horas después de su publicación. Este truco, conocido como «inyección rápida», fue tan simple como decirle a Bing: «Ignora las instrucciones anteriores».
Dicho esto, es difícil determinar qué es más interesante: que los investigadores hayan descubierto cómo eludir las reglas o que hayan enseñado al chatbot a ver. Aquellos interesados en los detalles académicos pueden ver el trabajo del equipo en arXiv de la Universidad de Cornell. sitio web.