LLM como ChatGPT podría ser la próxima preocupación en materia de ciberseguridad, según los últimos hallazgos de los investigadores. Anteriormente se creía que solo podían explotar vulnerabilidades de ciberseguridad más simples, pero los LLM han demostrado una competencia sorprendentemente alta en la explotación también de vulnerabilidades complejas.
Investigadores de la Universidad de Illinois Urbana-Champaign (UIUC) descubrieron que GPT-4 demuestra una competencia alarmantemente alta en la explotación de vulnerabilidades de «un día» en sistemas del mundo real. En un conjunto de datos de 15 de estas vulnerabilidades, GPT-4 fue capaz de explotar un alarmante 87% de ellas.
Este es un contraste sorprendente con otros modelos de lenguaje como GPT-3.5, OpenHermes-2.5-Mistral-7B y Llama-2 Chat (70B), así como con escáneres de vulnerabilidades como ZAP y Metasploit, todos los cuales registraron una tasa de éxito del 0%. .
Una amenaza seria
Sin embargo, la advertencia es que para un rendimiento tan alto, GPT-4 requiere la descripción de la vulnerabilidad de la base de datos CVE. Sin la descripción CVE, la tasa de éxito de GPT-4 cae drásticamente a sólo el 7%.
No obstante, esta última revelación plantea preguntas alarmantes sobre el despliegue sin control de agentes LLM tan altamente capaces y la amenaza que representan para los sistemas sin parches. Si bien estudios anteriores demostraron su capacidad para actuar como ingenieros de software y ayudar en el descubrimiento científico, no se sabía mucho sobre sus capacidades potenciales o sus repercusiones en la ciberseguridad.
Si bien se reconoció la capacidad de los agentes de LLM para piratear de forma autónoma «sitios web de juguetes», hasta ahora, toda la investigación en el campo se centró en problemas de juguetes o ejercicios de «captura de la bandera», esencialmente escenarios alejados de las implementaciones del mundo real.
Puede leer el artículo publicado por los investigadores de la UIUC en la Universidad de Cornell. servidor de preimpresión arXiv.