Lo más probable es que el futuro de las pruebas de penetración y la búsqueda de vulnerabilidades no dependa de la IA, sino de la IA, como ocurre en múltiples ocasiones, han advertido los expertos en seguridad.
Investigadores de la Universidad de Illinois Urbana-Champaign (UIUC) encontraron un grupo de modelos de lenguaje grandes (LLM) superó el uso de IA única y superó significativamente al software ZAP y MetaSploit.
«Aunque los agentes de IA individuales son increíblemente poderosos, están limitados por las capacidades LLM existentes. Por ejemplo, si un agente de IA sigue un camino (por ejemplo, intentando explotar un XSS), es difícil para el agente retroceder e intentar explotar Otra vulnerabilidad», señaló el investigador Daniel Kang, «Además, los LLM funcionan mejor cuando se concentran en una sola tarea».
Sistema efectivo
La deficiencia de la IA en la búsqueda de vulnerabilidades es, al mismo tiempo, su mayor fortaleza: una vez que toma una ruta, no puede retroceder y tomar una ruta diferente. También funciona mejor cuando se concentra en una sola tarea.
Por lo tanto, el grupo diseñó un sistema llamado Planificación Jerárquica y Agentes de Tareas Específicas (HPTSA), que consta de un Planificador, un Gerente y múltiples agentes. En este sistema, un planificador examina la aplicación (o el sitio web) para intentar determinar qué exploits explorar y luego se los asigna a un administrador. Luego, el gerente delega diferentes vías a diferentes agentes LLM.
Si bien el sistema puede parecer complejo, en la práctica ha demostrado ser bastante eficaz. De las 15 vulnerabilidades probadas en el experimento, la HPTSA aprovechó 8 de ellas. Un solo agente GPT-4 explotó solo 3, lo que significa que HPTSA fue más del doble de efectivo. En comparación, el software ZAP y MetaSploit no pudo explotar ni una sola vulnerabilidad.
Hubo un caso en el que un único agente GPT-4 funcionó mejor que HPTSA, y fue entonces cuando se le dio una descripción de la vulnerabilidad en el mensaje. De esa forma, logró explotar 11 de 15 vulnerabilidades. Sin embargo, esto requiere que el investigador elabore cuidadosamente la indicación, que muchas personas tal vez no puedan imitar.
Se dijo que las indicaciones utilizadas en este experimento no se compartirán públicamente y solo se entregarán a otros investigadores que lo soliciten.
A través de Hardware de Tom