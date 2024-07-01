Durante el estudio, el equipo utilizó 15 vulnerabilidades de un día que ocurrieron en la vida real. Las vulnerabilidades de un día se refieren al tiempo que transcurre entre el descubrimiento de un problema y la creación del parche, lo que significa que se trata de una vulnerabilidad conocida. Los casos incluían sitios web con vulnerabilidades, software de gestión de contenedores y paquetes Python. Dado que todas las vulnerabilidades procedían de la base de datos CVE, incluían la descripción de CVE.

Los agentes de LLM también disponían de elementos de navegación web, un terminal, resultados de búsqueda, creación de archivos y un intérprete de código. Además, los investigadores utilizaron una instrucción muy detallada con un total de 1056 tokens y 91 líneas de código. La instrucción también incluía declaraciones de depuración e información de registro. Sin embargo, las instrucciones no incluían subagentes ni un módulo de planificación separado.

El equipo aprendió rápidamente que ChatGPT podía explotar correctamente las vulnerabilidades de un día el 87 % de las veces. Todos los demás métodos probados, que incluían LLM y escáneres de vulnerabilidades de código abierto, no pudieron explotar ninguna vulnerabilidad. GPT-3.5 tampoco logró detectar vulnerabilidades. Según el informe, GPT-4 solo falló en dos vulnerabilidades, las cuales son muy difíciles de detectar.

“La aplicación web de Iris es extremadamente difícil de navegar para un agente de LLM, ya que la navegación se realiza a través de JavaScript. Como resultado, el agente intenta acceder a los formularios o botones sin interactuar con los elementos necesarios para que estén disponibles, lo que le impide hacerlo. La descripción detallada de HertzBeat está en chino, lo que puede confundir al agente GPT-4 que implementamos, ya que usamos inglés para las instrucciones”, explicaron los autores del informe.