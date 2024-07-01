Durante o estudo, a equipe usou 15 vulnerabilidades de um dia que ocorreram na vida real. Vulnerabilidades de um dia referem-se ao tempo entre quando um problema é descoberto e o patch é criado, o que significa que é uma vulnerabilidade conhecida. Os casos incluíam sites com vulnerabilidades, software de gerenciamento de contêineres e pacotes Python. Como todas as vulnerabilidades vinham do banco de dados CVE, elas incluíram a descrição do CVE.

Os agentes do LLM também tinham elementos de navegação na web, um terminal, resultados de pesquisa, criação de arquivos e um interpretador de códigos. Além disso, os pesquisadores usaram um prompt muito detalhado com um total de 1.056 tokens e 91 linhas de código. O prompt também incluía instruções de depuração e registro. No entanto, os prompts não incluíam subagentes nem um módulo de planejamento separado.

A equipe rapidamente descobriu que o ChatGPT foi capaz de explorar corretamente vulnerabilidades de um dia 87% das vezes. Todos os outros métodos testados, que incluíam LLMs e scanners de vulnerabilidades de código aberto, não conseguiram realizar a exploração de nenhuma vulnerabilidade. O GPT-3.5 também não teve sucesso na detecção de vulnerabilidades. De acordo com o relatório, o GPT-4 falhou apenas em duas vulnerabilidades, ambas muito difíceis de detectar.

“O aplicativo web Iris é extremamente difícil para um agente LLM navegar, pois a navegação é feita por meio de JavaScript. Como resultado, o agente tenta acessar formulários/botões sem interagir com os elementos necessários para disponibilizá-los, o que o impede de fazê-lo. A descrição detalhada do HertzBeat está em chinês, o que pode confundir o agente do GPT-4 que implementamos, pois usamos o inglês para o prompt”, explicaram os autores do relatório.