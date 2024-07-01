Desde o uso generalizado e crescente do ChatGPT e de outros grandes modelos de linguagem (LLMs) nos últimos anos, a cibersegurança tem sido uma das principais preocupações. Entre as muitas perguntas, os profissionais de cibersegurança se perguntavam a eficácia dessas ferramentas para lançar um ataque. Os pesquisadores de cibersegurança Richard Fang, Rohan Bindu, Akul Gupta e Daniel Kang realizaram recentemente um estudo para determinar a resposta. Conclusão: elas são muito eficazes.
Durante o estudo, a equipe usou 15 vulnerabilidades de um dia que ocorreram na vida real. Vulnerabilidades de um dia referem-se ao tempo entre quando um problema é descoberto e o patch é criado, o que significa que é uma vulnerabilidade conhecida. Os casos incluíam sites com vulnerabilidades, software de gerenciamento de contêineres e pacotes Python. Como todas as vulnerabilidades vinham do banco de dados CVE, elas incluíram a descrição do CVE.
Os agentes do LLM também tinham elementos de navegação na web, um terminal, resultados de pesquisa, criação de arquivos e um interpretador de códigos. Além disso, os pesquisadores usaram um prompt muito detalhado com um total de 1.056 tokens e 91 linhas de código. O prompt também incluía instruções de depuração e registro. No entanto, os prompts não incluíam subagentes nem um módulo de planejamento separado.
A equipe rapidamente descobriu que o ChatGPT foi capaz de explorar corretamente vulnerabilidades de um dia 87% das vezes. Todos os outros métodos testados, que incluíam LLMs e scanners de vulnerabilidades de código aberto, não conseguiram realizar a exploração de nenhuma vulnerabilidade. O GPT-3.5 também não teve sucesso na detecção de vulnerabilidades. De acordo com o relatório, o GPT-4 falhou apenas em duas vulnerabilidades, ambas muito difíceis de detectar.
“O aplicativo web Iris é extremamente difícil para um agente LLM navegar, pois a navegação é feita por meio de JavaScript. Como resultado, o agente tenta acessar formulários/botões sem interagir com os elementos necessários para disponibilizá-los, o que o impede de fazê-lo. A descrição detalhada do HertzBeat está em chinês, o que pode confundir o agente do GPT-4 que implementamos, pois usamos o inglês para o prompt”, explicaram os autores do relatório.
Os pesquisadores concluíram que o motivo da alta taxa de sucesso está na capacidade da ferramenta de explorar vulnerabilidades complexas de várias etapas, lançar diferentes métodos de ataque, criar códigos para explorações e manipular vulnerabilidades não relacionadas à web.
O estudo também encontrou uma limitação significativa com o Chat GPT para encontrar vulnerabilidades. Quando solicitado a realizar uma exploração de vulnerabilidade sem o código CVE, o LLM não conseguiu desempenhar no mesmo nível. Sem o código CVE, o GPT-4 só teve sucesso em 7% das vezes, o que representa uma redução de 80%. Devido a essa grande lacuna, os pesquisadores voltaram atrás e isolaram a frequência com que o GPT-4 poderia determinar a vulnerabilidade correta, que foi 33,3% das vezes.
"Surpreendentemente, descobrimos que o número médio de ações executadas com e sem a descrição CVE diferia em apenas 14% (24,3 ações versus 21,3 ações). Suspeitamos que isso seja impulsionado em parte pelo comprimento da janela de contexto, sugerindo ainda mais que um mecanismo de planejamento e subagentes poderiam aumentar o desempenho", escreveram os pesquisadores.
Os pesquisadores concluíram que seu estudo mostrou que os LLMs têm a capacidade de exploração autônoma de vulnerabilidades de um dia, mas apenas o GPT-4 atualmente pode alcançar essa marca. No entanto, a preocupação é que a capacidade e a funcionalidade do LLM só cresçam no futuro, tornando-o uma ferramenta ainda mais destrutiva e poderosa para os cibercriminosos.
"Nossos resultados mostram tanto a possibilidade de um recurso emergente quanto que descobrir uma vulnerabilidade é mais difícil do que a exploração." No entanto, nossas descobertas destacam a necessidade de a comunidade de cibersegurança em geral e os provedores de LLMs pensarem cuidadosamente sobre como integrar agentes de LLMs em medidas defensivas e sobre sua implementação generalizada”, concluem os pesquisadores.
