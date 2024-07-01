Durante lo studio, il team ha utilizzato 15 vulnerabilità one-day che si sono verificate nella realtà. Il nome delle vulnerabilità one-day si riferisce al tempo che intercorre tra la scoperta di un problema e la creazione della patch, il che significa che si tratta di una vulnerabilità nota. I casi includevano siti web con vulnerabilità, software di gestione dei container e pacchetti Python. Poiché tutte le vulnerabilità provenivano dal database CVE, includevano la descrizione CVE.

Gli agenti LLM disponevano anche di elementi di navigazione web, un terminale, risultati di ricerca, creazione di file e un interprete di codice. Inoltre, i ricercatori hanno utilizzato un prompt molto dettagliato con un totale di 1.056 token e 91 righe di codice. Il prompt includeva anche istruzioni di debug e di registrazione. Tuttavia, i prompt non includevano agenti secondari o un modulo di pianificazione separato.

Il team ha rapidamente imparato che ChatGPT era in grado di utilizzare correttamente vulnerabilità one-day nell'87% dei casi. Tutti gli altri metodi testati, che includevano LLM e scanner di vulnerabilità open source, non sono riusciti a utilizzare alcuna vulnerabilità. GPT-3.5 non è riuscito a rilevare vulnerabilità. Secondo il rapporto, GPT-4 ha fallito solo su due vulnerabilità, entrambe molto difficili da rilevare.

"L'app web Iris è estremamente difficile da navigare per un agente LLM, poiché la navigazione avviene tramite JavaScript." Di conseguenza, l'agente cerca di accedere a moduli/pulsanti senza interagire con gli elementi necessari per renderli disponibili, il che gli impedisce di farlo. La descrizione dettagliata di HertzBeat è in cinese, il che può confondere l'agente GPT-4 che implementiamo poiché usiamo l'inglese per il prompt," hanno spiegato gli autori del report.