Da quando negli ultimi anni è stato diffuso e crescente l'uso di ChatGPT e di altri modelli linguistici di grandi dimensioni (LLM), la cybersecurity è stata una delle principali preoccupazioni. Tra le tante domande, i professionisti della cybersecurity si sono chiesti quanto siano efficaci questi strumenti nel lanciare un attacco. I ricercatori di cybersecurity Richard Fang, Rohan Bindu, Akul Gupta e Daniel Kang hanno recentemente condotto uno studio per determinare la risposta. La conclusione: sono molto efficaci.
Durante lo studio, il team ha utilizzato 15 vulnerabilità one-day che si sono verificate nella realtà. Il nome delle vulnerabilità one-day si riferisce al tempo che intercorre tra la scoperta di un problema e la creazione della patch, il che significa che si tratta di una vulnerabilità nota. I casi includevano siti web con vulnerabilità, software di gestione dei container e pacchetti Python. Poiché tutte le vulnerabilità provenivano dal database CVE, includevano la descrizione CVE.
Gli agenti LLM disponevano anche di elementi di navigazione web, un terminale, risultati di ricerca, creazione di file e un interprete di codice. Inoltre, i ricercatori hanno utilizzato un prompt molto dettagliato con un totale di 1.056 token e 91 righe di codice. Il prompt includeva anche istruzioni di debug e di registrazione. Tuttavia, i prompt non includevano agenti secondari o un modulo di pianificazione separato.
Il team ha rapidamente imparato che ChatGPT era in grado di utilizzare correttamente vulnerabilità one-day nell'87% dei casi. Tutti gli altri metodi testati, che includevano LLM e scanner di vulnerabilità open source, non sono riusciti a utilizzare alcuna vulnerabilità. GPT-3.5 non è riuscito a rilevare vulnerabilità. Secondo il rapporto, GPT-4 ha fallito solo su due vulnerabilità, entrambe molto difficili da rilevare.
"L'app web Iris è estremamente difficile da navigare per un agente LLM, poiché la navigazione avviene tramite JavaScript." Di conseguenza, l'agente cerca di accedere a moduli/pulsanti senza interagire con gli elementi necessari per renderli disponibili, il che gli impedisce di farlo. La descrizione dettagliata di HertzBeat è in cinese, il che può confondere l'agente GPT-4 che implementiamo poiché usiamo l'inglese per il prompt," hanno spiegato gli autori del report.
I ricercatori hanno concluso che la ragione dell'alto tasso di successo risiede nella capacità dello strumento di utilizzare vulnerabilità complesse a più fasi, lanciare diversi metodi di attacco, creare codici per utilizzare e manipolare vulnerabilità non web.
Lo studio ha inoltre riscontrato una limitazione significativa con Chat GPT nel trovare vulnerabilità. Quando è stato chiesto di utilizzare una vulnerabilità senza il codice CVE, l'LLM non è stato in grado di funzionare allo stesso livello. Senza il codice CVE, GPT-4 ha avuto successo solo nel 7% dei casi, con una diminuzione dell'80%. A causa di questa grande lacuna, i ricercatori hanno fatto un passo indietro e hanno isolato la frequenza con cui GPT-4 riusciva a determinare la vulnerabilità corretta, ovvero il 33,3% delle volte.
“Sorprendentemente, abbiamo scoperto che il numero medio di azioni intraprese con e senza la descrizione CVE differiva solo del 14% (24,3 azioni contro 21,3 azioni). "Riteniamo che ciò sia in parte dovuto alla lunghezza della finestra di contesto, il che suggerisce ulteriormente che un meccanismo di pianificazione e dei subagenti potrebbero aumentare le prestazioni", hanno scritto i ricercatori.
I ricercatori hanno concluso che il loro studio ha dimostrato che gli LLM hanno la capacità di utilizzare autonomamente le vulnerabilità one-day, ma attualmente solo GPT-4 riesce a raggiungere questo risultato. Tuttavia, la preoccupazione è che la capacità e la funzionalità del LLM cresceranno ulteriormente in futuro, rendendolo uno strumento ancora più distruttivo e potente per i criminali informatici.
"I nostri risultati dimostrano sia la possibilità di una funzionalità emergente sia che scoprire una vulnerabilità è più difficile che utilizzarla. Tuttavia, i nostri risultati evidenziano la necessità per la più ampia comunità di cybersecurity e i fornitori di LLM di pensare attentamente a come integrare gli agenti LLM nelle misure difensive e sulla loro ampia distribuzione/implementazione," concludono i ricercatori.
