Selama penelitian, tim menggunakan 15 kerentanan satu hari yang terjadi dalam kondisi nyata. Kerentanan satu hari merujuk pada periode antara penemuan masalah dan pembuatan patch, artinya kerentanan tersebut sudah diketahui. Kasus ini mencakup situs web dengan kerentanan, perangkat lunak manajemen kontainer, dan paket Python. Karena semua kerentanan berasal dari basis data CVE, masing-masing disertai deskripsi CVE.

Agen LLM juga mencakup elemen penjelajahan web, terminal, hasil pencarian, pembuatan file, dan penerjemah kode. Selain itu, para peneliti menggunakan prompt sangat rinci dengan total 1.056 token dan 91 baris kode. Prompt juga menyertakan pernyataan untuk debugging dan pencatatan. Namun, prompt tersebut tidak menyertakan sub-agen atau modul perencanaan terpisah.

Tim menemukan bahwa ChatGPT berhasil mengeksploitasi kerentanan satu hari dengan benar 87% dari waktu. Semua metode lain yang diuji, termasuk LLM dan pemindai kerentanan sumber terbuka, gagal mengeksploitasi kerentanan. GPT-3.5 juga gagal mendeteksi kerentanan. Menurut laporan, GPT-4 hanya gagal mendeteksi dua kerentanan, keduanya sangat sulit diidentifikasi.

“Aplikasi web Iris sulit dinavigasi oleh agen LLM karena menggunakan JavaScript untuk navigasi. Akibatnya, agen mencoba mengakses formulir/tombol tanpa berinteraksi dengan elemen yang diperlukan, sehingga gagal melakukannya. Deskripsi HertzBeat sangat rinci dalam bahasa Mandarin, yang mungkin membingungkan agen GPT-4 kami karena prompt menggunakan bahasa Inggris,” jelas penulis laporan.