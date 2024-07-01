Sejak penggunaan ChatGPT dan model bahasa besar (LLM) meluas dalam beberapa tahun terakhir, keamanan siber menjadi perhatian utama. Di antara berbagai pertanyaan, profesional keamanan siber mempertanyakan seberapa efektif alat ini untuk melancarkan serangan. Peneliti keamanan siber Richard Fang, Rohan Bindu, Akul Gupta, dan Daniel Kang baru-baru ini meneliti untuk menemukan jawabannya. Kesimpulannya: alat ini sangat efektif.
Selama penelitian, tim menggunakan 15 kerentanan satu hari yang terjadi dalam kondisi nyata. Kerentanan satu hari merujuk pada periode antara penemuan masalah dan pembuatan patch, artinya kerentanan tersebut sudah diketahui. Kasus ini mencakup situs web dengan kerentanan, perangkat lunak manajemen kontainer, dan paket Python. Karena semua kerentanan berasal dari basis data CVE, masing-masing disertai deskripsi CVE.
Agen LLM juga mencakup elemen penjelajahan web, terminal, hasil pencarian, pembuatan file, dan penerjemah kode. Selain itu, para peneliti menggunakan prompt sangat rinci dengan total 1.056 token dan 91 baris kode. Prompt juga menyertakan pernyataan untuk debugging dan pencatatan. Namun, prompt tersebut tidak menyertakan sub-agen atau modul perencanaan terpisah.
Tim menemukan bahwa ChatGPT berhasil mengeksploitasi kerentanan satu hari dengan benar 87% dari waktu. Semua metode lain yang diuji, termasuk LLM dan pemindai kerentanan sumber terbuka, gagal mengeksploitasi kerentanan. GPT-3.5 juga gagal mendeteksi kerentanan. Menurut laporan, GPT-4 hanya gagal mendeteksi dua kerentanan, keduanya sangat sulit diidentifikasi.
“Aplikasi web Iris sulit dinavigasi oleh agen LLM karena menggunakan JavaScript untuk navigasi. Akibatnya, agen mencoba mengakses formulir/tombol tanpa berinteraksi dengan elemen yang diperlukan, sehingga gagal melakukannya. Deskripsi HertzBeat sangat rinci dalam bahasa Mandarin, yang mungkin membingungkan agen GPT-4 kami karena prompt menggunakan bahasa Inggris,” jelas penulis laporan.
Para peneliti menyimpulkan bahwa tingginya tingkat keberhasilan berasal dari kemampuan alat untuk mengeksploitasi kerentanan multi-langkah yang kompleks, menggunakan berbagai metode serangan, membuat kode eksploit, dan memanipulasi kerentanan non-web.
Studi ini juga menemukan keterbatasan signifikan ChatGPT dalam menemukan kerentanan. Ketika diminta mengeksploitasi kerentanan tanpa kode CVE, LLM tidak mampu bekerja pada tingkat yang sama. Tanpa kode CVE, GPT-4 hanya berhasil 7% dari waktu, turun 80%. Karena kesenjangan besar ini, para peneliti meninjau ulang dan menemukan GPT-4 hanya dapat menentukan kerentanan yang benar 33,3% dari waktu.
“Anehnya, kami menemukan jumlah rata-rata tindakan dengan dan tanpa deskripsi CVE hanya berbeda 14% (24,3 tindakan vs 21,3 tindakan). Kami menduga hal ini sebagian dipengaruhi panjang jendela konteks, menunjukkan bahwa mekanisme perencanaan dan subagen dapat meningkatkan kinerja,” tulis para peneliti.
Para peneliti menyimpulkan bahwa LLM mampu secara mandiri mengeksploitasi kerentanan satu hari, namun saat ini hanya GPT-4 yang dapat mencapai tingkat tersebut. Namun, kekhawatirannya adalah kemampuan dan fungsionalitas LLM akan terus berkembang, membuatnya semakin kuat dan berpotensi lebih merusak bagi penjahat siber.
“Hasil kami menunjukkan adanya kemampuan yang muncul dan bahwa mengungkap kerentanan lebih sulit daripada mengeksploitasinya. Meskipun demikian, temuan ini menyoroti perlunya komunitas keamanan siber dan penyedia LLM mempertimbangkan dengan cermat integrasi agen LLM dalam langkah defensif dan penerapannya secara luas,” simpul para peneliti.
