Menguji batas AI generatif: Bagaimana tim merah mengekspos kerentanan dalam model AI

Teknisi TI berbicara dan berjalan kaki di ruang server yang gelap

Penulis

Charles Owen-Jackson

Freelance Content Marketing Writer

Dengan kecerdasan buatan generatif (gen AI) di garis depan keamanan informasi, tim merah memainkan peran penting dalam mengidentifikasi kerentanan yang dapat diabaikan orang lain.

Dengan rata-rata biaya pelanggaran data mencapai angka tertinggi sebesar 4,88 juta USD pada tahun 2024, perusahaan perlu tahu persis di mana letak kerentanannya. Mengingat kecepatan luar biasa di mana mereka mengadopsi gen AI, ada kemungkinan besar bahwa beberapa kerentanan tersebut terletak pada model AI itu sendiri — atau data yang digunakan untuk melatih mereka.

Di situlah tim merah khusus AI masuk. Ini adalah cara untuk menguji ketahanan sistem AI terhadap skenario ancaman dinamis. Ini melibatkan simulasi skenario serangan dunia nyata untuk menguji stres sistem AI sebelum dan sesudah diterapkan di lingkungan produksi. Tim merah telah menjadi sangat penting dalam memastikan bahwa organisasi dapat menikmati manfaat gen AI tanpa menambah risiko.

Layanan X-Force Red Offensive Security IBM® mengikuti proses berulang dengan pengujian berkelanjutan untuk mengatasi kerentanan di empat area utama:

  1. Pengujian keselamatan dan keamanan model
  2. Pengujian aplikasi AI Gen
  3. Pengujian keamanan platform AI
  4. Pengujian keamanan jalur MLSecOps

Pada artikel ini, kita akan fokus pada tiga jenis serangan permusuhan yang menargetkan model AI dan data pelatihan.

Injeksi prompt

Sebagian besar model AI generasi utama memiliki perlindungan bawaan untuk mengurangi risiko mereka menghasilkan konten berbahaya. Misalnya, dalam keadaan normal, Anda tidak dapat meminta ChatGPT atau Copilot untuk menulis kode berbahaya. Namun, metode seperti serangan prompt dan jailbreaking dapat memungkinkan untuk mengatasi perlindungan ini.

Salah satu tujuan dari tim merah AI adalah dengan sengaja membuat AI “bertingkah laku buruk“ — seperti halnya penyerang. Jailbreaking adalah salah satu metode yang melibatkan dorongan kreatif untuk mendapatkan model untuk menumbangkan filter keamanannya. Namun, sementara jailbreaking secara teoritis dapat membantu pengguna melakukan kejahatan yang sebenarnya, sebagian besar aktor jahat menggunakan vektor serangan lain — hanya karena mereka jauh lebih efektif.

Serangan injeksi cepat jauh lebih parah. Alih-alih menargetkan model itu sendiri, mereka menargetkan seluruh rantai pasokan perangkat lunak dengan mengaburkan instruksi berbahaya dalam prompt yang tampaknya tidak berbahaya. Misalnya, penyerang mungkin menggunakan injeksi prompt untuk mendapatkan model AI untuk mengungkapkan informasi sensitif seperti kunci API, berpotensi memberi mereka akses pintu belakang ke sistem lain yang terhubung dengannya.

Tim merah juga dapat menyimulasikan serangan penghindaran, jenis serangan permusuhan di mana penyerang secara halus memodifikasi input untuk mengelabui model agar mengklasifikasikan atau salah menafsirkan instruksi. Modifikasi ini biasanya tidak terlihat oleh manusia. Namun, mereka masih dapat memanipulasi model AI untuk mengambil tindakan yang tidak diinginkan. Misalnya, ini mungkin termasuk mengubah piksel tunggal dalam gambar input untuk menipu pengklasifikasi model visi komputer, seperti yang dimaksudkan untuk digunakan dalam kendaraan self-driving.

Berita teknologi terbaru, didukung oleh insight dari pakar

Tetap terinformasi tentang tren industri yang paling penting—dan menarik—tentang AI, otomatisasi, data, dan di luarnya dengan buletin Think. Lihat Pernyataan Privasi IBM®.

Terima kasih! Anda telah berlangganan.

Langganan Anda akan disediakan dalam bahasa Inggris. Anda akan menemukan tautan berhenti berlangganan di setiap buletin. Anda dapat mengelola langganan atau berhenti berlangganan di sini. Lihat Pernyataan Privasi IBM® kami untuk informasi lebih lanjut.

Peracunan data

Penyerang juga menargetkan model AI selama pelatihan dan pengembangan, oleh karena itu penting bagi tim merah untuk menyimulasikan serangan yang sama untuk mengidentifikasi risiko yang dapat membahayakan keseluruhan proyek. Serangan keracunan data terjadi ketika musuh memasukkan data berbahaya ke dalam set pelatihan, sehingga merusak proses pembelajaran dan menanamkan kerentanan ke dalam model itu sendiri. Hasilnya adalah bahwa seluruh model menjadi titik masuk potensial untuk serangan lebih lanjut. Jika data pelatihan dibobol, biasanya perlu untuk melatih ulang model dari awal. Itu adalah operasi yang sangat padat sumber daya dan memakan waktu.

Keterlibatan tim merah sangat penting sejak awal proses pengembangan model AI untuk mengurangi risiko keracunan data. Tim merah menyimulasikan serangan keracunan data dunia nyata di lingkungan sandbox yang terputus dari sistem produksi yang ada. Dengan melakukan hal tersebut, akan memberikan insight tentang seberapa rentan model tersebut terhadap keracunan data dan bagaimana aktor ancaman yang sebenarnya dapat menyusup atau mengompromikan proses pelatihan.

Tim merah AI juga dapat secara proaktif mengidentifikasi kelemahan dalam saluran pengumpulan data. Model bahasa besar (LLM) sering mengambil data dari sejumlah besar sumber yang berbeda. ChatGPT, misalnya, dilatih pada kumpulan besar data teks dari jutaan situs web, buku, dan sumber lainnya. Saat membangun LLM berpemilik, sangat penting bahwa organisasi tahu persis dari mana mereka mendapatkan data pelatihan mereka dan bagaimana itu diperiksa untuk kualitas. Meskipun hal itu lebih merupakan tugas auditor keamanan dan peninjau proses, tim merah dapat menggunakan pengujian penetrasi untuk menilai kemampuan model dalam menahan kelemahan dalam jalur pengumpulan datanya.

Mixture of Experts | 12 Desember, episode 85

Decoding AI: Rangkuman Berita Mingguan

Bergabunglah dengan panel insinyur, peneliti, pemimpin produk, dan sosok kelas dunia lainnya selagi mereka mengupas tuntas tentang AI untuk menghadirkan berita dan insight terbaru seputar AI.

Inversi model

Model AI eksklusif biasanya dilatih, setidaknya sebagian, pada data organisasi itu sendiri. Misalnya, LLM yang diterapkan dalam layanan pelanggan mungkin menggunakan data pelanggan perusahaan untuk pelatihan sehingga dapat memberikan output yang paling relevan. Idealnya, model hanya boleh dilatih berdasarkan data anonim yang diizinkan untuk dilihat semua orang. Meski begitu, bagaimanapun, pelanggaran privasi mungkin masih menjadi risiko karena serangan inversi model dan serangan inferensi keanggotaan.

Bahkan setelah penerapan, model gen AI dapat menyimpan jejak data tempat mereka dilatih. Sebagai contoh, tim di laboratorium riset DeepMind AI Google berhasil mengelabui ChatGPT untuk membocorkan data pelatihan dengan menggunakan prompt sederhana. Serangan inversi model dapat, oleh karena itu, memungkinkan aktor jahat untuk merekonstruksi data pelatihan, yang berpotensi mengungkapkan informasi rahasia dalam prosesnya.

Serangan inferensi keanggotaan bekerja dengan cara yang sama. Dalam hal ini, musuh mencoba memprediksi apakah titik data tertentu digunakan untuk melatih model melalui inferensi dengan bantuan model lain. Ini adalah metode yang lebih canggih di mana penyerang pertama kali melatih model terpisah – yang dikenal sebagai model inferensi keanggotaan — berdasarkan output dari model yang mereka serang.

Misalnya, katakanlah model telah dilatih tentang riwayat pembelian pelanggan untuk memberikan rekomendasi produk yang dipersonalisasi. Penyerang kemudian dapat membuat model inferensi keanggotaan dan membandingkan output dengan model target untuk menyimpulkan informasi yang berpotensi sensitif yang mungkin mereka gunakan dalam serangan yang ditargetkan.

Dalam kedua kasus tersebut, tim merah dapat mengevaluasi model AI untuk kemampuan mereka untuk secara tidak sengaja membocorkan informasi sensitif secara langsung atau tidak langsung melalui inferensi. Ini dapat membantu mengidentifikasi kerentanan dalam alur kerja data pelatihan itu sendiri, seperti data yang belum cukup dianonimkan sesuai dengan kebijakan privasi organisasi.

Membangun kepercayaan terhadap AI

Membangun kepercayaan pada AI membutuhkan strategi proaktif, dan tim merah AI memainkan peran mendasar. Dengan menggunakan metode seperti pelatihan lawan dan simulasi serangan inversi model, tim merah dapat mengidentifikasi kerentanan yang kemungkinan akan dilewatkan oleh analis keamanan lainnya.

Temuan ini kemudian dapat membantu pengembang AI memprioritaskan dan menerapkan perlindungan proaktif untuk mencegah aktor ancaman nyata mengeksploitasi kerentanan yang sama. Untuk bisnis, Hasilnya adalah mengurangi risiko keamanan dan peningkatan kepercayaan pada model AI, yang dengan cepat menjadi sangat mendarah daging di banyak sistem penting bisnis.