Peracunan data adalah jenis serangan siber di mana aktor ancaman memanipulasi atau merusak data pelatiha yang digunakan untuk mengembangkan model kecerdasan buatan (AI) dan machine learning (ML).
Neural networks, model bahasa besar (LLM), dan model pembelajaran mendalam sangat bergantung padakualitas danintegritas data pelatihan, yang pada akhirnya menentukan fungsi model. Data pelatihan ini dapat berasal dari berbagai sumber, seperti internet, basis data pemerintah, dan penyedia data pihak ketiga. Dengan menyuntikkan titik data yang salah atau bias (data beracun) ke dalam kumpulan data pelatihan ini, aktor penjahat dapat secara halus atau drastis mengubah perilaku model.
Misalnya, manipulasi data melalui peracunan dapat menyebabkan kesalahan klasifikasi data, yang mengurangi kemanjuran dan akurasi sistem AI dan ML. Terlebih lagi, serangan ini dapat menimbulkan risiko keamanan siber yang serius, terutama di industri seperti layanan kesehatan dan kendaraan otonom.
Serangan peracunan data dapat diklasifikasikan ke dalam dua kategori berdasarkan niat: ditargetkan dan tidak ditargetkan.
Serangan peracunan data yang ditargetkan memanipulasi output model AI dengan cara tertentu. Misalnya, penjahat siber mungkin menyuntikkan data yang diracuni ke dalam chatbot atau aplikasi AI generatif (gen AI) seperti ChatGPT untuk mengubah responsnya. Demikian pula dalam skenario keamanan siber , penyerang mungkin memperkenalkan data yang diracuni ke model yang dirancang untuk deteksi malware, yang menyebabkannya kehilangan ancaman tertentu.
Serangan yang ditargetkan memanipulasi perilaku model dengan cara yang memberikan manfaat kepada penyerang, berpotensi menciptakan kerentanan baru dalam sistem.
Serangan yang tidak ditargetkan berfokus pada penurunan ketahanan umum suatu model. Bukannya menyerang output tertentu, tujuannya justru adalah melemahkan kemampuan model untuk memproses data dengan benar. Misalnya, pada kendaraan otonom, peracunan data yang tidak ditargetkan dapat menyebabkan sistem salah menafsirkan input dari sensornya, salah mengira tanda “berhenti” sebagai tanda “menyerah”. Jenis serangan ini membuat model AI lebih rentan terhadap serangan adversarial, di mana penyerang mencoba menggunakan kelemahan kecil yang sering kali tidak kentara dalam proses pengambilan keputusan model.
Serangan peracunan data dapat terjadi dalam berbagai bentuk, termasuk pembalikan label, penyuntikan data, serangan pintu belakang, dan serangan label bersih. Tiap jenis menargetkan aspek berbeda dari fungsi model AI .
Dalam serangan pembalikan label, aktor penjahat memanipulasi label pada data pelatihan, menukar label yang benar dengan label yang salah. Pertimbangkan Nightshade, alat peracunan AI yang dikembangkan di University of Chicago. Nightshade memungkinkan seniman digital untuk secara halus mengubah piksel dalam gambar mereka sebelum mengunggahnya secara online. Ketika perusahaan AI mengikis kumpulan data online untuk melatih model AI, gambar yang diubah akan mengganggu proses melatih. Manipulasi ini dapat menyebabkan model AI salah mengklasifikasikan atau berperilaku tidak dapat diprediksi—terkadang salah mengira gambar sapi sebagai tas kulit.1
Injeksi data memperkenalkan titik data buatan ke kumpulan data pelatihan, sering kali untuk mengarahkan perilaku model AI ke arah tertentu. Contoh umum adalah injeksi SQL, di mana penyerang menambahkan “1=1” atau “=” ke dalam bidang input. Ketika disertakan dalam SQL query, data berbahaya ini akan mengubah arti kueri, mengembalikan semua rekaman, bukan hanya satu.2 Demikian pula, dalam model machine learning, injeksi data dapat memanipulasi pengambilan keputusan model tersebut. Hal ini dapat menyebabkan model salah mengklasifikasikan atau menunjukkan mengakibatkan bias, merusak integritas data dan ketahanan model secara keseluruhan.
Serangan pintu belakang berbahaya karena akan mengakibatkan manipulasi halus, seperti kebisingan latar belakang yang tidak terdengar pada audio atau tanda air yang tidak terlihat pada gambar. Serangan ini membuat sistem AI berfungsi normal di sebagian besar kondisi. Namun, ketika input pemicu tertentu ditemui, model berperilaku dengan cara yang memberikan manfaat bagi penyerang. Dalam kasus model sumber terbuka—di mana akses ke data pelatihan dan algoritma mungkin kurang dibatasi—serangan ini bisa sangat berbahaya. ReversingLabs melaporkan adanya peningkatan ancaman—lebih dari 1300%—yang beredar melalui repositori sumber terbuka dari tahun 2020 hingga 2023.3
Dalam serangan label bersih, penyerang memodifikasi data dengan cara yang sulit deteksi. Karakteristik utamanya adalah bahwa data yang diracuni masih muncul dengan label yang benar, sehingga menyulitkan metode validasi data tradisional untuk mengidentifikasinya. Serangan ini menggunakan kompleksitas machine learning dan pembelajaran mendalam, yang dapat gagal menandai perubahan kecil yang tampaknya tidak berbahaya. Serangan label bersih termasuk yang paling tersembunyi, sehingga membuat model AI rentan terhadap output menjadi miring dan menurunkan fungsi model.
Sementara peracunan data dan injeksi prompt menargetkan berbagai tahapan siklus hidup AI, mereka memiliki tujuan yang sama: mengeksploitasi kerentanan dalam input model. Peracunan data memanipulasi kumpulan datak pelatihan, menanamkan data rusak atau berbahaya yang dapat membahayakan proses pembelajaran model dan fungsionalitas jangka panjang. Selain itu, injeksi prompt menyamarkan input berbahaya sebagai prompt yang sah, memanipulasi sistem AI generatif untuk membocorkan data sensitif, menyebarkan informasi yang salah, atau yang lebih buruk lagi.
Peretas dapat menerapkan strategi ini secara terpisah atau bersamaan untuk memperbesar dampaknya. Misalnya, orang dalam yang memiliki akses ke sistem suatu organisasi secara teoritis dapat meracuni kumpulan data pelatihan dengan menanamkan data yang miring atau bias, sehingga melewati langkah-langkah validasi. Kemudian, orang dalam dapat mengeksploitasi sistem yang disusupi dengan melakukan injeksi prompt, mengaktifkan data beracun dan memicu perilaku jahat. Hal ini dapat mencakup kebocoran informasi sensitif, pembuatan pintu belakang untuk serangan musuh lebih lanjut, atau melemahkan kemampuan pengambilan keputusan sistem.
Peracunan data dapat memiliki dampak yang luas pada model AI dan ML, yang memengaruhi keamanan dan kinerja model secara keseluruhan.
Kumpulan data pelatihan yang beracun dapat menyebabkan model machine learning salah mengklasifikasika input, merusak keandalan da fungsi model AI. Dalam aplikasi yang menghadap konsumen, ini dapat menyebabkan rekomendasi yang tidak akurat yang mengikis kepercayaan dan pengalaman pelanggan. Demikian pula, dalam manajemen rantai pasokan, data beracun dapat menyebabkan ramalan yang cacat, penundaan dan kesalahan, merusak kinerja model dan kemanjuran bisnis. Kesalahan klasifikasi ini mengekspos kerentanan dalam data pelatihan dan dapat membahayakan ketahanan sistem AI secara keseluruhan .
Peracunan data juga dapat memperkuat bias yang ada dalam sistem AI. Penyerang dapat menargetkan subset data tertentu—seperti demografi tertentu—untuk memperkenalkan input yang bias. Hal ini dapat membuat model AI berkinerja tidak adil atau tidak akurat. Sebagai contoh, model pengenalan wajah yang dilatih dengan data yang bias atau diracuni dapat salah mengidentifikasi orang dari kelompok tertentu, yang mengarah pada hasil yang diskriminatif. Jenis serangan ini dapat memengaruhi kewajaran dan keakuratan model ML di berbagai aplikasi, mulai dari keputusan perekrutan hingga pengawasan penegakan hukum.
Peracunan data dapat membuka pintu bagi serangan yang lebih canggih, seperti serangan inversi di mana peretas mencoba merekayasa balik data pelatihan model. Setelah penyerang berhasil meracuni data pelatihan, mereka selanjutnya dapat menggunakan kerentanan ini untuk meluncurkan lebih banyak serangan yang lebih buruk atau memicu tindakan pintu belakang. Pada sistem yang dirancang untuk tugas-tugas sensitif, seperti diagnostik perawatan kesehatan atau keamanan siber, risiko keamanan ini bisa sangat berbahaya.
Untuk mempertahankan diri dari serangan peracunan data, organisasi dapat menerapkan strategi untuk membantu memastikan integritas kumpulan data pelatihan, meningkatkan ketahanan model, dan memantau model AI secara terus menerus.
Strategi pertahanan mendasar terhadap peracunan data adalah memvalidasi dan membersihkan data pelatihan sebelum digunakan. Menerapkan proses validasi data selama fase pelatihan dapat membantu mengidentifikasi dan menghapus titik data yang mencurigakan atau rusak sebelum berdampak negatif pada model. Langkah ini sangat penting untuk mencegah masuknya data berbahaya ke dalam sistem AI, terutama ketika menggunakan sumber terbuka atau model di mana integritas lebih sulit dipertahankan.
Pelatihan adversarial adalah metode proaktif untuk mempertahankan diri terhadap peracunan data dan jenis serangan lainnya. Dengan sengaja memperkenalkan contoh-contoh yang merugikan ke dalam model pelatihan, pengembang dapat mengajarkan model untuk mengenali dan melawan data beracun, sehingga meningkatkan kekokohannya terhadap manipulasi. Untuk aplikasi berisiko tinggi seperti kendaraan otonom atau keamanan AI, pelatihan adversarial merupakan langkah krusial dalam membuat model AI dan ML lebih tangguh dan dapat dipercaya.
Setelah diterapkan, sistem AI dapat terus dipantau untuk deteksi perilaku tidak biasa yang mungkin mengindikasikan serangan peracunan data. Alat deteksi anomali, seperti algoritma pengenalan pola, dapat membantu tim keamanan mengidentifikasi perbedaan dalam input dan output serta merespons dengan cepat jika suatu sistem disusupi. Pengauditan berkelanjutan sangat penting untuk aplikasi AI generatif seperti ChatGPT, di mana pembaruan waktu nyata pada data pelatihan dan perilaku model dapat sangat penting dalam mencegah penyalahgunaan. Jika anomali terdeteksi, model dapat dihentikan sementara atau dievaluasi ulang untuk mencegah kerusakan lebih lanjut.
Menerapkan kontrol akses yang ketat adalah strategi lain untuk mengurangi risiko peracunan data. Membatasi siapa yang dapat memodifikasi kumpulan data pelatihan dan repositori pelatihan dapat mengurangi risiko gangguan yang tidak sah. Selain itu, menggabungkan langkah-langkah keamanan seperti enkripsi dapat membantu melindungi sumber data da sistem AI dari serangan eksternal. Di lingkungan dengan risiko tinggi, seperti layanan kesehatan da keamanan siber, kontrol keamanan yang ketat dapat membantu memastikan bahwa model machine learning tetap aman dan dapat dipercaya.
1 Apa itu Nightshade, Universitas Chicago, 2024.
2 SQL Injection, W3 Schools.
3 Poin-poin penting dari Laporan Status SSCS 2024, ReversingLabs, 16 Januari 2024.
Atur model AI generatif dari mana saja dan terapkan di cloud atau on premises dengan IBM watsonx.governance.
Lindungi data di berbagai lingkungan, penuhi peraturan privasi, dan sederhanakan kompleksitas operasional.
IBM menyediakan layanan keamanan data yang komprehensif untuk melindungi data perusahaan, aplikasi, dan AI.