Apa itu machine learning adversarial?

Penulis

Staff Writer

IBM Think

Machine learning adversarial, definisi

Machine learning adversarial adalah seni mengelabui sistem AI. Istilah ini mengacu pada agen ancaman yang mengejar seni ini dengan jahat, serta peneliti berniat baik yang berusaha mengekspos kerentanan untuk akhirnya memajukan ketahanan model.

Bidang ini menghadirkan tantangan baru dalam keamanan siber karena kompleksitas model machine learning dan berbagai permukaan serangan mereka — termasuk, seringkali, dunia fisik.

Contoh di dunia nyata

Untuk mulai mengilustrasikan betapa berbedanya serangan machine learning adversarial dengan ancaman keamanan siber lama, bayangkan sebuah contoh dari ranah mobil swakemudi. Mobil swakemudi digerakkan oleh sistem AI kompleks yang mengambil input sensor dan kemudian membentuk klasifikasi yang menentukan perilaku mobil. Misalnya, ketika kendaraan otonom mendekati tanda berhenti, algoritma machine learning akan mengidentifikasinya, dengan aman membawa mobil berhenti.

Masalahnya adalah sistem machine learning yang telah belajar untuk mengklasifikasikan rambu berhenti menggunakan kriteria yang berbeda dari pikiran manusia. Ini pada gilirannya menciptakan kerentanan yang menakutkan, para peneliti di beberapa universitas menunjukkannya pada tahun 2017.¹ Dengan hanya membuat perubahan halus namun strategis untuk tanda berhenti — penambahan beberapa stiker kecil dan tidak berbahaya yang kebanyakan manusia akan abaikan begitu saja — para peneliti dapat menipu model AI yang digunakan jenis mobil swakemudi untuk salah mengklasifikasikan tanda berhenti secara berbahaya sebagai tanda “Batas Kecepatan: 45 MPH”. Seorang petugas patroli manusia yang lewat tidak akan menyadari sabotase, tetapi untuk sistem AI, hanya beberapa stiker yang tak kentara dapat mengubah tanda berhenti menjadi tanda “jalan”.

Tentu saja, seandainya peretas jahat menemukan kerentanan ini terlebih dahulu, kerugian nyata seperti kecelakaan lalu lintas yang mengakibatkan kematian bisa dengan mudah terjadi.

Buletin Think

Apakah tim Anda akan mampu mendeteksi zero-day berikutnya tepat waktu?

Bergabunglah dengan para pemimpin keamanan yang mengandalkan Buletin Think untuk berita yang dikurasi tentang AI, keamanan siber, data, dan otomatisasi. Pelajari dengan cepat dari tutorial pakar dan penjelas—dikirimkan langsung ke kotak masuk Anda. Lihat Pernyataan Privasi IBM®.

Jenis-jenis serangan adversarial

Para peneliti telah menciptakan taksonomi dari berbagai jenis serangan pada sistem AI.

Serangan penghindaran

Serangan penghindaran — seperti trik tanda berhenti yang dijelaskan — mengacu pada contoh di mana peretas mengubah data yang diproses oleh sistem AI, menciptakan apa yang disebut “contoh adversarial” yang menipu pengklasifikasi AI. Serangan ini disebut demikian karena data atau stimulus yang diubah mampu menghindari persepsi normal model AI. Selain contoh mobil swakemudi yang jelas, para peneliti telah mampu menciptakan bentuk kebisingan visual yang hampir tak terlihat — yang disebut “gangguan adversarial” — yang dapat dilapisi di atas data untuk menipu kecerdasan buatan. Dalam salah satu contoh terkenal tahun 2015, peneliti Google mampu menambahkan sedikit kebisingan visual ke gambar panda, menyebabkan model visi komputer menjadi yakin bahwa gambar mewakili gibbon. Faktanya, AI bahkan lebih yakin akan kesalahan klasifikasi “gibbon” daripada klasifikasi “panda” yang benar.² (Seni jahat merekayasa pola kebisingan secara efisien yang dapat mengelabui model dijelaskan di bagian "Metode serangan penghindaran yang diketahui," di bawah ini.)

Subtipe utama dari serangan penghindaran adalah serangan malware, di mana penyerang menghindari sistem deteksi yang dimaksudkan untuk menangkap virus komputer. Penyerang mencapai hal ini melalui berbagai cara, tetapi umumnya dengan menggunakan trik untuk membuat malware mereka terlihat seperti kode yang tidak berbahaya; terkadang, penyerang menggunakan AI mereka sendiri untuk mengoptimalkan proses ini. Dalam satu contoh, para peneliti mengembangkan bot yang secara otomatis dapat menyamarkan malware selama banyak uji coba, menipu 20 sistem deteksi malware 98% dari waktu.³

Serangan peracunan data

Serangan keracunan data terjadi pada tahap awal yang berbeda dari siklus hidup model AI, yaitu selama fase pelatihan. Jaringan neural mendalam mengandalkan sejumlah besar data pelatihan untuk mempelajari pola yang berguna. Dengan serangan keracunan data, aktor dapat merusak kumpulan data pelatihan asli, memperkenalkan data yang akan menyebabkan model terlatih yang dihasilkan berperilaku tidak berfungsi.

Salah satu contoh mengandalkan fakta bahwa banyak model AI menggunakan data yang diperoleh setelah penerapan untuk melatih versi model berikutnya secara iteratif. Mengambil keuntungan dari prinsip ini, troll di Twitter membombardir chatbot Microsoft 2016 yang disebut Tay dengan materi ofensif, yang akhirnya mengarahkan chatbot untuk memposting konten kebencian itu sendiri.

Contoh lain dari University of Chicago bertujuan untuk memberdayakan seniman untuk menghukum perusahaan yang tidak bermoral yang mungkin menggunakan gambar berhak cipta seniman untuk melatih model mereka tanpa persetujuan seniman. Proyek bernama Nightshade, “dirancang sebagai alat pelanggaran untuk mendistorsi representasi fitur di dalam model gambar AI generatif,” menurut pembuatnya.⁴ Jika seorang seniman menerapkan Nightshade di atas gambar mereka, dan model AI kemudian menggunakan gambar-gambar itu, model tersebut mungkin secara bertahap mempelajari label yang salah untuk objek tertentu—misalnya, memvisualisasikan sapi sebagai dompet kulit.

Serangan privasi

Serangan privasi mengeksploitasi keanehan sistem AI untuk secara tidak langsung menyimpulkan atau mengekstrak informasi sensitif yang merupakan bagian dari kumpulan data pelatihan mereka. Dalam teori, model ML tidak dimaksudkan untuk “mengingat” data latihan mereka, namun mengekstrak pola yang berguna di seluruh kumpulan data dan tidak menyimpan data latihan mereka, seperti halnya hard drive. Namun, realitas “memori” AI sebenarnya lebih kompleks. Dalam praktiknya, para peneliti telah mengamati bahwa dalam beberapa hal, model tampaknya “mengingat” data pelatihan mereka. Secara khusus, sistem ML akan sering mengekspresikan tingkat kepercayaan yang lebih tinggi dalam prediksi mereka ketika prediksi tersebut berhubungan dengan titik data yang mereka lihat dalam pelatihan. (Meskipun chatbot konsumen seperti ChatGPT tidak menampilkan skor kepercayaan, nilai-nilai ini sering dapat diakses melalui API pengembang atau alat peneliti.)

Dalam metode serangan privasi yang dikenal sebagai inferensi keanggotaan, penyerang dapat menyimpulkan informasi sensitif tentang seseorang: misalnya, apakah mereka pernah menjadi pasien di fasilitas psikiatri. Selama penyerang memiliki beberapa data individu tertentu (mungkin bagan medis sebagian), penyerang dapat menanyai model yang diketahui telah dilatih pada kumpulan data sensitif (misalnya, catatan fasilitas psikiatri). Dengan mengamati skor kepercayaan yang diberikan oleh model, penyerang dapat menyimpulkan bahwa target mereka memang anggota kelompok yang digunakan untuk melatih model.

Serangan inversi model melangkah lebih jauh, pada dasarnya memungkinkan musuh untuk merekayasa balik data aktual yang melatih model. Penyerang dapat melakukan ini dengan menggunakan teknik brute force, secara berulang menggunakan skor kepercayaan yang dikembalikan model sebagai panduan tentang cara membentuk data acak dan berisik menjadi sesuatu yang benar-benar menyerupai data pelatihan nyata untuk model. Misalnya, pada tahun 2015, peneliti akademis mampu mengeksploitasi skor kepercayaan model pengenalan wajah untuk merekonstruksi gambar yang mendekati wajah asli yang digunakan untuk melatih model. Mereka melakukan ini dengan memulai dengan gambar noise murni, mengutak-atik gambar secara berulang dan menggunakan skor kepercayaan dari output model untuk memandu perubahan berikutnya.⁵

Serangan ekstraksi model

Dalam serangan ekstraksi model (kadang-kadang disebut, secara sederhana, “pencurian model”), tujuan penyerang adalah untuk secara efektif “mengkloning” model tertentu. Motif dari serangan semacam itu bisa bermacam-macam: penyerang mungkin hanya ingin menghindari penggunaan pay-per-query dari model asli, atau penyerang mungkin ingin menggunakan kloningan untuk secara diam-diam menyempurnakan serangan yang ditargetkan yang mungkin berhasil dengan baik pada model asli.

Metode sebagian besar serangan ekstraksi model cukup sederhana: penyerang secara sistematis memberi prompt pada model dengan input yang dipilih dengan cermat dan mengindeks output. Jika input dipilih secara strategis, dalam beberapa kasus kumpulan data hanya ribuan atau puluhan ribu pasangan input-output dapat digunakan untuk mereplikasi model atau setidaknya beberapa aspek model. Misalnya, makalah tahun 2023 tentang "model leeching" menunjukkan bagaimana serangan semacam itu dapat digunakan untuk mengekstrak pengetahuan khusus tugas dari LLM dengan murah. Hanya dengan biaya API sebesar USD 50, tim dapat membangun model kloning yang dapat meniru salah satu kemampuan model bahasa—pemahaman bacaan—dengan akurasi 87%.⁶

Serangan kotak putih versus serangan kotak hitam

Satu taksonomi serangan tambahan membedakan bukan berdasarkan jenis kerusakan, tetapi berdasarkan jenis model yang ditargetkan. Sebagian besar contoh di atas disebut serangankotak hitam , yang berarti bahwa model yang ditargetkan hanya memberikan akses ke output mereka. Tetapi dalam apa yang disebut serangan kotak putih, peretas menyerang model sumber terbuka yang (seringkali karena dorongan mulia oleh pembuatnya) lebih transparan tentang cara kerja mereka. Dengan adanya visibilitas terhadap perilaku bobot yang dipelajari yang membentuk model, peretas sering kali dapat memanfaatkan akses kotak putih ini untuk merancang serangan yang lebih efisien dan terarah.

Metode-metode serangan penghindaran yang dikenal

Dari berbagai jenis serangan di atas, serangan penghindaran dapat dikatakan sebagai yang paling menantang, mewakili batasan baru yang sesungguhnya dalam keamanan siber. Serangan penghindaran sangat mengkhawatirkan (dan memikat) para peneliti keamanan siber karena serangan ini mengeksploitasi cara yang sangat berbeda antara mesin dan manusia dalam memahami dunia. Oleh karena itu, banyak riset telah difokuskan pada penemuan metode yang mungkin digunakan peretas untuk menghasilkan serangan penghindaran—agar kerentanan ini dapat ditambal sebelum peretas menyerangnya. (Untungnya, banyak pertahanan juga telah ditemukan. Untuk informasi selengkapnya, lihat “Cara bertahan melawan machine learning adversarial.”)

Metode tanda gradien cepat

Pada tahun 2015, para peneliti Google mengungkapkan metode sederhana untuk menghasilkan contoh adversarial - input yang mengelabui sistem pembelajaran mendalam apa pun - yang mereka sebut “metode tanda gradien cepat,” atau “FGSM.”² Ambil contoh sistem deteksi gambar. Sistem seperti itu pada dasarnya mengukir dunia menjadi banyak klaster—satu untuk kucing, satu untuk anjing-kucing, dan seterusnya. Metode tanda gradien cepat adalah mekanisme untuk menemukan cara cepat mengubah gambar untuk “mendorong” dari satu klaster ke klaster lain, menggagalkan integritas pengambilan keputusan sistem. Yang terpenting, tweak ini seringkali hanya membutuhkan sedikit kebisingan visual yang tidak terlihat oleh manusia, namun menipu mesin. FGSM disebut serangan “berbasis gradien” karena mengeksploitasi algoritma optimasi yang digunakan oleh sistem machine learning yang disebut “penurunan gradien.”

Mengingat serangan yang lebih kuat yang segera ditemukan, model yang hanya diperkuat terhadap serangan FGSM dianggap sangat rentan.

Proyeksi penurunan gradien

Proyeksi penurunan gradien (PGD) adalah serangan berbasis gradien lainnya, lebih halus dan kuat daripada FGSM. Sementara FGSM pada dasarnya mengambil satu lompatan ke arah yang bertentangan untuk menciptakan gangguan (“kebisingan” yang merusak mekanisme deteksi model), PGD menggunakan algoritma untuk mengambil serangkaian langkah kecil. Proses berulang yang lebih cermat ini memungkinkannya menemukan gangguan yang lebih kuat dan lebih tahan terhadap gangguan. Selanjutnya, kendala cerdas dalam algoritmanya mencegah gangguan PGD mengembara terlalu jauh dari garis dasar, memastikan bahwa mereka tidak terdeteksi oleh manusia. Pengorbanan bagi penyerang adalah biaya; di mana FGSM dapat menghasilkan gangguan cepat tapi lemah hanya dengan satu perhitungan gradien, PGD harus melakukan lusinan atau ratusan.

PGD sering digunakan sebagai tolok ukur utama untuk ketahanan adversarial, karena dianggap sebagai serangan berbasis gradien terkuat.⁷ Aplikasi AI yang telah dilatih untuk melawan serangan PGD dapat dianggap sangat kuat.

Serangan Carlini dan Wagner

Mengeksploitasi "gradien" model machine learning, ternyata bukan satu-satunya cara untuk menyerang sistem tersebut. Sebuah makalah riset tahun 2017⁸ dari ilmuwan komputer UC Berkeley, Nicholas Carlini dan David Wagner, mengungkapkan metode lain untuk menemukan data input adversarial, yang menghindari informasi tentang gradien model sama sekali. Sebaliknya, serangan Carlini dan Wagner membingkai masalah sebagai salah satu optimasi murni, berusaha untuk menemukan jumlah perubahan minimal yang diperlukan pada suatu input sambil tetap memaksa kesalahan klasifikasi. Untuk gangguan gambar, misalnya, algoritma semacam itu dapat mengungkapkan jumlah piksel paling sedikit yang perlu diubah untuk menipu model. Meskipun secara komputasi mahal untuk diproduksi, namun hasilnya biasanya berupa gangguan yang terlalu halus untuk disadari oleh manusia.

Cara bertahan melawan machine learning adversarial

Berkat upaya para peneliti yang telah menemukan kelemahan ini, tindakan pencegahan telah dikembangkan untuk membantu meningkatkan ketahanan model machine learning.

Untuk serangan penghindaran seperti yang baru saja dijelaskan, para pakar telah mengembangkan metode yang disebut pelatihan adversarial. Pada dasarnya, prosesnya hanya melibatkan memasukkan, bersama data “bersih”, data yang telah diubah dengan cara yang mungkin dicoba oleh peretas, sehingga model belajar untuk memberi label dengan benar bahkan contoh-contoh adversarial ini. Mitigasi ini, meskipun efektif, dapat mahal dalam dua hal: 1) melibatkan lebih banyak komputasi, dan 2) model mungkin menjadi sedikit kurang akurat secara keseluruhan setelah terpapar data yang terganggu. “[M]elatih model yang kuat mungkin tidak hanya lebih memakan sumber daya, tetapi juga menyebabkan pengurangan akurasi standar,” tulis para peneliti MIT penulis makalah 2018 berjudul “Robustness May Be at Odds with Accuracy.”⁹

Secara umum, prinsip-prinsip keamanan siber yang baik berlaku pada ranah machine learning. Pertahanan operasional termasuk alat deteksi anomali dan deteksi intrusi yang memeriksa pola yang tidak biasa dalam data atau lalu lintas yang mungkin mengindikasikan peretas mencoba mencampuri sistem ML, apa pun tahap siklusnya. Selain itu, red team, atau sengaja mengekspos model ke serangan terkontrol dari para profesional keamanan siber yang mensimulasikan serangan musuh, adalah cara yang efektif untuk sistem uji stres.

Di bidang yang bergerak secepat AI, lanskap risiko terus berubah. Organisasi seperti Institut Standar dan Teknologi Nasional adalah sumber untuk perkembangan terbaru. Laporan¹⁰ NIST 2024 tentang manajemen risiko AI menyentuh machine learning permusuhan, sementara juga mencakup pendekatan terhadap risiko AI secara lebih luas—termasuk tema seperti bias, halusinasi, dan privasi. Mengadopsi kerangka kerja tata kelola AI juga dapat lebih membantu mengamankan model terhadap musuh.

Laporan Biaya Pelanggaran Data 2025

Biaya pelanggaran data telah mencapai rekor tertingginya. Dapatkan insight terkini tentang ancaman keamanan siber dan dampak keuangannya terhadap organisasi.

Sumber daya

IBM® X-Force threat intelligence index 2025

Dapatkan insight untuk mempersiapkan dan merespons serangan siber dengan lebih cepat dan efektif dengan IBM X-Force threat intelligence index.

IDC MarketScape: Penilaian Vendor Layanan Konsultasi Keamanan Siber 2025

Lihat mengapa IBM dinobatkan sebagai Pemain Utama dan dapatkan insight untuk memilih Vendor Layanan Konsultasi Keamanan Siber yang paling sesuai dengan kebutuhan organisasi Anda.

Keamanan siber di era AI generatif

Pelajari bagaimana lingkungan keamanan saat ini berubah dan cara menavigasi tantangan dan memanfaatkan ketahanan AI generatif.

Laporan lingkungan ancaman IBM® X-Force Cloud 2024

Pahami ancaman terbaru dan perkuat pertahanan cloud Anda dengan Laporan lingkungan ancaman IBM X-Force Cloud.

Apa yang dimaksud dengan keamanan data?

Ketahui bagaimana keamanan data membantu melindungi informasi digital dari akses yang tidak sah, kerusakan, atau pencurian di seluruh siklus hidupnya.

Apa yang dimaksud dengan serangan siber?

Serangan siber adalah upaya yang disengaja untuk mencuri, mengekspos, mengubah, melumpuhkan, atau menghancurkan data, aplikasi, atau aset lainnya melalui akses yang tidak sah.

Solusi terkait

Solusi keamanan perusahaan

Transformasikan program keamanan Anda dengan solusi dari penyedia keamanan perusahaan terbesar

Jelajahi solusi keamanan siber

Layanan keamanan siber

Transformasikan bisnis Anda dan kelola risiko dengan konsultasi keamanan siber, cloud, dan layanan keamanan terkelola.

Jelajahi layanan keamanan siber

Keamanan siber dengan kecerdasan buatan (AI)

Tingkatkan kecepatan, akurasi, dan produktivitas tim keamanan dengan solusi keamanan siber yang didukung AI.

Jelajahi keamanan siber AI

Ambil langkah selanjutnya

Baik Anda memerlukan solusi keamanan data, manajemen titik akhir, maupun solusi manajemen identitas dan akses (IAM), pakar kami siap untuk bekerja bersama Anda demi mencapai postur keamanan yang kuat. Mentransformasi bisnis Anda dan mengelola risiko bersama pemimpin industri global dalam konsultasi keamanan siber, cloud, dan layanan keamanan terkelola.

Jelajahi solusi keamanan siber

Temukan layanan keamanan siber

Catatan kaki

“Robust Physical-World Attacks on Deep Learning Visual Classification,” CVPR 2018, 10 April 2018
“Explaining and Harnessing Adversarial Examples,” ICLR 2015, 20 Maret 2015
“Defending malware detection models against evasion based adversarial attacks,” Pattern Recognition Letters, Desember 2022
"What Is Nightshade? ", Situs web Nightshade yang dihosting di uchicago.edu, Mei 2024
“Model Inversion Attacks that Exploit Confidence Information and Basic Countermeasures,” CCS’15, Oktober 2015
“Model Leeching: An Extraction Attack Targeting LLMS,” arXiv, 19 September 2023
“On the Convergence and Robustness of Adversarial Training,” Prosiding Konferensi Internasional ke-36 tentang Machine Learning, 2019
“Towards Evaluating the Robustness of Neural Networks,” arXiv, Agustus 2016
“Robustness May Be at Odds with Accuracy,” arXiv, 9 September 2019
“Artificial Intelligence Risk Management Framework: Generative Artificial Intelligence Profile,” NIST, Juli 2024