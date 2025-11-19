Serangan privasi mengeksploitasi keanehan sistem AI untuk secara tidak langsung menyimpulkan atau mengekstrak informasi sensitif yang merupakan bagian dari kumpulan data pelatihan mereka. Dalam teori, model ML tidak dimaksudkan untuk “mengingat” data latihan mereka, namun mengekstrak pola yang berguna di seluruh kumpulan data dan tidak menyimpan data latihan mereka, seperti halnya hard drive. Namun, realitas “memori” AI sebenarnya lebih kompleks. Dalam praktiknya, para peneliti telah mengamati bahwa dalam beberapa hal, model tampaknya “mengingat” data pelatihan mereka. Secara khusus, sistem ML akan sering mengekspresikan tingkat kepercayaan yang lebih tinggi dalam prediksi mereka ketika prediksi tersebut berhubungan dengan titik data yang mereka lihat dalam pelatihan. (Meskipun chatbot konsumen seperti ChatGPT tidak menampilkan skor kepercayaan, nilai-nilai ini sering dapat diakses melalui API pengembang atau alat peneliti.)

Dalam metode serangan privasi yang dikenal sebagai inferensi keanggotaan, penyerang dapat menyimpulkan informasi sensitif tentang seseorang: misalnya, apakah mereka pernah menjadi pasien di fasilitas psikiatri. Selama penyerang memiliki beberapa data individu tertentu (mungkin bagan medis sebagian), penyerang dapat menanyai model yang diketahui telah dilatih pada kumpulan data sensitif (misalnya, catatan fasilitas psikiatri). Dengan mengamati skor kepercayaan yang diberikan oleh model, penyerang dapat menyimpulkan bahwa target mereka memang anggota kelompok yang digunakan untuk melatih model.

Serangan inversi model melangkah lebih jauh, pada dasarnya memungkinkan musuh untuk merekayasa balik data aktual yang melatih model. Penyerang dapat melakukan ini dengan menggunakan teknik brute force, secara berulang menggunakan skor kepercayaan yang dikembalikan model sebagai panduan tentang cara membentuk data acak dan berisik menjadi sesuatu yang benar-benar menyerupai data pelatihan nyata untuk model. Misalnya, pada tahun 2015, peneliti akademis mampu mengeksploitasi skor kepercayaan model pengenalan wajah untuk merekonstruksi gambar yang mendekati wajah asli yang digunakan untuk melatih model. Mereka melakukan ini dengan memulai dengan gambar noise murni, mengutak-atik gambar secara berulang dan menggunakan skor kepercayaan dari output model untuk memandu perubahan berikutnya.5