Panduan privasi data untuk AI dan machine learning

Orang yang mengamankan data digital di tablet dengan gembok dan ikon tanda centang.

Sementara privasi data secara umum telah lama menjadi perhatian, istilah “privasi data AI” mengakui bahwa teknologi kecerdasan buatan yang muncul membawa serta risiko baru dan masalah privasi.  

Selama pelatihan, sistem AI belajar dari kumpulan data yang luas. Kumpulan data Common Crawl yang banyak model gunakan untuk melatih berisi lebih dari 9,5 petabyte data.1 Banyak orang yang menggunakan AI setiap hari mungkin juga memberi makan data sensitif ke sistem, tidak sepenuhnya menyadari bahwa mereka mengikis privasi individu mereka. Dan seiring dengan penerapan AI ke era agen AI, jenis-jenis pelanggaran privasi baru menjadi mungkin terjadi jika tidak ada kontrol akses yang tepat atau tata kelola AI.

Lingkungan risiko yang telah berubah

Model AI tidak hanya memproses lebih banyak data; mereka juga menangani data secara berbeda dari sistem lama. Jika perangkat lunak tradisional secara tidak sengaja mengekspos informasi sensitif, seorang insinyur dapat masuk dan men-debug kode. Tetapi model AI (termasuk model bahasa besar seperti ChatGPT) tidak dikodekan sebanyak yang dibuat untuk berkembang melalui proses yang disebut machine learning. Pencipta mereka sendiri tidak tahu persis bagaimana mereka bekerja, membuat “debugging” menjadi tidak sepele, jika bukan tidak mungkin.

Output yang tidak disengaja adalah salah satu kategori kekhawatiran, tetapi organisasi juga perlu waspada terhadap serangan berbahaya yang disengaja. Peneliti telah menunjukkan bahwa alat AI mengandung jenis kerentanan baru yang dapat dieksploitasi oleh peretas pintar, bidang yang dikenal sebagai machine learning adversarial. 

Dalam beberapa tahun terakhir, misalnya, pakar keamanan siber telah menunjukkan bahwa dengan mengeksploitasi satu keanehan model AI—yaitu, bahwa output mereka diberi skor kepercayaan yang lebih tinggi saat menanggapi data yang telah mereka latih—aktor jahat dapat menyimpulkan apakah data tertentu ada dalam set pelatihan. Dalam skenario tertentu, kesimpulan seperti itu akan menjadi pelanggaran privasi besar. Misalnya, pertimbangkan model AI yang diketahui telah dilatih pada catatan perawatan kesehatan pribadi pasien positif HIV.

Dalam contoh terkenal lainnya, para peneliti lebih dari sekadar menyimpulkan apakah data ada dalam set pelatihan. Mereka menciptakan serangan algoritmik yang secara efektif dapat merekayasa balik data aktual yang digunakan untuk melatih model. Dengan mengeksploitasi aspek model AI yang dikenal sebagai "gradien", para peneliti dapat secara berulang menyempurnakan gambar yang dipenuhi noise menjadi gambar yang mendekati wajah sebenarnya yang telah digunakan untuk melatih model pengenalan wajah.2

Pertaruhan seputar perlindungan data tetap tinggi:Laporan Biaya Pelanggaran Data IBM tahun 2025 menetapkan bahwa biaya rata-rata pelanggaran tersebut adalah USD 4,4 juta. (Pelanggaran semacam itu juga memerlukan biaya yang sulit diukur dalam bentuk kerusakan kepercayaan publik terhadap merek seseorang.)

Sementara banyak dari pelanggaran data ini tidak melibatkan AI, semakin banyak yang melakukannya. Laporan Indeks AI 2025 Stanford menemukan bahwa jumlah insiden privasi dan keamanan AI melonjak 56,4% dalam setahun, dengan 233 kasus yang dilaporkan pada tahun 2024.3

Tren AI terbaru, dipersembahkan oleh para pakar

Dapatkan kurasi insight tentang berita AI yang paling penting dan menarik. Berlangganan buletin Think mingguan. Lihat Pernyataan Privasi IBM.

Terima kasih! Anda telah berlangganan.

Langganan Anda akan dikirimkan dalam bahasa Inggris. Anda akan menemukan tautan berhenti berlangganan di setiap buletin. Anda dapat mengelola langganan atau berhenti berlangganan di sini. Lihat Pernyataan Privasi IBM kami untuk informasi lebih lanjut.

Lingkungan peraturan yang terus berkembang

Pembuat kebijakan secara global telah menegaskan bahwa teknologi AI sama sekali tidak boleh dibebaskan dari tanggung jawab perlindungan privasi dasar. Peraturan Perlindungan Data Umum (GDPR) Uni Eropa, yang telah lama dianggap sebagai dasar untuk penanganan data pribadi (tidak peduli yurisdiksinya), berlaku untuk penggunaan sistem AI oleh perusahaan. Prinsip-prinsip GDPR meliputi minimalisasi data (mengumpulkan hanya data minimum yang diperlukan untuk suatu tujuan), transparansi (menginformasikan pengguna tentang bagaimana data digunakan) dan pembatasan penyimpanan (menyimpan data tidak lebih lama dari yang diperlukan).

Tahun 2024 adalah tahun yang penting di bidang ini, ketika beberapa regulator mulai menegakkan undang-undang privasi dalam kasus-kasus yang melibatkan aplikasi AI.

Misalnya, pada tahun 2024 Komisi Perlindungan Data Irlandia mendenda jaringan media sosial LinkedIn 310 juta euro karena pelanggaran privasi terkait AI. LinkedIn melacak perilaku tersirat pengguna tertentu, seperti berapa lama seseorang berlama-lama di posting. Situs tersebut kemudian menggunakan AI untuk memperoleh kesimpulan tentang pengguna ini (seperti apakah mereka secara aktif mencari pekerjaan baru, atau apakah mereka berisiko tinggi kelelahan). Profil ini kemudian digunakan untuk menargetkan iklan dan memperbarui sistem peringkat LinkedIn internal tertentu.

Komisi Irlandia akhirnya memutuskan bahwa meskipun ada kilau anonimisasi yang tampak, kesimpulan yang diturunkan dari AI ini pada akhirnya dapat dilacak kembali ke data individu yang dapat diidentifikasi, sehingga bertentangan dengan undang-undang privasi data. Pengadilan memutuskan bahwa LinkedIn tidak menghormati prinsip pembatasan tujuan GDPR, juga tidak mendapatkan persetujuan dari pengguna, sehingga melanggar privasi konsumen. Keputusan itu juga memaksa LinkedIn untuk menerapkan mekanisme persetujuan real-time dan merevisi default pengaturan personalisasi iklannya.4

Juga pada tahun 2024, tindakan penegakan hukum terhadap perusahaan pengenalan wajah Clearview AI menggambarkan prinsip bahwa data biometrik (seperti foto wajah) menimbulkan masalah privasi lebih lanjut, bahkan jika data tersebut secara teknis tersedia untuk umum (seperti di akun media sosial yang tidak aman).

Clearview telah mengambil 30 miliar gambar dari situs-situs seperti Facebook dan Instagram, dengan alasan bahwa perusahaan tidak memerlukan izin pengguna, karena foto-foto itu tersedia untuk umum secara online. Operasi pengumpulan data besar-besaran ini kemudian memicu pengembangan Clearview atas basis data pengenalan wajah berbasis AI.

Aparat penegak hukum Belanda mengecam pendekatan yang dilakukan Clearview. Otoritas Perlindungan Data Belanda akhirnya menjatuhkan denda sebesar 30,5 juta euro kepada perusahaan tersebut, dengan menganggap bahwa hak-hak individu warga negara Belanda yang termasuk dalam pengumpulan data Clearview telah dilanggar.5

Akhirnya, 2024 melihat Uni Eropa memperluas peraturan khusus AI dengan Undang-undang AI, yang mulai berlaku pada bulan Agustus tahun itu. Tanggung jawab undang-undang ini lebih luas daripada data terkait AI, meluas ke risiko pengembangan AI dan AI secara lebih luas). Namun, banyak ketentuannya menyentuh keamanan data, berbagi data, dan tata kelola data. Mengutip satu contoh yang menonjol: Undang-undang tersebut melarang sistem identifikasi biometrik yang menggunakan data dan model AI untuk mengidentifikasi individu berdasarkan atribut sensitif seperti ras, agama atau orientasi seksual.

Akademi AI

Kepercayaan, transparansi, dan tata kelola di AI

Kepercayaan pada AI dapat dikatakan merupakan topik paling penting dalam AI. Dan juga merupakan topik yang cukup rumit. Kami akan menguraikan isu-isu seperti halusinasi, bias, dan risiko, dan menunjukkan langkah-langkah untuk mengadopsi AI secara etis, bertanggung jawab, dan adil.

Prinsip untuk meminimalkan risiko privasi data AI

Di dalam lingkungan yang bergerak cepat ini, dengan kebutuhan untuk merangkul inovasi yang tampaknya tegang dengan kebutuhan untuk melakukannya secara bertanggung jawab, langkah apa yang mungkin diambil perusahaan untuk mencapai keseimbangan ini? Banyak buku yang bisa ditulis tentang topik ini, namun beberapa prinsip dapat mulai memandu perusahaan dalam menerapkan AI secara bertanggung jawab.

Mengatur seluruh siklus hidup data AI

Paradigma lama keamanan data tidak cukup ketika data diserap, diproses, dan diproduksi pada berbagai tahap siklus hidup model AI. Pengawas data, profesional kepatuhan, dan pemangku kepentingan lainnya harus memperhatikan integritas data pelatihan mereka, idealnya melakukan audit untuk risiko privasi. Satu perusahaan mengklaim telah menemukan 12.000 kunci API dan kata sandi dalam kumpulan data Common Crawl.6

Dan ketika menyangkut penggunaan big data yang dihasilkan oleh aktivitas perusahaan, standar seperti GDPR dan peraturan privasi terkait dapat menjadi panduan yang berguna.

Tetap unggul dalam perlombaan senjata

AI adalah bidang yang sangat aktif, dengan riset dan penemuan baru menetes hampir setiap hari. Penting bagi profesional keamanan siber untuk tetap mengikuti kemajuan teknologi terbaru, semakin baik untuk menambal kerentanan sebelum aktor ancaman mengeksploitasi mereka.

Perusahaan dapat menggunakan teknologi yang meningkatkan privasi seperti pembelajaran terfederasi, privasi diferensial, dan data sintetis. Seperti biasa, mereka dapat bersikeras pada kontrol akses yang kuat untuk mencegah akses tidak sah oleh manusia dan agen AI.

Pengambilan keputusan yang memperhatikan privasi

Seiring semakin banyak perusahaan menggunakan AI generatif dan teknologi AI lainnya untuk mengotomatisasi pengambilan keputusan, para eksekutif harus menerapkan perspektif privasi pada praktik-praktik yang didukung AI di mana gagasan tentang "data" mungkin menjadi kabur. Prinsip ini terbukti dalam putusan LinkedIn yang disebutkan sebelumnya: dalam beberapa keadaan, menarik kesimpulan berdasarkan pola data, meskipun mungkin tampak anonim, tetap dapat melanggar GDPR dan peraturan terkait lainnya.

Ketika AI tumbuh lebih kuat dalam menemukan pola, ia mungkin menumbangkan gagasan lama tentang apa yang merupakan data “anonim”. Satu studi 2019 di Nature menunjukkan bahwa dengan model generatif yang tepat, “99,98% orang Amerika dapat diidentifikasi ulang dengan benar dalam kumpulan data apa pun menggunakan 15 atribut demografis”. Temuan ini menunjukkan bahwa gagasan tentang apa yang merupakan data pribadi sedang mengalami transformasi.7

Penulis

David Zax

Staff Writer

IBM Think

Solusi terkait
IBM® watsonx.governance

Atur model AI generatif dari mana saja dan terapkan di cloud atau on premises dengan IBM watsonx.governance.

Temukan watsonx.governance
Solusi tata kelola AI

Lihat cara tata kelola AI dapat membantu meningkatkan kepercayaan karyawan Anda terhadap AI, mempercepat adopsi dan inovasi, serta meningkatkan kepercayaan pelanggan.

Temukan solusi tata kelola AI
Layanan konsultasi tata kelola AI

Bersiaplah menghadapi Undang-Undang AI UE dan bangun pendekatan tata kelola AI yang bertanggung jawab dengan bantuan IBM Consulting.

Temukan layanan tata kelola AI
Ambil langkah selanjutnya

Arahkan, kelola, dan pantau AI Anda dengan satu portofolio untuk mempercepat AI yang bertanggung jawab, transparan, dan dapat dijelaskan.

Jelajahi watsonx.governance Pesan demo langsung