Apa itu Kebocoran Data dalam machine learning?

Penulis

IBM Writer

Gather

Apa itu kebocoran data dalam machine learning?

Kebocoran data dalam machine learning terjadi ketika model menggunakan informasi selama pelatihan yang tidak akan tersedia pada saat prediksi. Kebocoran menyebabkan model prediktif terlihat akurat sampai diterapkan dalam contoh penggunaannya; kemudian, hasilnya menjadi tidak akurat, yang mengarah pada pengambilan keputusan yang buruk dan insight yang salah.

Tujuan dari pemodelan prediktif adalah untuk membuat model machine learning yang dapat membuat prediksi akurat pada data masa depan sebenarnya, yang tidak tersedia selama pelatihan model. Untuk menghindari hasil yang tidak akurat, model tidak boleh dievaluasi pada data yang sama dengan yang dilatih. Jadi, ilmuwan data biasanya membagi data yang tersedia menjadi dua set: satu untuk melatih model dan yang lainnya untuk memvalidasi seberapa baik kinerja model pada data yang tidak terlihat.

Buletin industri

Tren AI terbaru, dipersembahkan oleh para pakar

Dapatkan kurasi insight tentang berita AI yang paling penting dan menarik. Berlangganan buletin Think mingguan. Lihat Pernyataan Privasi IBM.

Contoh dan jenis kebocoran data

Kebocoran data terjadi ketika data dari luar kumpulan data pelatihan digunakan untuk membuat model, tetapi data masa depan ini tidak akan tersedia ketika model digunakan untuk prediksi. Model ini akan berkinerja baik dalam pengujian dan validasi, tetapi ketika digunakan dalam produksi, itu menjadi sama sekali tidak akurat.

Ada dua jenis kebocoran: kebocoran target dan kontaminasi latihan-uji.

Kebocoran target: Model mencakup data yang tidak akan tersedia ketika model digunakan untuk membuat prediksi.

Menggunakan informasi yang tidak akan tersedia selama prediksi dunia nyata menyebabkan overfitting, ketika model berkinerja sangat baik pada data pelatihan dan validasi tetapi buruk dalam produksi.

Kontaminasi latihan-uji: Ketika data melatih dan validasi digunakan untuk membuat model, sering kali disebabkan oleh pemisahan atau prapemrosesan yang tidak tepat.

Contoh kebocoran target

Sebagai contoh, bayangkan sebuah model yang dibuat untuk memprediksi penipuan kartu kredit. Masalah ini menjadi perhatian dalam aplikasi perkiraan ketika model harus membuat prediksi masa depan yang dapat diandalkan berdasarkan data yang tidak lengkap. Kumpulan data mentah akan berisi informasi tentang pelanggan, jumlah transaksi, lokasi, apakah penipuan terdeteksi dan apakah tolak bayar diterima.

Dalam melatih model, kolom deteksi penipuan dan tagihan balik akan memasukkan nilai benar atau salah. Di dunia nyata, tagih balik biasanya dimulai setelah penipuan dideteksi, sehingga informasi ini tidak akan tersedia pada saat deteksi.

Melatih model dengan informasi ini mengajarkannya bahwa transaksi dengan tagih balik hampir selalu merupakan penipuan. Selama validasi, model akan menunjukkan akurasi yang tinggi karena, dalam pelatihan, hubungan antara penipuan dan tagih balik sangat erat. Namun, informasi tagih balik tidak akan tersedia dalam penerapan dan model akan berkinerja buruk dalam praktiknya.

Contoh kontaminasi latihan-uji

Bayangkan seorang ilmuwan data membangun model untuk memprediksi harga rumah berdasarkan fitur-fitur seperti ukuran rumah, jumlah kamar tidur, dan lingkungan sekitar. Standaridisasi fitur numerik (seperti ukuran rumah dan usia) sehingga semuanya memiliki skala yang sama adalah langkah preprocessing yang umum, yang sangat membantu untuk banyak algoritma machine learning

Namun, anggaplah ilmuwan data menerapkan standardisasi ke seluruh kumpulan data sebelum membaginya menjadi kumpulan data pelatihan dan pengujian. Dalam hal ini, model secara tidak langsung akan "melihat informasi" dari set uji selama pelatihan. Akibatnya, kinerja model pada data uji mungkin tampak meningkat secara artifisial karena informasi set uji digunakan pada langkah prapemrosesan. Hal ini memudahkan model untuk berkinerja baik pada set uji, tetapi berpotensi mengurangi kemampuannya untuk menggeneralisasi data baru yang belum pernah ada sebelumnya.

Langkah-langkah prapemrosesan seperti penskalaan, imputasi, atau pemilihan fitur harus dipasang hanya pada data pelatihan dan kemudian diterapkan ke set validasi, daripada memasangnya pada seluruh kumpulan data sebelum pembagian. Salah menerapkan transformasi seperti penskalaan atau normalisasi dapat menyebabkan kontaminasi melatih-pengujian, terutama dalam Neural Networks. Ketika langkah-langkah prapemrosesan yang dieksekusi dengan tidak benar ini dilakukan di seluruh kumpulan data, itu menyebabkan prediksi yang bias dan kesan kinerja model yang tidak realistis.

Akademi AI

Manfaatkan AI untuk layanan pelanggan

Lihat bagaimana AI generatif dapat menyenangkan pelanggan dengan pengalaman yang lebih mulus dan meningkatkan produktivitas organisasi di tiga area utama ini: layanan mandiri, agen manusia, dan operasi pusat kontak.

Buka episode

Penyebab kebocoran data

Kebocoran data dapat menjadi kesalahan yang memakan waktu dan merugikan jutaan dolar, dan kebocoran dalam machine learning terjadi karena berbagai faktor. Beberapa penyebab umum adalah:

Penyertaan informasi masa depan: Ketika informasi yang tidak tersedia yang tidak akan tersedia pada saat prediksi dalam skenario dunia nyata digunakan.

Pemilihan fitur yang tidak tepat: Memilih fitur yang berkorelasi dengan target, tetapi tidak berhubungan secara kausal. Model ini belajar mengeksploitasi informasi yang tidak akan dapat diakses dalam prediksi dunia nyata.

Kontaminasi data eksternal: Menggabungkan kumpulan data eksternal dengan data pelatihan dapat menyebabkan prediksi yang bias atau tidak akurat, karena data eksternal dapat berisi informasi langsung atau tidak langsung tentang variabel target.

Kesalahan prapemrosesan data: Pemisahan data yang salah terjadi dengan penskalaan data sebelum membaginya menjadi set pelatihan dan validasi atau saat mengisi missing values dengan informasi dari kumpulan data. Ini bisa sangat bermasalah dalam model pembelajaran mendalam, di mana prapemrosesan ekstensif sering diperlukan, sehingga sangat penting untuk menghindari pencampuran pelatihan dan data uji.

Validasi silang yang salah: Ketika melakukan validasi silang pada kumpulan data dengan data yang bergantung pada waktu, jika titik data dari masa depan disertakan, model mendapatkan akses ke informasi yang seharusnya tidak dimilikinya, sehingga menghasilkan evaluasi yang terlalu optimis.

Normalisasi: Transformasi data, seperti penskalaan atau normalisasi fitur, jika diterapkan secara tidak tepat pada data pelatihan dan pengujian secara bersamaan, daripada diterapkan secara terpisah, dapat menyebabkan kebocoran data.

Kebocoran validasi dan perubahan proses: Mengubah cara validasi dilakukan dapat menyebabkan kebocoran dengan mengizinkan informasi baru masuk ke dalam set pelatihan. Menyesuaikan proses di tengah jalan dengan menjalankan kembali validasi silang atau memisahkan kembali data setelah mengubah model dapat secara tidak sengaja membocorkan informasi ke dalam proses pelatihan.

Dampak kebocoran data pada model machine learning

Kebocoran data adalah jebakan umum dalam melatih machine learning untuk pemodelan prediktif. Sebuah studi National Library of Medicine¹ menemukan bahwa di 17 bidang ilmiah yang berbeda di mana metode machine learning telah diterapkan, setidaknya 294 makalah ilmiah dipengaruhi oleh kebocoran data, yang menyebabkan performance yang terlalu optimis.

Sebuah studi Yale² menemukan bahwa kebocoran data dapat meningkatkan atau menurunkan metrik kinerja model berbasis neuroimaging, tergantung pada apakah informasi yang bocor menimbulkan derau atau menciptakan pola yang tidak realistis. Model-model ini digunakan untuk mendiagnosis penyakit guna mengidentifikasi pengobatan dan membantu para ahli saraf untuk lebih memahami hubungan antara otak dan tubuh.

Kebocoran data dalam model machine learning dapat memiliki berbagai dampak di berbagai bidang dan jenis data, berikut ini adalah yang paling umum:

Generalisasi yang buruk untuk data baru: Ketika model dilatih dengan informasi yang tidak mewakili dunia nyata, model akan kesulitan untuk menggeneralisasi data yang tidak terlihat. Prediksi pada data baru mungkin tidak akurat dan tidak dapat diandalkan.

Pengambilan keputusan yang bias: Bias dalam data yang bocor berisiko miring perilaku model, menghasilkan keputusan yang tidak adil dan terpisah dari skenario dunia nyata.

Insight dan temuan yang tidak dapat diandalkan: Kebocoran data membahayakan keandalan insight yang berasal dari model yang mengarahkan pengguna untuk tidak mempercayai hasil.

Metrik kinerja: Kebocoran dalam model machine learning sering menghasilkan model yang salah menunjukkan akurasi dan presisi tinggi.

Pemborosan sumber daya: Menemukan dan memperbaiki kebocoran data setelah model dilatih memakan waktu dan biaya. Memperbaiki kebocoran data memerlukan pelatihan ulang model dari awal, yang secara komputasi mahal, dan mengerjakan ulang seluruh pipeline model, mulai dari prapemrosesan data hingga pelatihan ulang, yang dapat menjadi sumber daya yang intensif dalam hal tenaga manusia dan biaya komputasi.

Kehilangan kepercayaan: Model yang tidak dapat diandalkan pada akhirnya menyebabkan ketidakpercayaan terhadap tim ilmu data dan proses analisis secara keseluruhan.

Risiko hukum dan kepatuhan: Kebocoran data dalam analisis prediktif dapat menyebabkan risiko hukum dan peraturan. Jika informasi sensitif disalahgunakan, hal itu dapat mengakibatkan penalti dan kerusakan reputasi.

Mendeteksi kebocoran data dalam pembelajaran mesin

Mendeteksi kebocoran data mengharuskan organisasi untuk menyadari bagaimana model disiapkan dan diproses; itu membutuhkan Strategi yang ketat untuk memvalidasi integritas model machine learning. Berikut adalah beberapa praktik terbaik yang perlu diingat terkait pembuatan model dan mendeteksi kebocoran data:

Mempersiapkan: Data harus dipisahkan dengan benar dan langkah-langkah preprocessing harus diterapkan hanya pada kumpulan data pelatihan. Ulasan semua fitur untuk membantu memastikan mereka tidak mewakili informasi masa depan atau tidak tersedia selama prediksi.

Menelusuri: Setelah model dilatih, selidiki pola yang mencurigakan yang mungkin mengindikasikan kebocoran. Tinjau fitur dan perilaku model untuk deteksi hubungan yang tidak realistis.

Menguji: Uji model terbatas dengan data dunia nyata. Pantau kinerja dalam skenario dunia nyata; jika kinerja turun secara signifikan, ini mungkin mengindikasikan bahwa kebocoran telah terjadi selama pelatihan.

Berikut adalah beberapa tanda merah umum untuk mendeteksi kebocoran:

Kinerja yang luar biasa tinggi: Jika sebuah model menunjukkan akurasi, presisi, atau recall yang jauh lebih tinggi daripada yang diharapkan, terutama pada data validasi, hal ini dapat mengindikasikan adanya kebocoran data.

Perbedaan antara kinerja pelatihan dan pengujian: Kesenjangan yang besar antara kinerja pada set pelatihan dan set pengujian merupakan tanda bahwa model mungkin mengalami overfitting karena kebocoran.

Hasil validasi silang yang tidak konsisten: Jika kinerja di seluruh lipatan validasi silang sangat bervariasi atau tampak luar biasa tinggi, itu mungkin karena kebocoran melatih-uji atau pemisahan yang tidak tepat.

Perilaku model yang tidak terduga: Jika model sangat bergantung pada fitur yang tidak masuk akal secara logika, hal itu mungkin mengindikasikan kebocoran.

Teknik evaluasi yang tepat

Meminimalkan kebocoran data dapat dilakukan dengan berbagai cara dan beberapa alat bantu digunakan untuk menjaga integritas model. Validasi silang, khususnya deret waktu atau k-fold bertingkat, membantu mengevaluasi model dengan benar dan menyoroti potensi kebocoran. Dalam LLM (model bahasa besar), validasi silang dan penanganan data yang ketat sangat penting untuk menghindari pelatihan model pada data yang mungkin ditemui nanti selama inferensi, yang akan merusak kemampuannya untuk merespons input baru. Menggunakan set pen ahan terpisah yang tidak tersentuh selama latihan akan menambah perlindungan terhadap kebocoran.

Tingkat kepentingan fitur dapat menunjukkan apakah model bergantung pada data yang tidak akan tersedia selama prediksi. Visualisasi data dan prediksi model dapat mengekspos pola atau anomali yang mengindikasikan kebocoran. Selain itu, pakar domain harus meneliti model untuk mengidentifikasi apakah model menggunakan data yang tidak realistis atau tidak tersedia, membantu mengungkap fitur yang bermasalah.

Mencegah kebocoran data dalam machine learning

Untuk mencegah kebocoran data, organisasi harus terlibat dalam penanganan data yang cermat dan evaluasi sistematis. Berikut adalah beberapa praktik penting:

prapemrosesan data: Untuk mencegah kebocoran informasi di antara set, terapkan langkah-langkah prapemrosesan seperti penskalaan atau memperhitungkan missing values secara terpisah untuk set pelatihan dan set uji. Lakukan prapemrosesan seperti penskalaan, pengodean, dan imputasi secara terpisah untuk set ujidan set pengujian—otomatiskan pipeline jika memungkinkan.

Pemisahan data yang tepat: Membagi set pelatihan dan pengujian dengan benar. Pemisahan melatih/ujian yang direncanakan dengan cermat melindungi informasi dari set ujian agar tidak bocor ke fase latihan. Untuk data yang bergantung pada waktu, pisahkan secara kronologis untuk mencegah data masa depan memasuki proses latihan. Untuk memeriksa kebocoran, pastikan set validasi yang terpisah dan berbeda yang tidak digunakan selama latihan, yang mewakili data dunia nyata.

Validasi silang: Gunakan validasi silang k-fold untuk menguji model pada beberapa subset data, yang membantu menangkap potensi kebocoran dan meningkatkan generalisasi.

Rekayasa fitur: Hindari membuat fitur yang memperkenalkan data masa depan. Tinjau fitur turunan untuk mengonfirmasi bahwa mereka hanya mencerminkan apa yang akan tersedia pada waktu prediksi. Menilai relevansi fitur secara teratur untuk memastikan bahwa fitur tersebut sesuai dan tidak memasukkan informasi yang tidak tersedia pada waktu prediksi.

Validasi berbasis waktu: Untuk data deret waktu, gunakan validasi berbasis waktu untuk meniru kinerja dunia nyata. Ini membantu memastikan bahwa data masa lalu digunakan untuk memprediksi hasil masa depan dan menghindari kebocoran data di masa depan. Tangani data deret waktu dengan hati-hati, menggunakan metode seperti validasi jendela bergulir atau validasi walk-forward untuk menghindari kebocoran dari data di masa mendatang selama pelatihan.

Evaluasi model reguler: Terus memantau kinerja selama pelatihan dan pengujian untuk deteksi perubahan tak terduga yang menunjukkan kebocoran.

Kebocoran data dalam pencegahan kehilangan data

Ada definisi lain dari kebocoran data yang tidak ada hubungannya dengan machine learning, melainkan mengacu pada paparan data yang tidak diinginkan dari perspektif keamanan data. Kebocoran data dalam dalam pencegahan kehilangan data (DLP) terjadi ketika informasi sensitif secara tidak sengaja terpapar ke pihak yang tidak berwenang. Sebagai contoh, server penyimpanan cloud yang tidak dikonfigurasi dengan benar dapat memungkinkan akses mudah ke informasi identifikasi pribadi(PII) dan rahasia dagang.

Vektor kebocoran data yang paling umum berasal dari kesalahan manusia seperti karyawan yang kehilangan laptop mereka atau berbagi informasi sensitif melalui platform email dan pesan. Peretas dapat menggunakan data yang terpapar untuk melakukan pencurian identitas, mencuri detail kartu kredit, atau menjual data di dark web.

Buka kekuatan AI + ML generatif

Pelajari cara menggabungkan AI generatif dan machine learning dengan percaya diri ke dalam bisnis Anda.

Apa itu kebocoran data dalam machine learning?

Penulis

Apa itu kebocoran data dalam machine learning?

Tren AI terbaru, dipersembahkan oleh para pakar

Terima kasih! Anda telah berlangganan.

Contoh dan jenis kebocoran data

Contoh kebocoran target

Contoh kontaminasi latihan-uji

Manfaatkan AI untuk layanan pelanggan

Penyebab kebocoran data

Dampak kebocoran data pada model machine learning

Mendeteksi kebocoran data dalam pembelajaran mesin

Teknik evaluasi yang tepat

Mencegah kebocoran data dalam machine learning

Kebocoran data dalam pencegahan kehilangan data

Sumber daya

Catatan kaki