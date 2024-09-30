Kebocoran data dapat menjadi kesalahan yang memakan waktu dan merugikan jutaan dolar, dan kebocoran dalam machine learning terjadi karena berbagai faktor. Beberapa penyebab umum adalah:

Penyertaan informasi masa depan: Ketika informasi yang tidak tersedia yang tidak akan tersedia pada saat prediksi dalam skenario dunia nyata digunakan.

Pemilihan fitur yang tidak tepat: Memilih fitur yang berkorelasi dengan target, tetapi tidak berhubungan secara kausal. Model ini belajar mengeksploitasi informasi yang tidak akan dapat diakses dalam prediksi dunia nyata.

Kontaminasi data eksternal: Menggabungkan kumpulan data eksternal dengan data pelatihan dapat menyebabkan prediksi yang bias atau tidak akurat, karena data eksternal dapat berisi informasi langsung atau tidak langsung tentang variabel target.

Kesalahan prapemrosesan data: Pemisahan data yang salah terjadi dengan penskalaan data sebelum membaginya menjadi set pelatihan dan validasi atau saat mengisi missing values dengan informasi dari kumpulan data. Ini bisa sangat bermasalah dalam model pembelajaran mendalam, di mana prapemrosesan ekstensif sering diperlukan, sehingga sangat penting untuk menghindari pencampuran pelatihan dan data uji.

Validasi silang yang salah: Ketika melakukan validasi silang pada kumpulan data dengan data yang bergantung pada waktu, jika titik data dari masa depan disertakan, model mendapatkan akses ke informasi yang seharusnya tidak dimilikinya, sehingga menghasilkan evaluasi yang terlalu optimis.

Normalisasi: Transformasi data, seperti penskalaan atau normalisasi fitur, jika diterapkan secara tidak tepat pada data pelatihan dan pengujian secara bersamaan, daripada diterapkan secara terpisah, dapat menyebabkan kebocoran data.

Kebocoran validasi dan perubahan proses: Mengubah cara validasi dilakukan dapat menyebabkan kebocoran dengan mengizinkan informasi baru masuk ke dalam set pelatihan. Menyesuaikan proses di tengah jalan dengan menjalankan kembali validasi silang atau memisahkan kembali data setelah mengubah model dapat secara tidak sengaja membocorkan informasi ke dalam proses pelatihan.