Kebocoran data adalah jebakan umum dalam melatih machine learning untuk pemodelan prediktif. Sebuah studi National Library of Medicine1 menemukan bahwa di 17 bidang ilmiah yang berbeda di mana metode machine learning telah diterapkan, setidaknya 294 makalah ilmiah dipengaruhi oleh kebocoran data, yang menyebabkan performance yang terlalu optimis.
Sebuah studi Yale2 menemukan bahwa kebocoran data dapat meningkatkan atau menurunkan metrik kinerja model berbasis neuroimaging, tergantung pada apakah informasi yang bocor menimbulkan derau atau menciptakan pola yang tidak realistis. Model-model ini digunakan untuk mendiagnosis penyakit guna mengidentifikasi pengobatan dan membantu para ahli saraf untuk lebih memahami hubungan antara otak dan tubuh.
Kebocoran data dalam model machine learning dapat memiliki berbagai dampak di berbagai bidang dan jenis data, berikut ini adalah yang paling umum:
Generalisasi yang buruk untuk data baru: Ketika model dilatih dengan informasi yang tidak mewakili dunia nyata, model akan kesulitan untuk menggeneralisasi data yang tidak terlihat. Prediksi pada data baru mungkin tidak akurat dan tidak dapat diandalkan.
Pengambilan keputusan yang bias: Bias dalam data yang bocor berisiko miring perilaku model, menghasilkan keputusan yang tidak adil dan terpisah dari skenario dunia nyata.
Insight dan temuan yang tidak dapat diandalkan: Kebocoran data membahayakan keandalan insight yang berasal dari model yang mengarahkan pengguna untuk tidak mempercayai hasil.
Metrik kinerja: Kebocoran dalam model machine learning sering menghasilkan model yang salah menunjukkan akurasi dan presisi tinggi.
Pemborosan sumber daya: Menemukan dan memperbaiki kebocoran data setelah model dilatih memakan waktu dan biaya. Memperbaiki kebocoran data memerlukan pelatihan ulang model dari awal, yang secara komputasi mahal, dan mengerjakan ulang seluruh pipeline model, mulai dari prapemrosesan data hingga pelatihan ulang, yang dapat menjadi sumber daya yang intensif dalam hal tenaga manusia dan biaya komputasi.
Kehilangan kepercayaan: Model yang tidak dapat diandalkan pada akhirnya menyebabkan ketidakpercayaan terhadap tim ilmu data dan proses analisis secara keseluruhan.
Risiko hukum dan kepatuhan: Kebocoran data dalam analisis prediktif dapat menyebabkan risiko hukum dan peraturan. Jika informasi sensitif disalahgunakan, hal itu dapat mengakibatkan penalti dan kerusakan reputasi.