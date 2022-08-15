Dalam upaya menyempurnakan model, data scientist terkadang tidak menyadari bahwa mereka menanamkan bias manusia ke dalam model tersebut. Seringkali bias merayap masuk melalui data pelatihan dan kemudian diperkuat dan disematkan dalam model. Apabila model semacam itu digunakan di lingkungan produksi, bias di dalamnya dapat memicu dampak serius, seperti prediksi skor kredit yang salah atau evaluasi kesehatan yang keliru. Di seluruh industri, aturan terkait fairness dan AI yang dapat dipercaya diberlakukan untuk menghindari penerapan model yang mengandung bias dalam proses produksi.
Untuk menjadi ilmuwan data yang bertanggung jawab, ada dua pertimbangan utama saat membangun alur kerja model:
Mendeteksi dan mendefinisikan bias dan ketidakadilan tidaklah mudah. Untuk membantu ilmuwan data mencerminkan dan mengidentifikasi kemungkinan masalah etika, proses standar untuk penambangan data harus mencakup 3 langkah tambahan: penilaian risiko data, penilaian risiko model, dan pemantauan produksi.
Langkah ini memungkinkan ilmuwan data untuk menilai apakah ada ketidakseimbangan antara kelompok orang yang berbeda terhadap variabel target. Sebagai contoh, kami masih mengamati bahwa pria diterima pada posisi manajerial lebih sering daripada wanita. Tetapi kita semua tahu bahwa itu ilegal untuk menawarkan pekerjaan berdasarkan jenis kelamin, jadi untuk menyeimbangkan model Anda dapat berpendapat bahwa gender seharusnya tidak penting dan dapat dihapus. Tapi, apa lagi yang bisa Anda pengaruhi dengan menghilangkan gender? Sebelum bertindak langkah ini harus diperiksa dengan pakar yang tepat untuk menentukan apakah pemeriksaan saat ini cukup untuk mengurangi potensi bias dalam model.
Tujuan menyeimbangkan data adalah untuk meniru distribusi data yang digunakan dalam produksi—ini untuk memastikan data pelatihan sedekat mungkin dengan data yang digunakan secara real time di lingkungan produksi. Jadi, sementara reaksi awal adalah menjatuhkan variabel bias, pendekatan ini tidak mungkin menyelesaikan masalah. Seringkali variabel berkorelasi dan bias dapat menyelinap masuk melalui salah satu bidang yang berkorelasi, hidup sebagai pengganti proxy dalam model. Oleh karena itu, semua korelasi harus disaring sebelum menghilangkan bias untuk memastikannya benar-benar dihilangkan.
Prediksi model memiliki implikasi langsung dan serius—pada kenyataannya, hal ini dapat mengubah hidup seseorang sepenuhnya. Jika hasil prediksi model menyatakan skor kredit Anda rendah, dampaknya dapat sangat luas, Anda mungkin menghadapi hambatan dalam memperoleh kredit, pinjaman, perumahan, maupun suku bunga yang masuk akal. Selain itu, jika Anda tidak mendapatkan alasan di balik skor rendah, tidak ada peluang untuk perbaikan.
Tugas ilmuwan data adalah memastikan bahwa model memberikan hasil yang paling adil untuk semua. Jika data bias, model akan belajar dari bias itu dan membuat prediksi yang tidak adil. Meskipun model kotak hitam memberikan hasil yang kuat, kurangnya kemampuan untuk menjelaskan dan menafsirkan membuat kita tidak bisa menilai apakah ada indikasi bias atau risiko lain terhadap kewajaran. Oleh karena itu, diperlukan penyelaman mendalam ke dalam hasil model. Ilmuwan data perlu menilai pertukaran interpretabilitas versus kinerja model dan memilih model yang paling memenuhi kedua persyaratan.
Setelah model dikembangkan oleh ilmuwan data, model ini sering diserahkan kepada tim MLOPS. Ketika data model baru dimasukkan ke dalam produksi, itu dapat membawa kemungkinan bias baru atau meningkatkan bias yang sebelumnya diabaikan tanpa pemantauan yang tepat. Data produksi dapat menyebabkan penyimpangan dalam kinerja atau konsistensi, dan menanamkan bias ke dalam model dan data. Sangat penting untuk memantau model dengan memperkenalkan peringatan yang tepat yang menunjukkan penurunan kinerja model dan mekanisme untuk memutuskan kapan harus menghentikan model yang tidak lagi cocok untuk digunakan menggunakan alat seperti IBM® Watson Studio. Sekali lagi, kualitas data harus dilacak dengan membandingkan distribusi data produksi dengan data yang digunakan untuk melatih model.
Ilmu data yang bertanggung jawab berarti memikirkan model di luar kode dan kinerja, dan sangat dipengaruhi oleh data yang Anda gunakan dan seberapa dapat dipercaya. Pada akhirnya, mitigasi bias adalah proses yang rumit, tetapi penting yang membantu memastikan bahwa model mengikuti proses manusia yang benar. Bukan berarti kita harus menambah pekerjaan baru, namun kita perlu mengevaluasi ulang dan menata kembali praktik yang sudah kita lakukan sebagai ilmuwan data agar tetap bertanggung jawab.
