04 Oktober 2024
Ā
Bias data terjadi ketika bias yang ada dalam kumpulan data pelatihan dan fine-tuning dari model AI kecerdasan buatan berdampak buruk pada perilaku model.
Model AI adalah program yang telah dilatih pada kumpulan data untuk mengenali pola tertentu atau membuat keputusan tertentu. Model ini menerapkan algoritma yang berbeda kepada input data yang relevan untuk mencapai tugas atau hasil yang telah diprogram untuknya.
Melatih model AI dengan data yang memiliki bias, seperti bias historis atau representasi, dapat menyebabkan hasil yang bias dan tidak benar yang mungkin mencerminkan secara tidak adil atau mendiskriminasi kelompok atau individu tertentu. Dampak ini mengurangi kepercayaan pada AI dan organisasi yang menggunakan AI. Hal ini juga dapat menyebabkan penalti hukum dan peraturan bagi bisnis.
Bias data merupakan pertimbangan penting bagi industri berisiko tinggi, seperti layanan kesehatan, sumber daya manusia, dan keuangan, yang semakin banyak menggunakan AI untuk membantu menginformasikan pengambilan keputusan.Ā Organisasi dapat mengurangi bias data dengan memahami berbagai jenis bias data dan bagaimana hal itu terjadi, serta mengidentifikasi, mengurangi, dan mengelola bias-bias ini di seluruh siklus hidup AI.
Bias data dapat menyebabkan sistem AI yang tidak adil, tidak akurat, dan tidak dapat diandalkan yang mengakibatkan konsekuensi serius bagi individu, bisnis, dan masyarakat. Beberapa risiko bias data meliputi:
Bias data dalam sistem AI dapat mendukung bias sosial yang sudah ada, yang mengarah pada perlakuan yang tidak adil berdasarkan karakteristik seperti jenis kelamin, usia, ras, atau etnis. Kelompok yang terpinggirkan mungkin kurang terwakili atau tidak dimasukkan dalam data, sehingga menghasilkan keputusan yang gagal memenuhi kebutuhan populasi yang sebenarnya.
Misalnya, algoritma perekrutan yang terutama dilatih pada data dari tenaga kerja pria yang homogen mungkin lebih mengutamakan kandidat laki-laki dan merugikan pelamar wanita yang memenuhi syarat, mendukung ketidaksetaraan gender di tempat kerja.
Model AI yang dilatih pada data miring dapat memberikan hasil yang salah, yang dapat menyebabkan organisasi membuat keputusan yang buruk atau mengusulkan solusi yang tidak efektif. Misalnya, bisnis yang menggunakan analisis prediktif yang bias mungkin salah menafsirkan tren pasar, mengakibatkan peluncuran produk yang buruk atau salah mengalokasikan sumber daya.
Bias data dapat menempatkan organisasi pada risiko pengawasan peraturan, ketidakpatuhan hukum, dan denda besar. Contohnya, sesuai dengan Undang-Undang AI UE, ketidakpatuhan terhadap aturan praktik AI yang dilarang dapat menyebabkan denda hingga 35.000.000 EUR atau 7% dari omset tahunan global, mana saja yang lebih tinggi.
Organisasi yang melanggar hukum lokal dan regional mungkin juga melihat penurunan reputasi dan kepercayaan pelanggan. Pertimbangkan perusahaan retail yang ditemukan bersalah melakukan diskriminasi karena menggunakan model penetapan harga yang didukung AI yang membebankan harga lebih tinggi kepada kelompok demografis tertentu. Situasi ini dapat mengakibatkan krisis hubungan masyarakat yang merugikan citra merek perusahaan dan loyalitas pelanggan.
Bias data dapat mengurangi kepercayaan pada sistem AI. Contoh yang parah atau berulang dari keputusan yang didorong oleh AI yang bias atau tidak akurat dapat memacu individu dan komunitas untuk mempertanyakan integritas organisasi yang menerapkan AI. Orang mungkin juga menjadi semakin skeptis tentang keandalan dan keadilan AI secara umum, yang mengarah pada keengganan yang lebih luas untuk menerima teknologi ini.
Sistem AI yang menggunakan hasil yang bias sebagai data input untuk pengambilan keputusan menciptakan siklus masukan berulang yang juga dapat memperkuat bias dari waktu ke waktu. Siklus ini, di mana algoritma terus belajar dan menyebarkan pola bias yang sama, menyebabkan hasil yang makin menyimpang.
Misalnya, diskriminasi historis seperti redlining, yaitu penolakan layanan keuangan untuk orang-orang berdasarkan ras, dapat tercermin dalam data pelatihan untuk model AI yang ditugaskan untuk mengambil keputusan pinjaman bank. Saat sistem AI memproses aplikasi menggunakan data ini, sistem tersebut dapat secara tidak adil merugikan individu yang memiliki karakteristik sosial ekonomi yang sama dengan korban redlining di tahun-tahun sebelumnya. Data dari penolakan pinjaman yang lebih baru dapat menginformasikan pengambilan keputusan AI di masa depan, yang mengarah ke siklus di mana anggota kelompok yang kurang terwakili terus menerima lebih sedikit peluang kredit.
Bias data, bias AI, dan bias algoritmik semuanya dapat menghasilkan hasil yang terdistorsi dan hasil yang berpotensi berbahaya, tetapi ada perbedaan halus di antara istilah-istilah ini.
Bias AI, juga disebut bias machine learning, adalah istilah umum untuk berbagai jenis bias yang terkait dengan sistem kecerdasan buatan. Ini mengacu pada terjadinyaĀ hasil yang biasĀ karena bias manusia yang membelokkan data pelatihan atau algoritma AI awal.
Bias algoritmik adalah bagian dari bias AI yang terjadi ketika kesalahan sistematis dalam algoritma machine learning memberikan hasil yang tidak adil atau diskriminatif. Bias algoritmik tidak disebabkan oleh algoritma itu sendiri, tetapi oleh cara pengembang mengumpulkan dan mengodekan data pelatihan.
Bias data juga termasuk dalam payung bias AI dan dapat menjadi salah satu penyebab bias algoritmik. Bias data secara khusus mengacu pada sifat miring atau tidak representatif dari data yang digunakan untuk melatih model AI.
Memahami dan mengatasi berbagai jenis bias dapat membantu menciptakan sistem AI yang akurat dan dapat dipercaya. Beberapa jenis bias data yang umum meliputi:
Ketika orang memproses informasi dan membuat penilaian, mereka pasti dipengaruhi oleh pengalaman dan preferensi mereka. Akibatnya, orang mungkin akan membangun bias ini ke dalam sistem AI melalui pemilihan data atau bagaimana data ditimbang. Bias kognitif dapat menyebabkan kesalahan sistematis, seperti lebih memilih kumpulan data dari orang Amerika daripada mengambil sampel dari berbagai populasi di seluruh dunia.
Bias otomatisasi terjadi ketika pengguna terlalu mengandalkan teknologi otomatisasi, yang mengarah pada penerimaan hasil mereka yang tidak kritis, yang dapat melanggengkan dan memperkuat bias data yang ada. Sebagai contoh, dalam bidang kesehatan, seorang dokter mungkin sangat bergantung pada alat diagnostik AI untuk menyarankan rencana perawatan bagi pasien. Dengan tidak memverifikasi hasil terhadap pengalaman klinis mereka sendiri, dokter berpotensi salah mendiagnosis pasien jika keputusan alat berasal dari data yang bias.
Bias konfirmasi terjadi ketika data dimasukkan secara selektif untuk mengkonfirmasi keyakinan atau hipotesis yang sudah ada sebelumnya. Sebagai contoh, bias konfirmasi terjadi dalam pemolisian prediktif ketika penegak hukum memfokuskan pengumpulan data pada lingkungan dengan tingkat kejahatan yang tinggi secara historis. Hasil ini mengakibatkan pemolisian yang berlebihan terhadap lingkungan ini, karena penyertaan data yang selektif yang mendukung asumsi yang ada tentang daerah tersebut.
Bias pengecualian terjadi ketika data penting tidak disertakan dalam kumpulan data. Dalam prediksi ekonomi, pengecualian sistematis data dari daerah berpenghasilan rendah menghasilkan kumpulan data yang secara akurat mewakili populasi, yang mengarah ke prakiraan ekonomi yang miring ke daerah yang lebih kaya.
Bias historis, juga dikenal sebagai bias temporal, terjadi ketika data mencerminkan ketidaksetaraan atau bias historis yang ada selama pengumpulan data, yang berlawanan dengan konteks saat ini. Contoh bias data dalam kategori ini termasuk sistem perekrutan AI yang dilatih pada data pekerjaan historis. Dalam kumpulan data ini, orang kulit berwarna mungkin kurang terwakili dalam pekerjaan tingkat tinggi, dan model ini dapat mendukung ketidaksetaraan.
Bias implisit terjadi ketika asumsi orang berdasarkan pengalaman pribadi, bukan data yang lebih umum, dimasukkan ke dalam pembuatan atau pengujian ML. Sebagai contoh, sistem AI yang dilatih untuk mengevaluasi pelamar kerja mungkin akan memprioritaskan resume dengan bahasa yang dikodekan secara maskulin, yang mencerminkan bias bawah sadar pengembang, meskipun jenis kelamin bukanlah faktor eksplisit dalam model tersebut.
Bias pengukuran dapat terjadi ketika akurasi atau kualitas data berbeda di seluruh kelompok atau ketika variabel-variabel utama studi diukur atau diklasifikasikan secara tidak akurat. Misalnya, model penerimaan mahasiswa baru yang menggunakan IPK tinggi sebagai faktor utama penerimaan tidak mempertimbangkan bahwa nilai yang lebih tinggi mungkin lebih mudah dicapai di sekolah tertentu daripada di sekolah lain. Seorang siswa dengan IPK yang lebih rendah tetapi beban mata kuliah yang lebih menantang di satu sekolah mungkin merupakan kandidat yang lebih cakap daripada siswa dengan IPK yang lebih tinggi tetapi beban mata kuliah yang kurang menantang di tempat lain. Mengingat penekanannya pada IPK, model mungkin tidak memperhitungkan kemungkinan ini ke dalam proses pengambilan keputusannya.
Bias pelaporan terjadi ketika frekuensi kejadian atau hasil dalam kumpulan data tidak mewakili frekuensi yang sebenarnya. Bias ini sering terjadi ketika manusia terlibat dalam pemilihan data, karena manusia lebih cenderung mendokumentasikan bukti yang tampaknya penting atau mudah diingat.
Misalnya, model analisis sentimen dilatih untuk memprediksi apakah produk di situs web e-commerce besar dinilai positif atau negatif. Sebagian besar ulasan produk serupa dalam set data pelatihan mencerminkan pendapat yang ekstrem karena orang cenderung tidak meninggalkan ulasan jika mereka tidak memiliki tanggapan yang kuat tentang produk tersebut, sehingga prediksi model menjadi kurang akurat.
Bias seleksi terjadi ketika kumpulan data yang digunakan untuk pelatihan tidak cukup representatif, tidak cukup besar, atau terlalu tidak lengkap untuk melatih sistem secara memadai. Sebagai contoh, melatih mobil otonom dengan data mengemudi di siang hari tidak dapat mewakili berbagai skenario mengemudi yang mungkin dihadapi kendaraan di dunia nyata.
Bias pengambilan sampel adalah jenis bias seleksi yang terjadi ketika data sampel dikumpulkan dengan cara di mana beberapa informasi lebih mungkin dimasukkan daripada informasi lainnya, tanpa pengacakan yang tepat. Sebagai contoh, jika sistem AI medis yang dirancang untuk memprediksi risiko penyakit jantung dilatih hanya berdasarkan data dari pasien pria paruh baya, sistem tersebut mungkin memberikan prediksi yang tidak akurat. Sistem ini terutama akan mempengaruhi wanita dan orang-orang dari kelompok usia lainnya.
Mitigasi bias dalam AI dimulai dengan tata kelola AI. Tata kelola AI mengacu pada aturan yang bekerja untuk memastikan bahwa alat dan sistem AI tetap aman dan etis. Praktik AI yang bertanggung jawab, yang menekankan transparansi, akuntabilitas, dan pertimbangan etis, dapat memandu organisasi dalam menavigasi kompleksitas mitigasi bias.
Untuk mengurangi bias data, organisasi harus menerapkan strategi dan praktik yang kuat yang bertujuan untuk mengidentifikasi, mengurangi, dan mengelola bias selama pengumpulan dan analisis data, seperti:
Representasi luas dalam sumber data membantu mengurangi bias. Proses pengumpulan data harus mencakup berbagai macam demografi, konteks, dan kondisi yang semuanya terwakili secara memadai. Sebagai contoh, jika data yang dikumpulkan untuk alat pengenal wajah sebagian besar mencakup gambar individu berkulit putih, model mungkin tidak dapat secara akurat mengenali atau membedakan wajah orang berkulit hitam.
Audit bias memungkinkan organisasi untuk secara teratur menilai data dan algoritme mereka terhadap potensi bias, meninjau hasil dan memeriksa sumber data untuk indikator perlakuan tidak adil di antara berbagai kelompok demografis. Pemantauan kinerja berkelanjutan di berbagai kelompok demografis membantu deteksi dan mengalamatkan perbedaan hasil, membantu memastikan bahwa setiap bias yang ada diidentifikasi dan dihapus pada waktu yang tepat.
Mendokumentasikan metode pengumpulan data dan bagaimana algoritma membuat keputusan meningkatkan transparansi, terutama mengenai bagaimana potensi bias diidentifikasi dan ditangani. Kebijakan data terbuka dapat memfasilitasi ulasan dan kritik eksternal, mempromosikan akuntabilitas dalam pengumpulan dan analisis data, yang penting untuk menumbuhkan kepercayaan pada sistem AI.
Menggunakan alat keadilan algoritmik dan kerangka kerja dapat membantu dalam mendeteksi dan mengurangi bias dalam model machine learning. AI Fairness 360, sebuah toolkit sumber terbuka yang dikembangkan oleh IBM, menyediakan berbagai metrik untuk mendeteksi bias dalam kumpulan data dan model machine learning, bersama dengan algoritme untuk mengurangi bias dan mempromosikan keadilan. Menerapkan metode statistik untuk mengevaluasi kewajaran prediksi di berbagai kelompok demografis dapat meningkatkan objektivitas.
Membina keragaman pada tim ilmu data dan analitik memperkenalkan berbagai perspektif dan dapat mengurangi risiko bias. Tim yang beragam lebih cenderung mengenali dan mengatasi potensi bias dalam kumpulan data dan algoritma karena mereka memanfaatkan pengalaman dan sudut pandang yang lebih luas. Misalnya, tim yang terdiri dari anggota dengan latar belakang ras, jenis kelamin, dan sosioekonomi yang berbeda dapat mengidentifikasi dengan lebih baik area-area di mana data mungkin salah menggambarkan atau mengabaikan kelompok orang tertentu.
Data sintetis adalah data yang dihasilkan secara artifisial yang dibuat melalui simulasi komputer atau algoritma untuk menggantikan titik data yang dikumpulkan dari peristiwa dunia nyata. Ilmuwan data sering kali menganggap data sintetis sebagai alternatif yang bermanfaat ketika data tidak tersedia dan karena data sintetis menawarkan lebih banyak perlindungan privasi data. Data sintetis mengurangi bias dengan memungkinkan pembuatan set data yang seimbang yang mencakup kelompok dan skenario yang kurang terwakili untuk membantu memastikan hasil model yang lebih adil.
Pelajari bagaimana UU AI UE akan berdampak pada bisnis, cara mempersiapkan diri, mengurangi risiko, dan menyeimbangkan antara regulasi dan inovasi.
Pelajari tentang tantangan baru AI generatif, perlunya mengatur model AI dan ML, serta langkah-langkah untuk membangun kerangka kerja AI yang tepercaya, transparan, dan dapat dijelaskan.
Baca tentang mendorong praktik etis dan patuh dengan portofolio produk AI untuk model AI generatif.
Dapatkan pemahaman yang lebih dalam tentang cara memastikan keadilan, mengelola drift, menjaga kualitas, dan meningkatkan kemampuan menjelaskan dengan watsonx.governance.
Kami menyurvei 2.000 organisasi tentang inisiatif AI mereka untuk mengetahui apa yang berhasil, apa yang tidak, dan cara agar Anda sukses menerapkannya.
Pelajari cara memilih model dasar AI yang paling sesuai untuk contoh penggunaan Anda.
Atur model AI generatif dari mana saja dan terapkan di cloud atau on premises dengan IBM watsonx.governance.
Persiapkan Undang-Undang AI UE dan membangun pendekatan tata kelola AI yang bertanggung jawab dengan bantuan IBM Consulting.
Menyederhanakan cara Anda mengelola risiko dan kepatuhan terhadap peraturan dengan platform GRC terpadu.