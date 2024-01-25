Kita semua ingin melihat nilai-nilai kemanusiaan ideal kita tercermin dalam teknologi kita. Kami berharap teknologi seperti kecerdasan buatan (AI) tidak berbohong kepada kami, tidak mendiskriminasi, dan aman bagi kami dan anak-anak kami untuk digunakan. Namun banyak pembuat AI saat ini menghadapi reaksi balik karena bias, ketidakakuratan, dan praktik data bermasalah yang terekspos dalam model mereka. Masalah-masalah ini membutuhkan lebih dari solusi teknis, algoritmik, atau berbasis AI. Pada kenyataannya, diperlukan pendekatan sosio-teknis yang holistik.
Semua model prediktif, termasuk AI, lebih akurat ketika mereka menggabungkan kecerdasan dan pengalaman manusia yang beragam. Ini bukan sekadar opini; hal ini memiliki validitas empiris. Pertimbangkan teorema prediksi keberagaman. Sederhananya, ketika keberagaman dalam suatu kelompok besar, kesalahan kerumunan itu kecil - mendukung konsep "kebijaksanaan orang banyak." Dalam sebuah penelitian yang berpengaruh, ditunjukkan bahwa kelompok-kelompok yang terdiri dari beragam pemecah masalah berkemampuan rendah dapat mengungguli kelompok-kelompok yang terdiri dari pemecah masalah berkemampuan tinggi(Hong & Page, 2004).
Dalam bahasa matematika: semakin luas varians Anda, semakin standar rata-rata Anda. Persamaannya terlihat seperti ini:
Di mana
c = prediksi rata-rata kerumunan
𝜽 = nilai aktual
si = prediksi ith individu
n = jumlah individu
Sebuah studi lebih lanjut memberikan lebih banyak perhitungan yang menyempurnakan definisi statistik dari kerumunan yang bijaksana, termasuk ketidaktahuan tentang prediksi anggota lain dan dimasukkannya mereka yang memiliki prediksi atau penilaian yang berbeda secara maksimal (berkorelasi negatif). Jadi, bukan hanya volume, tetapi keberagaman yang memperbaiki prediksi. Bagaimana insight ini memengaruhi evaluasi model AI?
Seperti yang sering diungkapkan, model apa pun pasti punya kekurangan. Hal ini berlaku di bidang statistik, sains, dan AI. Model yang dibuat dengan kurangnya keahlian domain dapat menyebabkan output yang salah.
Saat ini, sekelompok kecil orang homogen menentukan data apa yang akan digunakan untuk melatih model AI generatif, yang diambil dari sumber yang terlalu mewakili bahasa Inggris. “Untuk sebagian besar dari lebih dari 6.000 bahasa di dunia, data teks yang tersedia tidak cukup untuk melatih model dasar” (dari “On the Opportunities and Risks of Foundation Model,” Bommasani dkk., 2022).
Selain itu, model itu sendiri dibuat dari arsitektur terbatas: “Hampir semua model NLP canggih sekarang diadaptasi dari salah satu dari beberapa model dasar, seperti BERT, Roberta, BART, T5, dll. Walaupun homogenisasi ini memberikan leverage yang sangat besar (peningkatan pada model fondasi langsung menguntungkan seluruh NLP), hal tersebut juga dapat menjadi titik lemah; seluruh sistem AI bisa mewarisi bias serupa dari sedikit model dasar (Bommasani dkk.)”
Agar AI generatif lebih mencerminkan beragam komunitas yang dilayaninya, variasi data manusia yang jauh lebih luas harus direpresentasikan dalam model.
Mengevaluasi akurasi model berjalan seiring dengan mengevaluasi bias. Kita harus bertanya, apa maksud dari model dan untuk siapa model ini dioptimalkan? Pertimbangkan, misalnya, siapa yang paling mendapat manfaat dari algoritma rekomendasi konten dan algoritma mesin pencari. Pemangku kepentingan mungkin memiliki kepentingan dan tujuan yang sangat berbeda. Algoritma dan model memerlukan target atau proxy untuk kesalahan Bayes: kesalahan minimum yang harus ditingkatkan oleh model. Proksi ini sering kali seseorang, seperti pakar materi pelajaran dengan keahlian domain.
Peraturan dan rencana tindakan AI yang muncul semakin menggarisbawahi pentingnya formulir penilaian dampak algoritmik. Tujuan dari formulir ini adalah untuk menangkap informasi penting tentang model AI sehingga tim tata kelola dapat menilai dan mengatasi risiko mereka sebelum menerapkan. Pertanyaan umumnya meliputi:
Meskipun dirancang dengan niat baik, masalahnya adalah bahwa sebagian besar pemilik model AI tidak mengerti bagaimana mengevaluasi risiko untuk contoh penggunaan mereka. Sebuah refren umum mungkin, “Bagaimana model saya bisa tidak adil jika tidak mengumpulkan informasi identifikasi pribadi (PII)?” Akibatnya, formulir jarang diisi dengan perhatian yang diperlukan untuk sistem tata kelola untuk secara akurat menandai faktor risiko.
Dengan demikian, sifat sosio-teknis dari solusi pun digarisbawahi. Pemilik model—seorang individu—tidak bisa begitu saja diberi daftar kotak centang untuk mengevaluasi apakah contoh penggunaan mereka akan menyebabkan kerusakan. Sebaliknya, yang diperlukan adalah sekelompok orang dengan pengalaman dunia hidup yang sangat bervariasi berkumpul dalam komunitas yang menawarkan keamanan psikologis untuk melakukan percakapan sulit tentang dampak yang berbeda.
IBM® percaya dalam mengambil pendekatan “klien nol”, menerapkan rekomendasi dan sistem yang akan dibuat untuk kliennya sendiri di seluruh solusi konsultasi dan berbasis produk. Pendekatan ini meluas ke praktik etis, itulah sebabnya IBM menciptakan Pusat Keunggulan AI yang Dapat Dipercaya (COE).
Seperti dijelaskan di atas, keberagaman pengalaman dan keahlian sangat penting untuk mengevaluasi dampak AI dengan benar. Tetapi prospek berpartisipasi dalam pusat keunggulan bisa mengintimidasi di perusahaan yang penuh dengan inovator AI, pakar, dan insinyur terkemuka, sehingga menumbuhkan komunitas keamanan psikologis diperlukan. IBM® mengomunikasikan hal ini dengan jelas dengan mengatakan, “Tertarik dengan AI? Tertarik dengan etika AI? Anda dipersilakan untuk bergabung dalam diskusi ini.”
COE menawarkan pelatihan dalam etika AI kepada praktisi di setiap tingkatan. Baik pembelajaran sinkron (guru dan siswa dalam pengaturan kelas) dan program asinkron (mandiri) ditawarkan.
Tetapi pelatihan terapan COE yang memberi praktisi kami insight terdalam, karena mereka bekerja dengan tim global, beragam, multidisiplin pada proyek-proyek nyata untuk lebih memahami dampak berbeda. Mereka turut menggunakan kerangka design thinking yang biasa diterapkan oleh tim Design for AI IBM® baik di dalam organisasi maupun dalam kerja sama dengan klien, guna menilai potensi dampak tak disengaja dari model AI, dengan perhatian khusus pada kelompok yang sering terpinggirkan. (Lihat Wheel of Power and Privilege karya Sylvia Duckworth untuk contoh bagaimana sifat atau identitas pribadi dapat beririsan dan membuat seseorang lebih diistimewakan atau justru tersisihkan.) IBM® juga menyumbangkan banyak kerangka kerja ke komunitas sumber terbuka Design Ethically.
Di bawah ini adalah beberapa laporan yang telah dipublikasikan IBM® secara publik tentang proyek-proyek ini:
Alat tata kelola model AI yang terotomatisasi diperlukan untuk mendapatkan insight penting tentang bagaimana kinerja model AI Anda. Namun perhatikan, menangkap risiko jauh sebelum model Anda dikembangkan dan diproduksi adalah optimal. Dengan membentuk komunitas praktisi yang beragam dan multidisipliner yang menyediakan ruang aman bagi orang-orang untuk melakukan percakapan sulit tentang dampak yang berbeda, Anda dapat memulai perjalanan untuk mengoperasionalkan prinsip-prinsip Anda dan mengembangkan AI secara bertanggung jawab.
Dalam praktiknya, ketika Anda mempekerjakan praktisi AI, pertimbangkan bahwa lebih dari 70% upaya dalam membuat model adalah mengkurasi data yang tepat. Anda ingin merekrut orang yang tahu cara mengumpulkan data yang representatif dan juga diperoleh dengan persetujuan. Anda juga ingin orang-orang yang tahu bekerja sama dengan pakar domain untuk memastikan bahwa mereka memiliki pendekatan yang benar. Memastikan para praktisi ini memiliki kecerdasan emosional untuk mendekati tantangan kurasi AI secara bertanggung jawab dengan kerendahan hati dan kebijaksanaan adalah kuncinya. Kita perlu secara sadar memahami bagaimana dan kapan AI dapat memperburuk ketidaksetaraan, sekaligus meningkatkan kecerdasan manusia.
