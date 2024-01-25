Seperti yang sering diungkapkan, model apa pun pasti punya kekurangan. Hal ini berlaku di bidang statistik, sains, dan AI. Model yang dibuat dengan kurangnya keahlian domain dapat menyebabkan output yang salah.

Saat ini, sekelompok kecil orang homogen menentukan data apa yang akan digunakan untuk melatih model AI generatif, yang diambil dari sumber yang terlalu mewakili bahasa Inggris. “Untuk sebagian besar dari lebih dari 6.000 bahasa di dunia, data teks yang tersedia tidak cukup untuk melatih model dasar” (dari “On the Opportunities and Risks of Foundation Model,” Bommasani dkk., 2022).

Selain itu, model itu sendiri dibuat dari arsitektur terbatas: “Hampir semua model NLP canggih sekarang diadaptasi dari salah satu dari beberapa model dasar, seperti BERT, Roberta, BART, T5, dll. Walaupun homogenisasi ini memberikan leverage yang sangat besar (peningkatan pada model fondasi langsung menguntungkan seluruh NLP), hal tersebut juga dapat menjadi titik lemah; seluruh sistem AI bisa mewarisi bias serupa dari sedikit model dasar (Bommasani dkk.)”

Agar AI generatif lebih mencerminkan beragam komunitas yang dilayaninya, variasi data manusia yang jauh lebih luas harus direpresentasikan dalam model.

Mengevaluasi akurasi model berjalan seiring dengan mengevaluasi bias. Kita harus bertanya, apa maksud dari model dan untuk siapa model ini dioptimalkan? Pertimbangkan, misalnya, siapa yang paling mendapat manfaat dari algoritma rekomendasi konten dan algoritma mesin pencari. Pemangku kepentingan mungkin memiliki kepentingan dan tujuan yang sangat berbeda. Algoritma dan model memerlukan target atau proxy untuk kesalahan Bayes: kesalahan minimum yang harus ditingkatkan oleh model. Proksi ini sering kali seseorang, seperti pakar materi pelajaran dengan keahlian domain.