Interpretabilitas AI membantu orang lebih memahami dan menjelaskan proses pengambilan keputusan yang mendukung model kecerdasan buatan (AI).
Model AI menggunakan jaringan input, algoritme, logika, ilmu data, dan proses lainnya yang kompleks untuk menghasilkan insight. Semakin kompleks modelnya, semakin sulit bagi manusia untuk memahami langkah-langkah yang mengarah pada insight, bahkan jika manusia itulah yang merancang dan membangunnya. Model yang dapat diinterpretasikan adalah model yang keputusannya dapat dengan mudah dipahami oleh pengguna.
Penggunaan AI terus berkembang. Sistem yang menggunakan model bahasa besar (LLM) menjadi bagian rutin dari kehidupan sehari-hari, mulai dari perangkat rumah pintar hingga deteksi penipuan kartu kredit hingga penggunaan ChatGPT secara luas, dan alat AI generatif lainnya. Karena model yang sangat kompleks (termasuk algoritme pembelajaran mendalam dan neural networks) menjadi lebih umum, kemampuan interpretasi AI menjadi lebih penting.
Selain itu, sistem AI dan algoritme machine learning semakin umum di layanan kesehatan, keuangan, dan industri lain yang melibatkan keputusan penting atau yang mengubah hidup. Dengan taruhan yang tinggi tersebut, masyarakat harus dapat mempercayai bahwa hasilnya adil dan dapat diandalkan. Kepercayaan itu bergantung pada pemahaman bagaimana sistem AI sampai pada prediksi dan membuat keputusan tersebut.
Model AI kotak putih memiliki input dan logika yang mudah dilihat dan dipahami. Misalnya, decision trees dasar, yang menunjukkan aliran yang jelas di antara setiap langkah, tidak sulit bagi rata-rata orang untuk menguraikannya. Model kotak putih cenderung menggunakan sistem pengambilan keputusan yang lebih linier yang mudah ditafsirkan, tetapi dapat menghasilkan kurangnya akurasi atau insight atau aplikasi yang kurang menarik.
Model AI kotak hitam lebih rumit dan menawarkan lebih sedikit transparansi pada cara kerja internalnya. Pengguna umumnya tidak tahu bagaimana model mencapai hasil. Model yang lebih kompleks cenderung lebih akurat dan tepat. Namun karena sulit atau mustahil untuk dipahami, hal itu disertai dengan kekhawatiran mengenai keandalan, kewajaran, bias, dan masalah etika lainnya. Membuat model kotak hitam lebih mudah ditafsirkan adalah salah satu cara membangun kepercayaan dalam penggunaannya.
Interpretabilitas AI berfokus pada pemahaman cara kerja bagian dalam model AI sementara penjelasan AI bertujuan untuk memberikan alasan dari hasil model.
Interpretabilitas adalah tentang transparansi, yang memungkinkan pengguna untuk memahami arsitektur model, fitur-fitur yang digunakan dan bagaimana model ini menggabungkannya untuk menghasilkan prediksi. Proses pengambilan keputusan model yang dapat ditafsirkan mudah dipahami oleh manusia. Interpretasi yang lebih besar membutuhkan pengungkapan yang lebih besar dari operasi internalnya.
Penjelasan adalah tentang verifikasi, atau memberikan alasan untuk hasil model, seringkali setelah model membuat prediksi. AI yang dapat dijelaskan (XAI - Explainable AI) digunakan untuk mengidentifikasi faktor-faktor yang menghasilkan output. Berbagai metode penjelasan dapat digunakan untuk menyajikan model dengan cara yang membuat proses yang kompleks dan ilmu data yang mendasarinya menjadi jelas bagi manusia dengan menggunakan bahasa alami.
Kemampuan interpretasi AI membantu men-debug model, mendeteksi bias, memastikan kepatuhan terhadap peraturan, dan membangun kepercayaan pengguna. Ini memungkinkan pengembang dan pengguna untuk melihat bagaimana model mereka memengaruhi pengguna dan bisnis dan mengembangkannya secara bertanggung jawab.
Interpretabilitas penting karena beberapa alasan:
Tanpa adanya interpretabilitas, pengguna tidak memiliki informasi yang jelas. Kurangnya akuntabilitas ini dapat mengikis kepercayaan publik terhadap teknologi. Jika pemangku kepentingan memahami sepenuhnya cara suatu model membuat keputusan, mereka akan cenderung menerima hasilnya dengan lebih baik. Interpretabilitas model memungkinkan adanya transparansi dan kejelasan, yang membuat pengguna merasa nyaman mengandalkannya dalam aplikasi dunia nyata seperti diagnosis medis atau keputusan keuangan.
Bias dalam data pelatihan dapat diperkuat oleh model AI. Hasil diskriminatif yang dihasilkan mendukung ketidaksetaraan dalam masyarakat dan juga mengekspos organisasi terhadap risiko hukum dan reputasi. Sistem AI yang dapat ditafsirkan dapat membantu deteksi apakah model membuat keputusan bias berdasarkan karakteristik yang dilindungi, seperti ras, usia, atau jenis kelamin. Interpretabilitas memungkinkan pengembang model untuk mengidentifikasi dan mengurangi pola diskriminatif, sehingga membantu memastikan hasil yang lebih adil.
Pembelajaran machine learning memungkinkan pencipta algoritma ML dan model ML untuk mengidentifikasi dan memperbaiki kesalahan. Tidak ada model machine learning yang 100% akurat sejak awal. Tanpa memahami alasan AI, debugging adalah proses yang tidak efisien dan berisiko. Dengan memahami cara kerja model ML, pengembang dan ilmuwan data dapat menentukan sumber prediksi yang salah dan mengoptimalkan kinerja model. Proses ini akan meningkatkan keandalan keseluruhan dan membantu pengoptimalan.
Beberapa peraturan, seperti Equal Credit Opportunity Act (ECOA) Amerika Serikat atau Peraturan Perlindungan Data Umum (GDPR) Uni Eropa, mengharuskan keputusan yang dibuat oleh sistem otomatis menjadi transparan dan dapat dijelaskan. Dan semakin banyak peraturan khusus AI, termasuk Undang-Undang AI Uni Eropa, menetapkan standar untuk pengembangan dan penggunaan AI. Model AI yang dapat diinterpretasikan dapat memberikan penjelasan yang jelas untuk keputusan mereka, membantu memenuhi persyaratan peraturan ini. Interpretabilitas juga dapat membantu masalah audit, tanggung jawab dan perlindungan privasi data.
Tanpa interpretabilitas, pengembang dan peneliti mungkin kesulitan menerjemahkan insight AI menjadi hasil dapat ditindaklanjuti atau memajukan teknologi dengan perubahan. Interpretabilitas membuatnya lebih mudah untuk mentransfer pengetahuan tentang dasar-dasar model dan keputusan di antara para pemangku kepentingan dan menggunakan pengetahuannya untuk menginformasikan pengembangan model lainnya.
Peneliti dari Stanford University, Nigam Shah, mengidentifikasi tiga jenis interpretabilitas utama: interpretabilitas insinyur, interpretabilitas kausal, dan interpretabilitas yang mendorong kepercayaan.1
Jenis ini berfokus pada cara model AI mencapai hasilnya. Hal ini melibatkan pemahaman cara kerja internal model dan relevan bagi pengembang dan peneliti yang perlu melakukan debug atau meningkatkan model.
Jenis ini berfokus pada alasan model memberikan hasil tertentu. Hal ini melibatkan identifikasi faktor-faktor yang memiliki pengaruh terbesar terhadap prediksi model dan bagaimana perubahan dalam faktor-faktor ini mempengaruhi hasil.
Jenis ini berfokus pada pemberian penjelasan yang membangun kepercayaan pada output model. Ini melibatkan penyajian proses pengambilan keputusan model dengan cara yang dapat dimengerti dan dapat diterima oleh pengguna, bahkan jika mereka tidak memiliki keahlian teknis.
Beberapa karakteristik mempengaruhi interpretabilitas model AI:
Interpretabilitas intrinsik mengacu pada model yang secara inheren dapat ditafsirkan, seperti decision trees dan model regresi linier. Struktur sederhana mereka mudah dimengerti. Namun, interpretabilitas post-hoc melibatkan penerapan metode interpretasi pada model yang telah dilatih sebelumnya untuk menjelaskan perilaku mereka. Interpretasi post-hoc adalah yang terbaik untuk model kotak hitam atau yang lebih kompleks.
Interpretabilitas lokal berfokus pada penjelasan prediksi individu dan membantu menunjukkan mengapa model mencapai hasil tertentu. Interpretabilitas global bertujuan untuk memahami perilaku model di seluruh kumpulan data, yang menunjukkan pola dan trennya secara keseluruhan.
Metode interpretabilitas spesifik model menggunakan struktur internal model untuk memberikan penjelasan. Metode model-agnostik bekerja dengan semua jenis model.
Berbagai metode dapat membangun interpretabilitas dalam model AI.
Beberapa model cukup sederhana untuk interpretasi intrinsik. Model yang dapat diinterpretasikan secara inheren ini bergantung pada struktur langsung seperti decision trees, sistem berbasis aturan, dan regresi linier. Manusia dapat dengan mudah memahami pola pengambilan keputusan dan proses model linier.
Model yang lebih kompleks memerlukan interpretasi post-hoc, di mana metode interpretasi diterapkan pada model yang telah dilatih sebelumnya untuk menjelaskan hasil model. Beberapa metode interpretasi post-hoc yang umum meliputi:
LIME membantu menjelaskan prediksi model dengan berfokus pada satu prediksi pada satu waktu. Hal ini dilakukan dengan membuat model yang lebih sederhana dan dapat diinterpretasikan yang meniru perilaku model yang kompleks untuk prediksi spesifik tersebut. Metode ini menggunakan atribusi fitur untuk menentukan pengaruh karakteristik tertentu (seperti bentuk, warna, atau titik data lainnya) pada hasil model. Contohnya, ini mengambil prediksi spesifik dan kemudian menghasilkan banyak contoh serupa dengan sedikit mengubah atau menyesuaikan nilai fitur. Dari sana, ini menciptakan model yang lebih mudah diinterpretasikan berdasarkan nilai fitur yang “terganggu” dan hasilnya. Singkatnya, LIME memberikan penjelasan lokal yang disederhanakan tentang bagaimana model kompleks akan berperilaku.
SHAP adalah pendekatan gaya teori game kooperatif untuk interpretabilitas yang mempertimbangkan semua kemungkinan kombinasi fitur dan bagaimana hal tersebut memengaruhi prediksi. Sistem ini memberikan nilai (disebut nilai Shapley) untuk setiap fitur berdasarkan seberapa besar kontribusinya terhadap prediksi dalam skenario yang berbeda. SHAP dapat bekerja dengan sistem machine learning apa pun. Model ini menawarkan penjelasan lokal untuk prediksi individu yang dihasilkan oleh machine learning dan penjelasan global untuk model secara keseluruhan. Namun, karena kompleksitas komputasinya SHAP dapat menjadi metode yang lebih lambat dan lebih mahal.
PDP menunjukkan bagaimana fitur memengaruhi prediksi model, rata-rata, di seluruh kumpulan data. Mereka membantu memvisualisasikan hubungan antara fitur dan hasil model, menjaga semua fitur lainnya konstan. Metode ini berguna untuk menafsirkan sejumlah kecil fitur atau ketika pemangku kepentingan ingin fokus pada subset fitur tertentu.
Plot ICE menunjukkan seberapa besar hasil yang diprediksi bergantung pada fitur tertentu. Plot ini mirip dengan PDP tetapi menunjukkan hubungan antara fitur dan hasil model untuk contoh individu, daripada rata-rata di seluruh kumpulan data. Plot ini dapat melengkapi PDP dengan memberikan pandangan yang lebih rinci tentang perilaku model, misalnya, dengan menyoroti variabilitas dan menunjukkan interaksi antara fitur pada tingkat instance. Dan berguna ketika peneliti ilmu komputer atau pemangku kepentingan ingin mengidentifikasi outlier atau pola yang tidak biasa dalam operasi model..
Interpretabilitas AI penting dalam industri apa pun yang menggunakan model AI untuk membuat keputusan yang berdampak pada individu atau masyarakat. Beberapa industri di mana interpretabilitas AI relevan meliputi:
Profesional medis menggunakan kecerdasan buatan untuk diagnosis, rekomendasi perawatan dan penelitian. Interpretabilitas dapat membantu dokter dan pasien mempercayai dan memahami keputusan model AI dan mengidentifikasi bias atau kesalahan dalam penalarannya.
Tenaga profesional keuangan dapat menggunakan AI untuk mendeteksi penipuan, mengukur risiko, menetapkan skor kredit, dan membuat rekomendasi untuk investasi. Interpretabilitas sangat penting untuk kepatuhan dan audit peraturan di industri keuangan dan perbankan. Dan memahami proses pengambilan keputusan model untuk aktivitas seperti persetujuan pinjaman dan manajemen risiko dapat membantu mencegah hasil yang bias.
Sektor peradilan pidana dapat menggunakan AI untuk menganalisis tempat kejadian perkara, DNA dan bukti forensik, serta pola kejahatan lokal atau nasional. Pengguna juga dapat beralih ke AI untuk menawarkan rekomendasi hukuman dan melakukan operasi peradilan rutin lainnya. Interpretabilitas sangat penting untuk memastikan keadilan, akurasi, dan akuntabilitas.
Beberapa departemen sumber daya manusia menggunakan AI untuk penyaringan resume dan evaluasi kandidat. Interpretabilitas adalah salah satu cara untuk mencegah diskriminasi dalam proses perekrutan awal.
Industri asuransi menggunakan kecerdasan buatan untuk menilai risiko, memproses klaim asuransi dan menetapkan harga. Interpretabilitas dapat membantu pelanggan memahami premi mereka dan perusahaan asuransi membenarkan keputusan mereka.
Karena semakin banyak fungsi pemasaran, penjualan, dan layanan pelanggan yang bergantung pada chatbot yang didukung AI, kemampuan penerjemahan dapat memberikan perlindungan yang penting. Memahami mengapa chatbot membuat rekomendasi atau keputusan akan membangun kepercayaan pada sistem AI dan membantu meningkatkan atau mempersonalisasi penawarannya.
Interpretabilitas datang dengan beberapa tantangan dan keterbatasan.
Seringkali ada pertukaran antara kinerja model dan interpretabilitas. Model kotak yang lebih sederhana atau kotak putih lebih dapat ditafsirkan tetapi mungkin memiliki akurasi yang lebih rendah dibandingkan dengan model kotak hitam yang kompleks seperti neural network.
Interpretabilitas juga menderita dari kurangnya standardisasi. Metode yang berbeda dapat memberikan penjelasan yang berbeda untuk model yang sama, sehingga sulit untuk membandingkan dan memvalidasinya tanpa kerangka kerja formal. Dan interpretabilitas seringkali subjektif. Apa yang mungkin dianggap mudah dipahami untuk satu pengguna mungkin tidak cukup untuk yang lain.
Beberapa pakar mengatakan bahwa interpretabilitas tidak diperlukan dalam beberapa kasus, atau dapat menjadi kontraproduktif dalam kasus lain. Jika model tersebut bersifat pribadi atau tidak memiliki dampak yang signifikan, atau masalahnya sudah menjadi subjek penelitian yang sudah banyak diterima, kemampuan interpretasi yang lebih besar dapat menjadi berlebihan atau tidak perlu. Dalam beberapa kasus, kemampuan interpretasi yang lebih besar dapat menimbulkan masalah keamanan, karena transparansi yang lebih besar dapat memungkinkan pelaku kejahatan untuk mengeksploitasi sistem atau memungkinkan pengguna untuk mempermainkan sistem dengan cara yang merusak keefektifannya.
Atur model AI generatif dari mana saja dan terapkan di cloud atau on premises dengan IBM watsonx.governance.
Lihat cara tata kelola AI dapat membantu meningkatkan kepercayaan karyawan Anda terhadap AI, mempercepat adopsi dan inovasi, serta meningkatkan kepercayaan pelanggan.
Bersiaplah menghadapi Undang-Undang AI UE dan bangun pendekatan tata kelola AI yang bertanggung jawab dengan bantuan IBM Consulting.
1 Miller, Katharine. Should AI models be explainable? That depends. Stanford Institute for Human-Centered Artificial Intelligence. Maret 2021.