Apa yang dimaksud dengan kuantifikasi ketidakpastian dalam machine learning?

Joshua Noble

Data Scientist

Apa yang dimaksud dengan kuantifikasi ketidakpastian?

Ahli statistik George Box menulis: "Semua model itu salah, tetapi ada juga yang berguna".1 Model, baik yang bersifat kualitatif, kecerdasan buatan, matematis dinamis, maupun statistik, selalu tidak dapat menggambarkan kompleksitas realitas.

Ada beberapa jenis ketidakpastian yang memengaruhi semua jenis model. Sumber ketidakpastian meliputi proses acak atau karakteristik stokastik dalam suatu sistem (disebut sebagai ketidakpastian aleatorik), pengetahuan yang tidak lengkap (disebut sebagai ketidakpastian epistemik), atau keterbatasan komputasi.

Ketidakpastian model membantu kita memperkirakan tidak hanya seberapa akurat suatu model dari waktu ke waktu, tetapi juga dapat membantu menunjukkan kisaran hasil yang mungkin terjadi. Ini juga membantu memahami cara mengurangi ketidakpastian baik dalam pengukuran maupun dalam model.

Ketidakpastian dan akurasi adalah konsep berbeda yang terkait erat satu sama lain. Akurasi prediksi adalah seberapa dekat prediksi dengan nilai yang diketahui. Ketidakpastian adalah seberapa besar prediksi dan nilai target dapat bervariasi.

Sistem visi komputer yang hanya mengklasifikasikan gambar apel menjadi apel merah atau hijau memiliki ketidakpastian inheren yang jauh lebih kecil daripada sistem yang mengklasifikasikan foto setiap jenis buah yang dikenal di dunia. Kuantifikasi ketidakpastian (UQ) adalah cara untuk mengukur dengan tepat seberapa besar ketidakpastian kedua masalah tersebut satu sama lain.

Ketika sebuah model mengandung ketidakpastian, output dapat bervariasi dengan probabilitas yang berbeda. Kita memperlakukan output ini sebagai variabel acak dan menggunakan distribusi probabilitas untuk mengukur ketidakpastian. Semakin luas distribusinya, semakin tidak pasti hasilnya. Meskipun varians bekerja dengan baik untuk distribusi Gaussian, banyak sistem di dunia nyata yang menciptakan distribusi tidak standar yang memerlukan pendekatan pengukuran yang berbeda.

Metode kuantifikasi ketidakpastian membantu memberi tahu Anda sejauh apa keyakinan Anda seharusnya dalam prediksi tertentu. Informasi ini bisa berupa prediksi yang dibuat oleh teknik statistik seperti tes distribusi atau prediksi atau kesimpulan yang dibuat oleh algoritma machine learning. UQ juga membantu kita memahami berbagai kemungkinan hasil untuk model.

Sebagai contoh, jika model cuaca memprediksi peluang hujan sebesar 70%, UQ membantu menentukan apakah 70% tersebut didasarkan pada data pelatihan yang solid atau apakah terdapat begitu banyak ketidakpastian sehingga peluang yang sebenarnya bisa saja berkisar antara 50% hingga 90%.

Metode UQ penting karena menunjukkan bagaimana kesalahan dan ketidaktahuan memengaruhi hasil akhir. Hal ini mencegah model menjadi terlalu percaya diri dan membantu berfokus pada cara meningkatkan akurasi model machine learning.

Menghitung UQ membantu mengidentifikasi ketidakpastian mana yang paling penting dan membantu dalam optimalisasi pelatihan model. UQ juga membantu pengambil keputusan memahami keandalan prediksi. UQ membantu Anda mengubah pernyataan seperti "model ini mungkin salah" menjadi informasi spesifik yang terukur tentang seberapa salah pernyataan tersebut dan dalam hal apa pernyataan tersebut salah. Hal ini sangat berharga ketika bekerja di bidang seperti kedokteran, teknik yang tidak toleran terhadap kesalahan, atau skenario lain yang mengutamakan keandalan.

Tren AI terbaru, dipersembahkan oleh para pakar

Dapatkan kurasi insight tentang berita AI yang paling penting dan menarik. Berlangganan buletin Think mingguan. Lihat Pernyataan Privasi IBM.

Terima kasih! Anda telah berlangganan.

Langganan Anda akan dikirimkan dalam bahasa Inggris. Anda akan menemukan tautan berhenti berlangganan di setiap buletin. Anda dapat mengelola langganan atau berhenti berlangganan di sini. Lihat Pernyataan Privasi IBM kami untuk informasi lebih lanjut.

Metode untuk UQ

Ketidakpastian memiliki dua jenis utama: ketidakpastian berbasis data dan ketidakpastian berbasis model. Dalam kedua kasus tersebut, akan sangat membantu untuk mengetahui seberapa andal prediksi, baik sebelum maupun setelah dibuat.

Anda dapat membayangkannya sebagai model yang memprediksi berapa kali engsel pintu dapat membuka dan menutup sebelum mengalami kegagalan, sekitar plus atau minus 1.000 gerakan. Metode ini juga dapat menunjukkan seberapa besar kemungkinan bahwa menutup engsel pintu kali ini akan merusaknya.

Metode berbasis pengambilan sampel

Pendekatan berbasis pengambilan sampel adalah beberapa teknik yang paling umum digunakan untuk kuantifikasi ketidakpastian karena dapat menangani segala jenis kompleksitas model dan menggambarkan karakter ketidakpastian yang komprehensif dan intuitif. Dengan menghasilkan banyak skenario yang mungkin terjadi, pengambilan sampel dapat membangun gambaran statistik tentang hasil apa yang mungkin terjadi dan sejauh apa ketidakpastian prediksi kita ketika diterapkan pada data dunia nyata. Alih-alih menghitung ketidakpastian secara analitis, metode ini menggunakan analisis statistik dari banyak output sampel untuk menggambarkan karakter distribusi ketidakpastian.

Simulasi Monte Carlo adalah salah satu pendekatan yang paling umum. Simulasi ini menjalankan ribuan simulasi model dengan beragam input acak untuk melihat kisaran output yang mungkin. Hal ini sangat umum terjadi pada model parametrik di mana interval kepercayaan dan output model untuk model yang berbeda dibandingkan untuk melihat kisaran semua nilai yang mungkin.

Variasi simulasi Monte Carlo yang disebut Latin hypercube sampling adalah versi lebih efisien yang membutuhkan lebih sedikit proses namun tetap mencakup ruang input dengan baik.

Monte Carlo dropout adalah teknik lain yang membuat dropout (penonaktifan) tetap aktif selama prediksi, menjalankan beberapa forward pass untuk mendapatkan distribusi output.2 Dropout terutama digunakan sebagai teknik regularisasi, metode yang digunakan untuk menyempurnakan model machine learning. Ini bertujuan untuk mengoptimalkan fungsi kesalahan yang disesuaikan sekaligus menghindari masalah overfitting atau underfitting.

Monte Carlo Dropout menerapkan dropout pada waktu pengujian dan menjalankan beberapa forward pass dengan pola acak dropout yang berbeda. Ini membuat model menghasilkan distribusi prediksi daripada perkiraan satu titik. Distribusi memberikan insight tentang ketidakpastian model mengenai prediksi. Ini adalah teknik yang efisien dari sudut komputasi agar neural networks menghasilkan distribusi tanpa memerlukan pelatihan neural networks selama berkali-kali.

Ketika menjalankan model yang sebenarnya berkali-kali menjadi terlalu mahal, para ahli statistik membuat model "pengganti" yang disederhanakan dengan menggunakan teknik seperti regresi proses Gaussian (GPR).5 GPR adalah pendekatan Bayesian untuk memodelkan kepastian dalam prediksi yang membuatnya menjadi alat yang berharga untuk pengoptimalan, perkiraan deret waktu, dan aplikasi lainnya. GPR didasarkan pada konsep 'proses Gaussian', yang merupakan kumpulan variabel acak yang memiliki distribusi Gaussian bersama.

Anda dapat membayangkan proses Gaussian sebagai distribusi fungsi. GPR menempatkan distribusi sebelumnya pada fungsi kemudian menggunakan data yang diamati untuk membuat distribusi posterior. Menggunakan GPR untuk menghitung ketidakpastian tidak memerlukan pelatihan tambahan atau menjalankan model karena output secara inheren mengekspresikan seberapa pasti atau tidak pastinya model tersebut tentang estimasi melalui distribusi. Pustaka seperti Scikit-learn menyediakan implementasi GPR untuk analisis ketidakpastian.

Pilihan metode pengambilan sampel tergantung pada fitur apa yang paling penting untuk model dan skenario Anda. Sebagian besar aplikasi dunia nyata menggabungkan beberapa pendekatan.

Metode Bayesian

Statistik Bayesian adalah pendekatan inferensi statistik yang menggunakan teorema Bayes untuk menggabungkan keyakinan sebelumnya dengan data yang diamati dan memperbarui probabilitas hipotesis. Statistik Bayesian secara eksplisit mengatasi ketidakpastian dengan menetapkan distribusi probabilitas daripada satu nilai tetap. Alih-alih memberikan satu perkiraan 'terbaik' untuk parameter model, metode Bayesian memberikan distribusi kemungkinan perkiraan.

Inferensi Bayesian memperbarui prediksi ketika data baru tersedia, yang secara alami memasukkan ketidakpastian selama proses estimasi kovariat. Metode Markov chain Monte Carlo (MCMC) membantu menerapkan pendekatan Bayesian ketika solusi matematika terlalu rumit. Pendekatan MCMC mengambil sampel dari distribusi probabilitas kompleks berdimensi tinggi yang tidak dapat diambil sampelnya secara langsung, khususnya distribusi posterior dalam inferensi Bayesian.

Bayesian neural networks (BNN) adalah sebuah perubahan dari neural networks tradisional yang memperlakukan bobot jaringan sebagai distribusi probabilitas, bukan sebagai estimasi titik tetap. Pendekatan probabilistik ini memungkinkan kuantifikasi ketidakpastian yang berdasar dan ketat. Alih-alih perkiraan satu titik untuk bobot, pendekatan ini mempertahankan distribusi probabilitas di semua parameter jaringan. Prediksi biasanya mencakup

  • estimasi rata-rata dan varians untuk distribusi prediktif
  • sampel dari distribusi prediktif
  • interval kredibel yang berasal dari distribusi

Terdapat beberapa pustaka sumber terbuka yang populer untuk mengimplementasikan BNN seperti PyMC dan Tensorflow-Probability.

Metode ansambel

Konsep utama di balik kuantifikasi ketidakpastian berbasis ensambel adalah bahwa jika beberapa model yang dilatih secara independen tidak setuju dengan suatu prediksi, ketidaksepakatan ini mengindikasikan ketidakpastian tentang jawaban yang benar.4 Sebaliknya, ketika semua model dalam ensambel setuju, ini menunjukkan kepercayaan yang lebih tinggi dalam prediksi. Intuisi ini diubah menjadi ukuran ketidakpastian konkret melalui varians atau penyebaran prediksi ensambel.

Jika f₁, f₂, ..., fn menunjukkan estimator N anggota ensambel untuk input x, ketidakpastian dapat diukur sebagai

 Var[f(x)]=1Ni=1N(fi(x)-f¯(x))2

di mana f(x) adalah rata-rata ensambel. Melatih beberapa model berbeda (arsitektur, subset data pelatihan, atau inisialisasi berbeda) dan menggabungkan prediksinya. Kelemahan utama dari pendekatan ini adalah biaya komputasi: memerlukan pelatihan dan menjalankan beberapa model.

Prediksi konformal

 

Prediksi konformal adalah teknik untuk kuantifikasi ketidakpastian. Teknik ini memberikan kerangka kerja yang tidak bergantung pada model dan bebas distribusi untuk membuat interval prediksi (untuk skenario regresi) atau kumpulan prediksi (untuk penerapan pada klasifikasi).3 Teknik ini memberikan jaminan cakupan yang valid dengan asumsi minimal tentang model atau data. Hal ini membuat prediksi konformal sangat membantu saat bekerja dengan model kotak hitam terlatih.

Prediksi konformal memiliki beberapa fitur yang membuatnya dapat diterapkan secara luas. Sebagai contoh, prediksi ini hanya mensyaratkan bahwa titik data bersifat dapat dipertukarkan dan tidak mensyaratkan bahwa titik data harus independen dan terdistribusi secara identik. Prediksi konformal juga dapat diterapkan pada model prediktif apa pun dan memungkinkan Anda menetapkan ketidakpastian prediktif yang dapat diizinkan dari suatu model.

Misalnya, dalam tugas regresi, Anda mungkin ingin mencapai cakupan 95%, yang berarti bahwa model harus menghasilkan rentang di mana nilai sejati masuk ke dalam interval output 95% dari waktu. Pendekatan ini tidak bergantung pada model dan bekerja dengan baik dalam klasifikasi, regresi linier, neural networks, dan berbagai model deret waktu.

Untuk menggunakan prediksi konformal, Anda harus membagi data menjadi tiga kumpulan: pelatihan, pengujian dasar, dan kalibrasi. Kumpulan data kalibrasi digunakan untuk menghitung skor ketidaksesuaian, sering dilambangkan sebagai si. Skor ini mengukur seberapa tidak biasanya suatu prediksi. Dengan input baru, membentuk interval prediksi berdasarkan skor ini untuk menjamin cakupan.

Dalam tugas klasifikasi, prediksi konformal—skor ketidaksesuaian—adalah ukuran seberapa banyak contoh baru menyimpang dari contoh yang ada dalam kumpulan pelatihan. Ini menentukan apakah contoh baru termasuk kelas tertentu atau tidak. Untuk klasifikasi dengan banyak kelas, biasanya 1—probabilitas kelas yang diprediksi untuk label tertentu.

 si=1-f(xi)[yi]

Jadi, jika probabilitas yang diprediksi dari sebuah contoh baru yang termasuk dalam kelas tertentu tinggi, skor ketidaksesuaiannya rendah, dan sebaliknya. Pendekatan yang umum dilakukan adalah menghitung skor si untuk setiap contoh dalam kumpulan kalibrasi dan menyortir skor dari rendah (pasti) ke tinggi (tidak pasti).

Untuk mencapai cakupan konformal 95%, hitung ambang batas q di mana 95% skor si lebih rendah. Untuk contoh pengujian baru, Anda harus menyertakan label dalam kumpulan prediksi jika si kurang dari ambang batas q.

Jika memerlukan jaminan bahwa model Anda memiliki cakupan konformal 95%, Anda akan memperoleh skor rata-rata si untuk semua kelas. Kemudian, Anda akan menemukan ambang batas skor si yang berisi 95% data. Anda kemudian dapat yakin bahwa pengklasifikasi Anda mengidentifikasi 95% contoh baru dengan benar di semua kelas.

Hal ini sedikit berbeda dengan akurasi pengklasifikasi karena prediksi konformal dapat mengidentifikasi beberapa kelas. Dalam pengklasifikasi multiclass, prediksi konformal juga menunjukkan cakupan untuk semua kelas. Anda dapat menetapkan tingkat cakupan untuk tiap kelas, bukan seluruh kumpulan pelatihan.

Mixture of Experts | 12 Desember, episode 85

Decoding AI: Rangkuman Berita Mingguan

Bergabunglah dengan panel insinyur, peneliti, pemimpin produk, dan sosok kelas dunia lainnya selagi mereka mengupas tuntas tentang AI untuk menghadirkan berita dan insight terbaru seputar AI.

Aplikasi kuantifikasi ketidakpastian

Kuantifikasi ketidakpastian merupakan hal yang penting di berbagai bidang dalam machine learning, pengembangan kecerdasan buatan, dan ilmu komputer. Berikut adalah beberapa aplikasi yang paling umum.

Ketidakpastian dalam perkiraan deret waktu

Mengelola dan mengukur ketidakpastian dalam perkiraan deret waktu sangat penting untuk proses pengambilan keputusan di bidang keuangan, ekonomi, ramalan cuaca, dan manajemen rantai pasokan. Model probabilistik lebih disukai karena kapasitasnya untuk menghasilkan distribusi, bukan satu perkiraan poin. Semua model ini dapat dibandingkan dengan model deterministik, yang hanya mengeluarkan satu nilai, bukan distribusi nilai yang mungkin. Banyak model probabilistik yang tersedia untuk perkiraan deret waktu, misalnya model ARIMA atau neural networks Bayesian.

Pencarian parameter terbaik pada model ARIMA dimulai dengan menangkap komponen autoregresif (AR) dan rata-rata bergerak (MA) dan memastikan keadaan tetap konstan melalui pembedaan. Setelah menghasilkan perkiraan titik, model menilai residual yang menunjukkan perbedaan antara nilai yang diamati dan nilai yang diprediksi. ARIMA menggunakan simpangan baku dari residual yang terdistribusi normal untuk membuat interval prediksi di sekitar perkiraan titik.

Pada dasarnya, semakin lebar interval prediksi, semakin besar ketidakpastian yang terkait dengan perkiraan. Metodologi teknis ini tidak hanya menyempurnakan keakuratan titik perkiraan, tetapi juga memberikan ukuran yang baik secara statistik dari kisaran di mana pengamatan mendatang kemungkinan akan berada.

Pembelajaran mendalam dan ketidakpastian

Pembelajaran mendalam menghadirkan banyak tantangan untuk kuantifikasi ketidakpastian karena model ini sering memiliki dimensi tinggi dan hubungan nonlinier di seluruh lapisan network. Selain itu sering kali terdapat kendala komputasi yang signifikan dalam melatih dan menerapkan semua model ini, yang menyulitkan pengukuran jumlah ketidakpastian yang ada dalam setiap kesimpulan.

Beberapa teknik yang umum digunakan telah dikembangkan khusus untuk neural networks mendalam. Misalnya, metode berbasis pengambilan sampel seperti ensambel mendalam di mana beberapa network yang dilatih secara independen memiliki inisialisasi atau subset data yang berbeda. Varians di seluruh prediksi ensambel dapat menunjukkan ketidakpastian dalam prediksi arsitektur itu sendiri. Ini adalah teknik yang sederhana namun mahal secara komputasi karena membutuhkan pelatihan banyak model penuh.

Teknik lain yang umum digunakan adalah Monte Carlo dropout, yang membuat lapisan dropout tetap aktif selama inferensi.6 Pendekatan ini melakukan banyak forward pass untuk memperkirakan inferensi Bayesian. Setiap pola acak dropout menciptakan subnetwork berbeda dan varians prediksi memperkirakan ketidakpastian. Ini mudah diterapkan dengan model yang ada karena tidak ada perubahan yang diperlukan dalam arsitektur model. Anda akan tetap mengaktifkannya dan menjalankan beberapa forward pass tanpa menonaktifkan dropout selama inferensi. Pendekatan serupa adalah ketidakpastian normalisasi batch yang secara acak mengambil sampel dari statistik batch yang dipelajari pada waktu inferensi untuk membuat distribusi prediksi.

Pembelajaran aktif

Pembelajaran aktif adalah paradigma machine learning yang dapat diskalakan di mana algoritma dapat secara selektif memilih titik data mana yang akan dipelajari alih-alih dilatih pada kumpulan data tetap. Algoritma pembelajaran dapat mencapai kinerja yang lebih baik dengan lebih sedikit contoh berlabel jika algoritma tersebut diizinkan untuk memilih data yang dipelajarinya. Pembelajaran diawasi tradisional mengasumsikan bahwa kumpulan data berlabel berukuran besar tersedia sejak awal proses pengembangan model. Dalam banyak skenario dunia nyata, data yang tidak berlabel berlimpah sementara data berlabel mahal, memakan waktu, atau membutuhkan pengetahuan ahli untuk mendapatkannya. Setelah melatih model menggunakan kumpulan berlabel yang lebih kecil, Anda akan menggunakan model tersebut untuk mengevaluasi kumpulan besar contoh yang tidak berlabel. Pembelajaran aktif memilih contoh tidak berlabel yang paling "informatif" sesuai dengan beberapa strategi akuisisi.

Strategi pembelajaran aktif dapat menggunakan perkiraan kuantifikasi ketidakpastian untuk mengidentifikasi contoh tidak berlabel mana yang paling berharga untuk diberi label berikutnya. Dasar pemikiran utamanya adalah bahwa model harus meminta label untuk titik data yang paling tidak pasti, karena semua contoh ini kemungkinan akan memberikan perolehan informasi terbesar.

Metrik untuk UQ

Metrik untuk kuantifikasi ketidakpastian sering kali digunakan untuk membandingkan model berbeda yang menggunakan arsitektur yang sama, bukan untuk membandingkan arsitektur yang berbeda atau sebagai nilai absolut. Beberapa jenis ukuran, seperti kesalahan kalibrasi yang diharapkan, memungkinkan Anda mengukur kalibrasi model tertentu.

Jika tidak mengukur kalibrasi model terhadap data uji, Anda dapat menggunakan beberapa metrik pelengkap daripada mengandalkan satu ukuran, karena metrik yang berbeda dapat menangkap aspek ketidakpastian yang berbeda.

Secara umum, metrik untuk ketidakpastian terbagi dalam 2 kategori luas, aturan penilaian yang tepat dan metrik kalibrasi.

Aturan penilaian yang tepat

Aturan penilaian yang tepat bekerja paling baik dalam model probabilistik dengan estimasi ketidakpastian alami, karena aturan ini memperkirakan deviasi dari distribusi probabilitas sebenarnya. Nilai tinggi menunjukkan bahwa probabilitas yang diprediksi berada jauh dari probabilitas sebenarnya. Ini menghasilkan metrik untuk mengevaluasi perkiraan probabilistik atau prediksi, yang sering kali merupakan rentang output yang mungkin daripada nilai tunggal.

Fungsi kesalahan yang umum seperti rata-rata kuadrat kesalahan memberikan skor kesesuaian yang baik pada nilai prediksi dan nilai teramati. Namun, aturan penilaian menetapkan skor pada distribusi probabilitas yang diprediksi dan nilai teramati.

Kemungkinan log negatif (NLL) adalah metode yang umum digunakan untuk mengoptimalkan neural networks dalam tugas klasifikasi. Namun, fungsi kesalahan ini juga dapat digunakan sebagai metrik ketidakpastian. Karena NLL secara langsung mengukur seberapa baik distribusi probabilitas yang diprediksi oleh model selaras dengan hasil yang diamati, fungsi ini secara inheren menangkap akurasi dan kualitas kepercayaan dari prediksi probabilistik.

Dalam kasus model klasifikasi yang memprediksi [0.9, 0.1] untuk masalah biner di mana distribusi kelas sebenarnya adalah 60-40, model tersebut memiliki rata-rata NLL yang lebih tinggi. Ini karena NLL memberikan hukum berat pada model kedua yang terlalu yakin ketika prediksi keyakinannya salah.

Skor Brier adalah aturan penilaian tepat lainnya yang biasanya digunakan untuk tugas klasifikasi. Terkadang lebih disukai daripada NLL karena dibatasi secara ketat dalam kisaran 0-1 sehingga lebih stabil secara numerik. Ini adalah metrik ketidakpastian yang komprehensif karena mengevaluasi seberapa baik probabilitas yang diprediksi cocok dengan frekuensi yang diamati dan seberapa yakin prediksi tersebut.

Continuous Ranked Probability Score (CRPS) adalah metrik yang banyak digunakan di berbagai bidang seperti meteorologi, hidrologi, dan ilmu iklim. CRPS mengukur perbedaan antara fungsi distribusi kumulatif yang diprediksi (CDF) dari perkiraan dan fungsi langkah yang menunjukkan hasil sebenarnya. CRPS mengukur penyebaran distribusi perkiraan di sekitar nilai yang diamati.

Metrik kalibrasi

Metrik kalibrasi bekerja paling baik dengan model yang telah dilatih sebelumnya seperti model dasar atau model bahasa besar (LLM) atau dalam tugas klasifikasi yang menggunakan output softmax. Mereka membantu mengukur perbedaan antara “keyakinan sebenarnya” dan “keyakinan yang diprediksi”. Aturan penilaian yang tepat membandingkan distribusi, sedangkan kalibrasi membandingkan kepastian itu sendiri. Jika metrik kalibrasi dihitung dan memberikan hasil 0,6, maka itu berarti bahwa neural networks tersebut 60% yakin dalam prediksi tertentu.7

Sebuah model dianggap dikalibrasi jika nilai keyakinan yang diprediksi mencerminkan secara akurat kemungkinan kebenaran yang sebenarnya. Lebih spesifik lagi, kalibrasi berarti bahwa di antara semua prediksi di mana model menyatakan keyakinan p, sekitar p fraksi harus benar. Metrik kalibrasi dihitung pada seluruh kumpulan data untuk mengelompokkan probabilitas yang berbeda. Sebaliknya, aturan penilaian yang tepat membandingkan tiap probabilitas.8

Kesalahan Kalibrasi yang Diharapkan (ECE) adalah salah satu metrik yang paling banyak digunakan. Sistem ini membagi prediksi ke dalam beberapa bin berdasarkan tingkat keyakinan dan mengukur rata-rata selisih antara keyakinan dan keakuratan di setiap bin. Pendekatan yang umum digunakan adalah dengan menggunakan 10-15 bin dengan jarak yang sama, yang digunakan untuk menghitung rata-rata prediksi probabilitas dalam bin tersebut dan fraksi prediksi yang memang benar dalam bin tersebut.

Model yang dikalibrasi sempurna harus benar 90% dari saat ketika ia menunjukkan keyakinan 90%. ECE mengukur ini dengan menghasilkan nilai dari 0 (kalibrasi sempurna) hingga 1 (kemungkinan kalibrasi terburuk). Metrik memperlakukan keyakinan berlebihan dan kurang yakin secara setara akibat nilai absolut metrik. Hal ini sangat membantu untuk membandingkan model satu sama lain dan tidak menerapkan metrik ke model tertentu secara terpisah.

Kesalahan Kalibrasi Maksimum (MCE) mengukur kesalahan kalibrasi kasus terburuk dengan mengambil selisih maksimum antara keyakinan dan akurasi di semua bin, bukan rata-ratanya. Ini memberikan insight tentang area yang paling tidak dikalibrasi dengan baik.

Kesalahan Kalibrasi Adaptif (ACE) mengatasi keterbatasan diskretisasi tetap dengan menggunakan strategi diskretisasi adaptif yang memastikan bahwa setiap bin berisi jumlah sampel yang kira-kira sama, sehingga memberikan perkiraan yang lebih kuat terutama dengan data terbatas.

Solusi terkait
IBM watsonx.ai

Latih, validasi, lakukan tuning, dan terapkan AI generatif, model dasar, dan kemampuan machine learning dengan IBM watsonx.ai, studio perusahaan generasi berikutnya untuk pembangun AI. Bangun aplikasi AI dalam waktu singkat, dengan sedikit data.

Temukan watsonx.ai
Solusi kecerdasan buatan (AI)

Gunakan AI di bisnis Anda dalam perpaduan antara keahlian AI terdepan di industri dari IBM dan portofolio solusi Anda.

Jelajahi solusi AI
Konsultasi dan layanan AI

Temukan kembali alur kerja dan operasi yang penting dengan menambahkan AI untuk memaksimalkan pengalaman, pengambilan keputusan secara real-time, dan nilai bisnis.

Jelajahi layanan AI
Ambil langkah selanjutnya

Dapatkan akses satu atap ke kemampuan yang mencakup siklus hidup pengembangan AI. Hasilkan solusi AI yang kuat dengan antarmuka ramah pengguna, alur kerja yang efisien, serta akses ke API dan SDK berstandar industri.

Jelajahi watsonx.ai Pesan demo langsung
Catatan kaki

1. Box, G. E. P. (1976). Science and statistics. Journal of the American Statistical Association, 71(356), 791–799. https://doi.org/10.1080/01621459.1976.10480949

2. Gal, Y., Ghahramani, Z., & University of Cambridge. (2016). Dropout as a Bayesian approximation: representing model uncertainty in deep learning. Dalam Prosiding Konferensi Internasional ke-33 tentang Machine Learning.

3. Angelopoulos, A. N., & Bates, S. (15 Juli 2021). A gentle introduction to conformal prediction and Distribution-Free uncertainty quantification. arXiv.org. https://arxiv.org/abs/2107.07511

4. Lakshminarayanan, B., Pritzel, A., & Blundell, C. (5 Desember 2016). Simple and Scalable Predictive Uncertainty Estimation using Deep Ensembles. arXiv.org. https://arxiv.org/abs/1612.01474

5. Williams, C. K. I., Neural Computing Research Group, Rasmussen, C. E., Department of Computer Science, & University of Toronto. (1996). Gaussian processes for regression. https://proceedings.neurips.cc/paper_files/paper/1995/file/7cce53cf90577442771720a370c3c723-Paper.pdf

6. Wang, C. (2 Agustus 2023). Calibration in Deep Learning: A Survey of the State-of-the-Art. arXiv.org. https://arxiv.org/abs/2308.01222

7. Guo, C., Pleiss, G., Sun, Y., & Weinberger, K. Q. (2017). On calibration of modern neural networks. Konferensi Internasional tentang Machine Learning, 1321–1330. https://proceedings.mlr.press/v70/guo17a/guo17a.pdf

8. Nixon, J., Dusenberry, M. W., Zhang, L., Jerfel, G., & Tran, D. (2019). Measuring calibration in deep learning. Computer Vision and Pattern Recognition, 38–41. https://openaccess.thecvf.com/content_CVPRW_2019/papers/Uncertainty and Robustness in Deep Visual Learning/Nixon_Measuring_Calibration_in_Deep_Learning_CVPRW_2019_paper.pdf