Tampak dari atas yang memperlihatkan apel yang sedang diproses di sebuah fasilitas pengolahan, dengan seorang pria yang memegang sebuah apel di latar depan

Apa itu evaluasi model?

Evaluasi model, didefinisikan

Evaluasi model mengacu pada proses pengukuran seberapa baik model machine learning berkinerja. Proses ini mengajukan pertanyaan: Ketika model Anda membuat penilaian tentang dunia nyata, seberapa sering penilaian tersebut tepat? Atau, dalam kasus-kasus yang berada dalam spektrum, seberapa dekatkah hal itu dengan kebenaran?

Konsekuensi dari kesalahan

Semakin banyak uang sungguhan yang dipertaruhkan seiring dengan meningkatnya ketergantungan perusahaan pada model AI. Pada Februari 2021, para pemimpin di Zillow membuat taruhan besar berdasarkan model machine learning mereka yang memprediksi nilai-nilai rumah. Tidak hanya membuat perkiraan tersebut, tetapi Zillow sendiri sering kali membeli rumah-rumah yang telah dihitung harganya oleh modelnya, melalui sebuah unit bisnis afiliasi bernama Zillow Offers.

Hanya delapan bulan kemudian, Zillow menghentikan layanan Zillow Offers dan mencatat penurunan nilai persediaan sebesar USD 304 juta. Menurut perusahaan tersebut, penyebabnya adalah pembelian banyak rumah dengan harga yang lebih tinggi daripada harga jual yang diperkirakan. Harga saham perusahaan itu merosot, dan Zillow memberhentikan sekitar 25% karyawannya.

Siapa yang harus disalahkan? Model AI-nya tidak cukup akurat untuk menghadapi kondisi pasar di masa mendatang. Prediksi dan perkiraannya tidak sesuai dengan nilai aktual rumah-rumah tersebut.1

Seiring dengan semakin meluasnya penerapan model pembelajaran mesin (ML) di bidang kesehatan, perekrutan, dan peradilan pidana, dampak negatif dari evaluasi yang buruk dapat menimbulkan kerugian nyata bagi orang-orang. Di bidang ilmu data dan industri, menentukan metrik evaluasi model yang tepat telah menjadi bagian penting dalam penerapan AI secara bertanggung jawab.

Jenis-jenis model dan metrik

Model yang berbeda dimaksudkan untuk melakukan hal yang berbeda.

Model klasifikasi mengklasifikasikan data yang masuk ke dalam salah satu dari beberapa kategori. (Model yang mengidentifikasi apakah seorang pasien menderita sepsis atau tidak adalah model klasifikasi.)

Model regresi justru menghasilkan angka dalam rentang kontinu. (Model harga rumah Zillow adalah model regresi.)

Jenis model yang berbeda memerlukan jenis pengujian yang berbeda pula. Sering kali, menganalisis kinerja dengan menggunakan berbagai metrik merupakan cara yang ideal karena tidak ada satu pun metrik yang bebas dari ketidakpastian. 

Model klasifikasi dan metrik klasifikasi

Beberapa model membahas “masalah klasifikasi” yang berarti mereka mengukir dunia menjadi beberapa kategori. Metrik klasifikasi juga sama-sama kurang teliti. Akurasi model cukup intuitif: Dibutuhkan jumlah prediksi yang benar dan membaginya dengan jumlah total. (Dalam machine learning, kata “prediksi” mengacu pada tebakan terdidik yang dibuat model—bahkan jika tebakannya adalah tentang sesuatu yang terjadi sekarang, bukan di masa depan.)

Masalahnya, angka akurasi model yang tinggi justru dapat membuat para pemangku kepentingan terlena dan merasa aman secara keliru. Sebuah model yang dirancang untuk mendeteksi kejadian langka namun berakibat fatal (misalnya, jenis kanker tertentu) mungkin secara otomatis mengklasifikasikan setiap hasil pemindaian sebagai negatif. Model tersebut akan memiliki akurasi yang tinggi, karena 99,99% dari hasil negatif tersebut akan akurat. Namun, tingkat akurasi yang tinggi ini takkan banyak berarti bagi pasien malang yang mendapatkan hasil negatif palsu yang jarang terjadi. Namun, tingkat akurasi yang tinggi ini tidak banyak berarti bagi pasien malang yang mendapatkan hasil negatif palsu yang jarang terjadi.

Akan sangat berguna untuk menganalisis kinerja model klasifikasi berdasarkan jenis prediksi, atau perkiraan yang didasarkan pada data, yang dihasilkannya. Dalam tugas klasifikasi biner—seperti deteksi kanker—ada empat kemungkinan hasil (jika disusun dalam matriks 2x2, kerangka kerja ini sering disebut sebagai “matriks kebingungan”):

  1. Positif sejati (kanker terdeteksi secara akurat)
  2. Negatif sejati (kanker dapat disingkirkan secara akurat)
  3. Positif palsu (kanker terdeteksi, tetapi ini tidak akurat)
  4. Negatif palsu (kanker tidak terdeteksi, dan ini tidak akurat)

Kita sudah mulai bisa memahami mengapa penting untuk membedakan kategori-kategori ini. Diagnosis kanker positif palsu tentu saja akan sangat mengejutkan, sampai pemeriksaan lebih lanjut menunjukkan bahwa kejadian tersebut hanyalah kekhawatiran yang berlebihan. Tetapi pembacaan negatif palsu bisa berakibat fatal.

Para praktisi ilmu data telah mengembangkan serangkaian metrik tambahan untuk menganalisis kinerja klasifikasi dan mengevaluasi hubungan antarkuadran pada matriks kebingungan. 

Metrik yang disebut presisi menanyakan, dari semua prediksi positif yang dihasilkan oleh pengklasifikasi, berapa banyak yang benar?

Algoritma pengenalan gambar yang terpasang pada mobil melewati 10 persimpangan di lintasan uji, enam di antaranya dilengkapi rambu berhenti. Namun, mengatakan bahwa suatu model “mendeteksi keenam rambu berhenti” berarti mengabaikan perbedaan penting dalam hal ketepatan. Jika sistem tersebut berhasil mengidentifikasi keenamnya dengan akurat dan tidak menghasilkan hasil positif palsu, maka tingkat ketepatannya adalah 6/6, atau 100%. Namun, jika sistem tersebut mendeteksi keenam rambu itu tetapi juga “melihat” empat rambu berhenti yang sebenarnya tidak ada, tingkat akurasinya hanya 6 dari 10, atau hanya 60%.

Metrik yang disebut recall (juga dikenal sebagai “tingkat positif benar”) mengukur hal yang sedikit berbeda. Recall bertanya, dari semua rambu berhenti yang memang ada di sana, berapa banyak yang terdeteksi oleh model tersebut?

Bayangkan sebuah rute uji coba lain yang memiliki 100 persimpangan, 50 di antaranya dilengkapi dengan rambu berhenti. Model yang berhasil mendeteksi 30 rambu berhenti ini akan memiliki tingkat recall sebesar 60%; 40 rambu, 80%; dan seterusnya. (Recall tidak memperhitungkan alarm palsu, jadi secara teori seseorang dapat "memanipulasi" recall 100% dengan melatih model untuk melihat rambu berhenti di mana-mana.)

Kedua metrik ini, presisi dan recall, saling bertentangan. Seorang insinyur yang ingin meningkatkan tingkat deteksi mungkin justru melampaui batas, sehingga menghasilkan model yang terlalu sering menghasilkan hasil positif palsu. Sering kali, penyempurnaan model berarti menyeimbangkan antara recall yang lebih tinggi (mendeteksi seluruh fenomena yang ingin Anda temukan) dan presisi yang lebih rendah (melampaui batas dan juga mendeteksi hasil positif palsu).

Dalam mengelola pertukaran ini, praktisi machine learning sering menggunakan metrik yang disebut skor F1, yang merupakan “rata-rata harmonik” dari presisi dan ingatan. (Rata-rata harmonik berbeda dari rata-rata yang lebih tradisional karena dipengaruhi secara tidak proporsional oleh nilai rendah. Skor F1 dengan demikian turun dengan cepat jika presisi atau daya ingat rendah.)

Skor F1 yang sempurna adalah 1,0, tetapi sayangnya tidak ada pedoman baku mengenai berapa skor F1 yang cukup tinggi, karena konteks memegang peranan yang sangat penting.2 Yang jelas, skor F1 yang lebih tinggi itu lebih baik. Semakin mendekati 1,0, semakin baik model ini dalam mendeteksi apa yang seharusnya dideteksinya, sekaligus meminimalkan hasil positif palsu dan negatif palsu.3

Metrik klasifikasi yang berkaitan dengan tingkat kepercayaan dan ambang batas

Dalam metrik klasifikasi, terdapat dua metrik yang berkaitan dengan konsep tingkat kepercayaan dan ambang batas

Sebuah model tidak sekadar menghasilkan “tanda berhenti” atau “tanda larangan berhenti.” Sebaliknya, prediksi tersebut berbunyi kira-kira, “Ada kemungkinan 98% bahwa ini adalah rambu berhenti” (prediksi yang sangat meyakinkan). Atau tertulis, “Ada kemungkinan 51% bahwa ini adalah rambu berhenti” (prediksi yang tidak terlalu meyakinkan). 

Metrik yang dikenal sebagai log loss dirancang untuk mengevaluasi tingkat keandalan suatu model. Kesalahan yang dilakukan dengan sangat percaya diri akan dikenakan sanksi berat. Ketidakpastian yang tinggi dalam prediksi yang akurat juga dikenakan penalti, meskipun dalam tingkat yang lebih rendah. Model yang sempurna akan mendapat skor 0 pada log loss, meskipun itu jarang dicapai. Apa yang dimaksud dengan skor “baik” sekali lagi bergantung pada model dan jenis tugas yang Anda gunakan.

Terlepas dari seberapa tinggi skor kepercayaan suatu model, pengguna manusia dari model ML pada akhirnya harus menentukan ambang batas untuk mengubah dugaan model menjadi keputusan akhir berupa ya atau tidak. Salah satu ambang batas dapat menetapkan aturan, “jika tingkat keyakinan >75%, maka keluarkan output ‘ya, tanda berhenti.’” Namun, pengguna manusia mungkin saja memilih ambang batas tingkat kepercayaan 51% atau 98% sebagai gantinya. Output yang dihasilkan oleh model tersebut tentu saja dapat sangat bervariasi tergantung pada ambang batas yang dipilih.

Kurva ROC (setelah frasa teknis “karakteristik operasi penerima”) dan metrik ROC AUC terkait (atau “area di bawah kurva”) menyelidiki kinerja model pada banyak ambang batas yang berbeda. Secara teknis, kurva ROC memplot tingkat positif benar (TPR) terhadap tingkat positif palsu (FPR) seiring dengan perubahan ambang batas. Secara konseptual, ROC AUC tidak bergantung pada penilaian subjektif pada ambang batas tertentu, melainkan menilai secara keseluruhan apakah suatu model mampu melakukan pemilahan dengan baik: “Terlepas dari di mana kita menetapkan ambang batasnya, apakah model tersebut setidaknya secara konsisten menghasilkan skor kepercayaan yang lebih tinggi ketika tanda berhenti memang ada?” ROC AUC merangkum kemampuan keseluruhan ini untuk memisahkan positif dari negatif.

Akademi AI

Mengapa model dasar merupakan perubahan paradigma untuk AI

Pelajari tentang kelas baru model AI yang dapat digunakan kembali dan fleksibel, yang dapat membuka pendapatan baru, mengurangi biaya, dan meningkatkan produktivitas. Lalu gunakan buku panduan kami untuk mempelajari lebih dalam.

Model regresi dan metrik regresi

Bagian sebelumnya membahas masalah “klasifikasi”, di mana suatu fenomena (baik itu tanda berhenti maupun kanker) secara jelas ada, atau tidak. Namun, banyak fenomena (nilai properti, kadar glukosa pasien) terjadi dalam rentang yang luas, sehingga memerlukan model dan ukuran kinerja yang berbeda-beda. Model-model yang menangani fenomena-fenomena ini menghasilkan angka, bukan kategori. Model-model tersebut disebut model regresi dan dievaluasi menggunakan metrik regresi, yang pada dasarnya menanyakan, “Seberapa jauh angka tersebut menyimpang dari nilai yang sebenarnya?”

Kesalahan absolut rata-rata (MAE) menanyakan, “Secara rata-rata, seberapa jauh selisihnya?” Jika sebuah model pada minggu ini memperkirakan sebuah rumah akan terjual seharga USD 500.000 dan ternyata terjual seharga USD 525.000, lalu pada minggu berikutnya memperkirakan sebuah rumah akan terjual seharga USD 400.000 dan ternyata terjual seharga USD 390.000, maka MAE-nya adalah USD 17.500 (25.000 + 10.000, dibagi 2). MAE tidak memperhitungkan apakah suatu model secara konsisten memberikan prediksi yang terlalu tinggi atau terlalu rendah. MAE hanya melihat jarak rata-rata dari kebenaran.

Root mean squared error (RMSE) mirip, tetapi memberikan penalti yang lebih berat pada angka-angka yang jauh dari nilai yang seharusnya. Hal ini dilakukan dengan mengkuadratkan kesalahan—yang membuat kesalahan besar menjadi semakin besar—sebelum mengambil akar kuadrat dari rata-rata yang dihasilkan. RMSE pada contoh sebelumnya adalah USD 19.039. (MSE yang terkait, atau mean squared error, bekerja dengan cara yang serupa tetapi tanpa akar kuadrat, sehingga membuatnya kurang mudah diinterpretasikan namun terkadang berguna secara matematis.) RMSE berguna ketika kesalahan yang besar menimbulkan kerugian yang sangat besar.

Metrik yang kurang intuitif adalah R-kuadrat. Nilai R-squared tidak mengukur seberapa jauh prediksi model menyimpang, melainkan seberapa besar variasi keseluruhan variabel terukur yang berhasil dijelaskan oleh model tersebut.

Untuk memahami R-squared, bayangkan terlebih dahulu sebuah model harga rumah yang sangat sederhana yang menghasilkan nilai yang sama untuk setiap rumah: harga rata-rata di daerah tersebut. R-kuadrat bertanya: Seberapa jauh lebih baik model kita daripada penebak rata-rata murni? Semakin baik model menangkap varians dalam harga aktual, semakin tinggi R-kuadratnya. (Nilai R-kuadrat sebesar 0,85 berarti model tersebut menjelaskan sekitar 85% variasi pada variabel terukur; sedangkan nilai R-kuadrat sebesar 0 berarti model tersebut tidak lebih baik daripada model yang hanya menghasilkan angka acak.)

Seperti semua ukuran, R-kuadrat pun tidak sempurna. Metode ini sangat rentan terhadap data yang mengandung nilai penyimpangan.

 

Tantangan dan masalah dalam evaluasi model

Tidak setiap siswa yang lulus ujian benar-benar mempelajari materi. Siswa mungkin telah menghafal kartu flash tetapi bukan konsep yang diinternalisasi. Siswa itu mungkin telah curang, entah bagaimana melihat tes sebelumnya, Siswa itu mungkin hanya beruntung. Hal ini sama dengan model machine learning.  

Ketika data terbatas

Salah satu kesalahan dasar dalam mengevaluasi model machine learning adalah menguji model pada data yang sama yang digunakan untuk pelatihan model. Model mungkin berkinerja sangat baik, tetapi hanya karena pada dasarnya telah menghafal data. Model ini belum berhasil menggeneralisasi pemahaman apa pun mengenai fenomena mendasar yang seharusnya dideteksinya, dan kemungkinan besar akan gagal ketika dihadapkan pada data baru di dunia nyata. Istilah teknis untuk perilaku yang mirip dengan menghafal ini adalah overfitting.

Langkah pengamanan yang umum digunakan disebut pemisahan data pelatihan dan pengujian: Data yang tersedia dibagi menjadi dua bagian, yaitu bagian yang boleh digunakan model untuk belajar (data pelatihan) dan bagian lain yang tidak boleh dilihat model hingga tahap pengujian (kumpulan data pengujian). Namun, langkah pengamanan ini pun bisa menghasilkan hasil yang tidak akurat, karena pembagian sampel yang kurang menguntungkan dapat memengaruhi hasil pengujian model. Selain itu, jika data terbatas, terdapat dilema yang sulit diatasi antara menggunakan data untuk pelatihan versus menyimpannya untuk pengujian. 

Praktisi ML mengatasi masalah ini dengan validasi silang. Dengan validasi silang, sebuah kumpulan data dibagi menjadi apa yang disebut lipatan. Sebagian besar lipatan digunakan untuk melatih model, sedangkan satu lipatan disisihkan untuk mengujinya. Kemudian, proses tersebut diulangi pada salinan model yang baru, dengan lipatan-lipatan yang diputar; lipatan yang berbeda kini menjadi kumpulan data uji. Nilai tes dari berbagai kali pengujian tersebut dihitung rata-ratanya. Pendekatan ini memberikan perkiraan yang lebih akurat mengenai seberapa baik model tersebut kemungkinan akan bekerja pada data baru, sekaligus memaksimalkan pemanfaatan kumpulan data yang terbatas (karena setiap titik data dapat digunakan untuk pelatihan dalam satu konteks dan pengujian dalam konteks lain).

Pada akhirnya, jika tidak ada satu pun model yang diuji menunjukkan kinerja yang memadai, para praktisi dapat mencoba melakukan penyetelan hiperparameter—yaitu menyesuaikan pengaturan bawaan seperti kedalaman model atau laju pembelajaran—untuk melihat apakah kinerjanya membaik.

Di Python, pustaka seperti scikit-learn memudahkan penerapan validasi silang, yang merupakan salah satu alasan mengapa hal ini telah menjadi praktik standar.

Ketika “jawaban yang benar” tidak jelas

Terkadang apa yang disebut “ground truth” atau "kebenaran dasar" itu sangat jelas: Pasien tersebut menderita kanker atau tidak; rumah itu terjual dengan harga sekian. Namun dengan munculnya model bahasa besar (LLM), kinerja model sering kali kurang jelas atau mudah diukur.

Chatbot yang didukung oleh model bahasa besar (LLM) mungkin harus menghadapi beberapa tugas biner, seperti apakah informasi yang disampaikannya benar atau salah. Tetapi penggunanya juga dapat mengevaluasinya di sepanjang berbagai dimensi yang sulit didefinisikan, seperti keramahan atau bantuan. Dalam kasus seperti itu, tidak ada jawaban tunggal yang benar, tidak ada “nilai sebenarnya” untuk tolok ukur. Anotasi manusia dianggap sebagai standar emas untuk mengevaluasi output LLM, tetapi ini adalah metode yang tidak berskala. 

Pada akhirnya, dalam kasus seperti itu, penilaian akhir terhadap model mungkin diperoleh dengan meluncurkan model tersebut ke pasar dan melihat apakah pengguna mendapatkan manfaat darinya atau tidak.

Penulis

David Zax

Staff Writer

IBM Think

Solusi terkait
IBM Bob

Percepat pengiriman perangkat lunak dengan Bob, mitra AI Anda untuk pengembangan yang aman dan memahami maksud.

Jelajahi IBM® Bob
IBM® watsonx Orchestrate

Rancang asisten dan agen AI yang dapat diskalakan dengan mudah, otomatiskan tugas berulang, dan sederhanakan proses kompleks dengan IBM®watsonx Orchestrate.

Jelajahi watsonx Orchestrate
Solusi kecerdasan buatan (AI)

Manfaatkan AI di bisnis Anda dengan perpaduan antara keahlian AI terdepan di industri dari IBM dan portofolio solusi Anda.

Jelajahi solusi AI
Ambil langkah selanjutnya

Di mana pun Anda berada dalam siklus pengembangan, Bob membantu Anda—memberikan ulasan agen yang sadar maksud, selaras dengan keamanan, yang mempercepat pengiriman perangkat lunak berkualitas tinggi.

  1. Jelajahi IBM® Bob
  2. Jelajahi watsonx Orchestrate