Apa itu Kinerja Model dalam Machine Learning?

Penyusun

Staff Writer

IBM Think

Staff Editor, AI Models

IBM Think

Apa itu kinerja model?

Kinerja model menunjukkan seberapa baik model machine learning (ML) menjalankan tugas yang dirancang untuknya, berdasarkan berbagai metrik. Pengukuran kinerja model sangat penting untuk mengoptimalkan model ML sebelum merilisnya ke produksi dan untuk meningkatkannya setelah penerapan. Tanpa pengoptimalan yang tepat, model dapat menghasilkan prediksi yang tidak akurat atau tidak dapat diandalkan dan mengalami inefisiensi, sehingga menghasilkan kinerja yang buruk.

Penilaian kinerja model terjadi selama evaluasi model dan tahap pemantauan model dari pipeline machine learning. Setelah praktisi kecerdasan buatan (AI) bekerja pada fase awal proyek ML, mereka kemudian mengevaluasi kinerja model di berbagai kumpulan data, tugas, dan metrik untuk mengukur efektivitasnya. Setelah model diterapkan, tim operasi machine learning (MLOps) memantau kinerja model untuk perbaikan berkelanjutan.

Faktor-faktor yang mempengaruhi kinerja model

Kinerja model AIumumnya diukur menggunakan set uji, membandingkan output model dengan prediksi pada set uji dasar. Insight yang diperoleh dari mengevaluasi kinerja membantu menentukan apakah model siap untuk penerapan dunia nyata atau apakah perlu penyesuaian atau pelatihan tambahan.

Berikut adalah beberapa faktor yang dapat memengaruhi kinerja model machine learning:

Kualitas data
Kebocoran data
Pemilihan fitur
Kecocokan model
Penyimpangan model
Bias

Kualitas data

Kualitas model hanya sebaik data yang digunakan untuk melatihnya. Performa model menjadi kurang baik ketika data pelatihannya cacat, mengandung ketidakakuratan atau ketidakkonsistenan seperti duplikasi, kehilangan nilai, dan label data atau anotasi data yang salah. Kurangnya keseimbangan—seperti memiliki terlalu banyak nilai untuk satu skenario di atas skenario lain atau kumpulan data pelatihan yang tidak cukup atau cukup beragam untuk menangkap korelasi dengan benar — juga dapat menyebabkan hasil yang melenceng.

Kebocoran data

Kebocoran data dalam machine learning terjadi ketika model menggunakan informasi selama pelatihan yang tidak akan tersedia pada saat prediksi. Hal ini dapat disebabkan oleh kesalahan prapemrosesan data atau kontaminasi karena pemisahan data yang tidak tepat ke dalam set pelatihan, validasi, dan pengujian. Kebocoran data menyebabkan model prediktif kesulitan ketika menggeneralisasi data yang tidak terlihat, menghasilkan hasil yang tidak akurat atau tidak dapat diandalkan, atau menggembungkan atau mengempiskan metrik kinerja.

Pemilihan fitur

Seleksi fitur melibatkan pemilihan fitur yang paling relevan dari kumpulan data yang akan digunakan untuk pelatihan model. Fitur data memengaruhi cara algoritma machine learning mengonfigurasi bobotnya selama pelatihan, yang pada gilirannya mendorong kinerja. Selain itu, mengurangi ruang fitur ke subset yang dipilih dapat membantu meningkatkan kinerja sekaligus menurunkan tuntutan komputasi. Namun, memilih fitur yang tidak relevan atau tidak signifikan dapat melemahkan kinerja model.

Kecocokan model

Overfitting terjadi ketika sebuah model ML terlalu kompleks dan terlalu cocok atau bahkan sama persis dengan data pelatihannya, sehingga tidak dapat menggeneralisasi dengan baik pada data baru. Sebaliknya, underfitting terjadi ketika model sangat sederhana sehingga gagal menangkap pola yang mendasarinya dalam data pelatihan dan pengujian.

Penyimpangan model

Penyimpangan model mengacu pada penurunan kinerja model karena perubahan data atau hubungan antara variabel input dan output. Peluruhan ini dapat berdampak negatif pada kinerja model, yang menyebabkan pengambilan keputusan yang salah dan prediksi yang buruk.

Bias

Bias dalam AI dapat diperkenalkan pada setiap fase alur kerja machine learning, tetapi ini sangat lazim dalam pemrosesan data dan tahap pengembangan model. Bias data terjadi ketika sifat tidak representatif dari kumpulan data pelatihan dan fine-tuning berdampak buruk pada perilaku dan kinerja model. Sementara itu, bias algoritmik tidak disebabkan oleh algoritma itu sendiri, melainkan oleh cara tim ilmu data mengumpulkan dan membuat kode data pelatihan serta cara pemrogram AI merancang dan mengembangkan algoritma machine learning. Bias AI dapat menyebabkan output yang tidak akurat dan hasil yang berpotensi berbahaya.

Tren AI terbaru, dipersembahkan oleh para pakar

Dapatkan kurasi insight tentang berita AI yang paling penting dan menarik. Berlangganan buletin Think mingguan. Lihat Pernyataan Privasi IBM.

Metrik kinerja model

Penting untuk menyelaraskan metrik dengan tujuan bisnis yang ingin dicapai oleh sebuah model. Meskipun setiap jenis model machine learning memiliki metrik sendiri, banyak model yang memiliki beberapa kesamaan:

Akurasi
Perolehan
Presisi
Skor F1

Akurasi

Akurasi dihitung sebagai jumlah prediksi yang benar dibagi dengan jumlah total prediksi. Persentase ini adalah metrik yang sangat umum.

Akurasi model dan kinerja model sering disamakan, tetapi akurasi model hanyalah salah satu bagian dari kinerja model. Dan sementara keduanya saling terkait, prediksi yang akurat saja tidak dapat memberikan pandangan holistik tentang seberapa baik kinerja model.

Recall

Recall mengukur jumlah positif yang sebenarnya—prediksi yang benar yang sebenarnya. Ini juga dikenal sebagai tingkat sensitivitas atau tingkat positif sejati (TPR).

Metrik ini sangat penting dalam perawatan kesehatan, misalnya, ketika mendiagnosis penyakit atau mendeteksi kanker. Model ML dengan recall yang tinggi dapat mengidentifikasi kasus positif dengan benar sambil meminimalkan negatif palsu (kasus positif yang sebenarnya salah diprediksi sebagai kasus negatif)

$R e c a l l = \frac{T P}{T P + F N}$

Presisi

Presisi adalah proporsi prediksi positif yang merupakan positif sesungguhnya. Model machine learning dengan presisi tinggi dapat meminimalkan positif palsu (kasus negatif aktual yang salah diprediksi sebagai kasus positif).

Metrik ini sangat penting dalam keuangan, misalnya, ketika mendeteksi penipuan. Transaksi yang ditandai haruslah transaksi yang curang (positif asli) karena menandai transaksi yang sah sebagai transaksi yang curang (positif palsu) dapat menimbulkan konsekuensi negatif.

$P r e c i s i o n = \frac{T P}{T P + F P}$

Skor F1

Skor F1 adalah rata-rata harmonik dari recall dan presisi, memadukan kedua metrik menjadi satu satu. Ini menganggap kedua ukuran memiliki bobot yang sama untuk menyeimbangkan positif palsu atau negatif palsu. Ini sangat berguna untuk kumpulan data yang tidak seimbang, seperti ketika mendeteksi penyakit langka, karena kasus negatif jauh lebih banyak daripada kasus positif.

$F 1 = \frac{2 * P r e c i s i o n * R e c a l l}{P r e c i s i o n + R e c a l l}$

Banyak kerangka kerja AI, seperti PyTorch yang berbasis Python, scikit-learn, dan TensorFlow, menawarkan fungsi bawaan untuk menghitung akurasi, recall, presisi, dan skor F1. Kerangkat kerja ini juga menyediakan visualisasi prediksi model sebagai matriks kebingungan—tabel yang mewakili nilai prediksi dan aktual, dengan kotak yang menggambarkan jumlah positif benar, positif palsu, negatif benar, dan negatif palsu.

Diagram yang menggambarkan matriks kebingungan

Metrik kinerja model klasifikasi

Model klasifikasi mengurutkan titik data ke dalam kelompok yang telah ditentukan yang disebut kelas. Berikut adalah beberapa metrik khusus untuk model klasifikasi:

Kurva ROC: Kurva karakteristik operasi penerima (ROC) memvisualisasikan proporsi positif asli terhadap negatif asli. Bagan memplot tingkat positif asli terhadap tingkat negatif asli untuk setiap ambang batas yang digunakan dalam klasifikasi model. Statistik area di bawah kurva (AUC) muncul dari kurva ROC dan mengukur seberapa besar kemungkinan positif yang dipilih secara acak memiliki skor kepercayaan yang lebih tinggi daripada negatif acak. AUC-ROC adalah metrik yang berguna untuk tugas-tugas yang melibatkan klasifikasi biner (menyortir data menjadi dua kelas eksklusif).

Kerugian logaritmik: Kerugian logaritmik menilai keyakinan klasifikasi model, dengan menghukum klasifikasi yang salah lebih berat daripada klasifikasi yang kurang yakin. Hal ini sangat berguna ketika menangani output probabilistik, karena model belajar untuk yakin dengan klasifikasi yang benar dan tidak yakin dengan klasifikasi yang salah. Nilai kerugian logaritmik yang lebih rendah menunjukkan kinerja yang lebih baik.

Metrik kinerja model regresi

Model regresi digunakan untuk prediksi yang melibatkan nilai kontinu, seperti perkiraan retail penjualan dan perkiraan harga saham. Karena algoritma ini berurusan dengan konsep yang dapat diukur, metriknya mengukur kesalahan dalam prediksi:

Kesalahan absolut rata-rata (MAE) dihitung sebagai jumlah nilai absolut dari semua kesalahan dibagi dengan ukuran sampel. Metrik ini mengukur perbedaan absolut rata-rata antara nilai prediksi dan nilai aktual.

Kesalahan kuadrat rata-rata (MSE) dihitung sebagai rata-rata dari perbedaan kuadrat antara nilai prediksi dan nilai sebenarnya di semua sampel pelatihan. Mengkuadratkan kesalahan menghukum kesalahan besar dan memberi insentif pada model untuk menguranginya.

Kesalahan rata-rata kuadrat akar (RMSE) adalah akar kuadrat dari MSE. Menguadratkan kesalahan sebelum merata-ratakannya akan menghukum kesalahan yang lebih besar dengan lebih berat, dan sekali lagi mendorong model untuk meminimalkannya.

Metrik kinerja model pemrosesan bahasa alami

Metrik ini mengevaluasi kinerja model pemrosesan bahasa alami (NLP). Metrik ini juga digunakan sebagai tolok ukur untuk model bahasa besar (LLM).

Berikut adalah beberapa ukuran model NLP kuantitatif:

Perplexity mengukur seberapa baik sebuah model dalam memprediksi. Semakin rendah skor kebingungan LLM, semakin baik dalam memahami suatu tugas.

Bilingual evaluation understudy (BLEU) mengevaluasi terjemahan mesin dengan menghitung pencocokan n-gram (urutan simbol teks yang berdekatan) antara terjemahan yang diprediksi oleh LLM dan terjemahan yang dibuat oleh manusia.

Recall-oriented understudy for gisting evaluation (ROUGE) menilai ringkasan teks dan memiliki beberapa jenis. ROUGE-N, misalnya, melakukan perhitungan yang serupa dengan BLEU untuk ringkasan, sementara ROUGE-L menghitung urutan umum terpanjang antara ringkasan yang diprediksi dan ringkasan yang dibuat oleh manusia.

Metrik kualitatif mencakup ukuran seperti koherensi, relevansi, dan makna semantik dan biasanya melibatkan penilai manusia yang memeriksa dan menilai model. Keseimbangan metrik kuantitatif dan kualitatif dapat membuat evaluasi yang lebih bernuansa.

Metrik kinerja model visi komputer

Model visi komputer, khususnya yang mencakup segmentasi dan deteksi objek, dievaluasi dengan menggunakan dua ukuran kinerja umum ini:

Perpotongan atas gabungan (IoU) menghitung rasio area perpotongan terhadap area gabungan. Perpotongan mencakup bagian yang tumpang tindih antara kotak pembatas yang membatasi objek yang terdeteksi seperti yang diprediksi oleh model dan objek yang sebenarnya. Gabungan menunjukkan luas total kotak pembatas dan objek aktual. Model visi komputer menggunakan IoU untuk menilai ketepatan pelokalan objek yang terdeteksi.

Rata-rata presisi (mAP) menghitung rata-rata dari semua skor presisi rata-rata di seluruh kelas objek. Model visi komputer menggunakan IoU untuk menilai akurasi prediksi dan deteksi.

Strategi untuk meningkatkan kinerja model

Sebagian besar teknik untuk mengoptimalkan kinerja machine learning diimplementasikan selama pengembangan model, pelatihan, dan evaluasi. Namun, setelah model diterapkan di dunia nyata, kinerjanya harus terus dilacak. Pemantauan model menginformasikan keputusan tentang cara meningkatkan kinerja dari waktu ke waktu.

Menyempurnakan kinerja model ML memerlukan satu atau lebih teknik ini:

Prapemrosesan data
Mencegah kebocoran data
Memilih fitur yang tepat
Penyetelan hyperparameter
Pembelajaran ansambel
Pembelajaran transfer
Mencapai kecocokan model yang optimal
Melindungi dari penyimpangan model
Mengatasi bias

Banyak kerangka kerja AI memiliki fitur bawaan yang mendukung sebagian besar teknik ini.

Prapemrosesan data

Menetapkan dan memelihara prosedur prapemrosesan data atau persiapan data yang ketat dapat membantu menghindari masalah kualitas data. Meskipun pembersihan data, denoising, dan normalisasi data merupakan andalan prapemrosesan data, ilmuwan data juga dapat menggunakan alat otomatisasi data dan bahkan alat didukung AI untuk menghemat waktu dan tenaga serta mencegah kesalahan manusia. Untuk kumpulan data yang tidak mencukupi atau tidak seimbang, data sintetis dapat mengisi kekosongan.

Mencegah kebocoran data

Penanganan data yang cermat adalah kunci untuk mencegah kebocoran data. Data harus dibagi dengan benar ke dalam set pelatihan, validasi, dan pengujian, dengan pra-pemrosesan dilakukan secara terpisah untuk setiap set.

Validasi silang juga dapat membantu. Validasi silang membagi data menjadi beberapa subset dan menggunakan subset yang berbeda untuk pelatihan dan validasi dalam sejumlah iterasi yang ditentukan.

Memilih fitur yang tepat

Pemilihan fitur dapat menjadi tantangan dan membutuhkan keahlian domain untuk menentukan fitur yang paling penting dan berpengaruh. Penting untuk memahami signifikansi setiap fitur dan memeriksa korelasi antara fitur dan variabel target (variabel dependen yang harus diprediksi oleh model).

Metode pemilihan fitur untuk pembelajaran dengan pengawasan termasuk metode wrapper dan metode tertanam. Metode wrapper melatih algoritma machine learning dengan subset fitur yang berbeda, menambah atau menghapusnya, dan menguji hasilnya di setiap iterasi untuk menentukan rangkaian fitur yang menghasilkan kinerja model yang optimal. Metode yang disematkan mengintegrasikan pemilihan fitur ke dalam pelatihan model, mengidentifikasi fitur yang berkinerja buruk dan menghilangkannya dari iterasi berikutnya.

Dengan pembelajaran tanpa pengawasan, model mengetahui fitur data, pola, dan hubungan mereka sendiri. Metode pemilihan fitur untuk pembelajaran tanpa pengawasan meliputi analisis komponen utama (PCA), analisis komponen independen (ICA), dan penyandi otomatis.

Penyetelan hiperparameter

Penyetelan hiperparameter, juga dikenal sebagai optimasi hiperparameter atau penyetelan model, mengidentifikasi, memilih, dan mengoptimalkan hiperparameter model pembelajaran mendalam untuk mendapatkan kinerja pelatihan terbaik. Hiperparameter mengatur proses pembelajaran model, dan menemukan kombinasi dan konfigurasi hiperparameter yang tepat dapat memperkuat kinerja model di dunia nyata.

Metode penyetelan hiperparameter umum termasuk pencarian grid, pencarian acak, optimasi Bayesian dan hyperband. Ilmuwan data juga dapat menerapkan metode otomatis untuk secara algoritmik menemukan hiperparameter optimal yang sesuai dengan contoh penggunaan mereka.

Pembelajaran ansambel

Pembelajaran ansambel menggabungkan beberapa model untuk meningkatkan kinerja prediktif, dengan asumsi bahwa kolektif atau ansambel model dapat menghasilkan prediksi yang lebih baik daripada model tunggal saja.

Berikut adalah beberapa teknik pembelajaran ansambel yang populer:

Bagging, juga disebut agregasi bootstrap, melatih model secara paralel dan independen satu sama lain. Kemudian, rata-rata (untuk tugas regresi) atau mayoritas (untuk masalah klasifikasi) dari prediksi diambil untuk menghitung perkiraan yang lebih akurat.

Diagram yang menggambarkan bagging dalam konteks pembelajaran ansambel

Boosting melatih model secara berurutan, memperbaiki kesalahan masa lalu di setiap iterasi. Bobot lebih pada contoh yang salah atau salah klasifikasi pada model yang berhasil kemudian ditambahkan, sehingga berfokus pada titik data yang menantang dan meningkatkan kinerja di sepanjang prosesnya.

Diagram yang menggambarkan boosting dalam konteks pembelajaran ansambel

Stacking melatih model dari kumpulan data yang sama tetapi menerapkan algoritma pelatihan yang berbeda untuk masing-masing. Kemudian prediksi yang dikompilasi atau ditumpuk digunakan untuk melatih model akhir.

Diagram yang menggambarkan stacking dalam konteks pembelajaran ansambel

Pembelajaran transfer

Pembelajaran transfer mengambil pengetahuan yang diperoleh oleh model terlatih pada tugas awal atau kumpulan data dan menerapkannya pada tugas target atau kumpulan data yang baru tetapi terkait. Menggunakan kembali model yang terlatih untuk tugas yang berbeda akan meningkatkan kemampuan generalisasi model tersebut, sehingga membantu mengoptimalkan kinerja.

Mencapai kecocokan model yang optimal

Mengelola overfitting dan underfitting adalah tantangan utama dalam machine learning. Model yang cocok secara optimal secara akurat mengenali pola dalam data tanpa terlalu sensitif terhadap fluktuasi acak atau noise.

Teknik untuk menghindari overfitting dan underfitting termasuk menemukan durasi pelatihan yang tepat untuk memberikan model waktu yang cukup untuk belajar, augmentasi data untuk memperluas set pelatihan dan regularisasi untuk mengurangi varians dalam model dengan menerapkan penalti pada parameter input dengan koefisien yang lebih besar.

Melindungi dari penyimpangan model

Deteksi penyimpangan, aspek inti dari pemantauan dan observabilitas model, dapat membantu melindungi dari penyimpangan model. Misalnya, detektor drift AI secara otomatis mengenali kapan akurasi model menurun atau menyimpang di bawah ambang batas yang telah ditentukan, sementara alat pemantauan terus mengamati skenario penyimpangan.

Setelah penyimpangan terdeteksi, model ML dapat diperbarui secara real time atau dilatih ulang menggunakan kumpulan data yang berisi sampel yang lebih baru dan relevan.

Mengatasi bias

Mitigasi bias AI dimulai dengan tata kelola AI, yang mencakup pagar pembatas, proses, dan standar yang membantu memastikan sistem dan perangkat AI etis dan aman. Berikut adalah beberapa praktik AI yang bertanggung jawab yang dapat mencegah bias:

Diversifikasi sumber data dan sertakan data yang mewakili berbagai kondisi, konteks, dan demografi.
Kembangkan tim yang beragam untuk mempromosikan desain dan pengembangan AI yang inklusif.
Menggunakan teknik AI yang dapat dijelaskan untuk transparansi, seperti Local Interpretable Model-Agnostic Explanations (LIME) untuk menjelaskan prediksi pengklasifikasi oleh algoritma ML dan Shapley Additive Explanations (SHAP) untuk menjelaskan output dari model ML apa pun.
Masukkan metrik keadilan ke dalam proses pengembangan dan gunakan alat dan kerangka kerja keadilan algoritmik.
Lakukan audit rutin untuk menilai data dan algoritma untuk bias.
Terapkan pemantauan kinerja berkelanjutan untuk model ML yang diterapkan untuk mendeteksi dan memperbaiki bias dalam hasil dengan cepat.

Mixture of Experts | 12 Desember, episode 85

Decoding AI: Rangkuman Berita Mingguan

Bergabunglah dengan panel insinyur, peneliti, pemimpin produk, dan sosok kelas dunia lainnya selagi mereka mengupas tuntas tentang AI untuk menghadirkan berita dan insight terbaru seputar AI.

Tonton semua episode Mixture of Experts

Buka kekuatan AI + ML generatif

Pelajari cara menggabungkan AI generatif dan machine learning dengan percaya diri ke dalam bisnis Anda.

Apa itu kinerja model?

Penyusun

Apa itu kinerja model?

Faktor-faktor yang mempengaruhi kinerja model

Kualitas data

Kebocoran data

Pemilihan fitur

Kecocokan model

Penyimpangan model

Bias

Tren AI terbaru, dipersembahkan oleh para pakar

Terima kasih! Anda telah berlangganan.

Metrik kinerja model

Akurasi

Recall

Presisi

Skor F1

Metrik kinerja model klasifikasi

Metrik kinerja model regresi

Metrik kinerja model pemrosesan bahasa alami

Metrik kinerja model visi komputer

Strategi untuk meningkatkan kinerja model

Prapemrosesan data

Mencegah kebocoran data

Memilih fitur yang tepat

Penyetelan hiperparameter

Pembelajaran ansambel

Pembelajaran transfer

Mencapai kecocokan model yang optimal

Melindungi dari penyimpangan model

Mengatasi bias

Decoding AI: Rangkuman Berita Mingguan

Sumber daya