Kinerja model menunjukkan seberapa baik model machine learning (ML) menjalankan tugas yang dirancang untuknya, berdasarkan berbagai metrik. Pengukuran kinerja model sangat penting untuk mengoptimalkan model ML sebelum merilisnya ke produksi dan untuk meningkatkannya setelah penerapan. Tanpa pengoptimalan yang tepat, model dapat menghasilkan prediksi yang tidak akurat atau tidak dapat diandalkan dan mengalami inefisiensi, sehingga menghasilkan kinerja yang buruk.
Penilaian kinerja model terjadi selama evaluasi model dan tahap pemantauan model dari pipeline machine learning. Setelah praktisi kecerdasan buatan (AI) bekerja pada fase awal proyek ML, mereka kemudian mengevaluasi kinerja model di berbagai kumpulan data, tugas, dan metrik untuk mengukur efektivitasnya. Setelah model diterapkan, tim operasi machine learning (MLOps) memantau kinerja model untuk perbaikan berkelanjutan.
Kinerja model AIumumnya diukur menggunakan set uji, membandingkan output model dengan prediksi pada set uji dasar. Insight yang diperoleh dari mengevaluasi kinerja membantu menentukan apakah model siap untuk penerapan dunia nyata atau apakah perlu penyesuaian atau pelatihan tambahan.
Berikut adalah beberapa faktor yang dapat memengaruhi kinerja model machine learning:
Kualitas model hanya sebaik data yang digunakan untuk melatihnya. Performa model menjadi kurang baik ketika data pelatihannya cacat, mengandung ketidakakuratan atau ketidakkonsistenan seperti duplikasi, kehilangan nilai, dan label data atau anotasi data yang salah. Kurangnya keseimbangan—seperti memiliki terlalu banyak nilai untuk satu skenario di atas skenario lain atau kumpulan data pelatihan yang tidak cukup atau cukup beragam untuk menangkap korelasi dengan benar — juga dapat menyebabkan hasil yang melenceng.
Kebocoran data dalam machine learning terjadi ketika model menggunakan informasi selama pelatihan yang tidak akan tersedia pada saat prediksi. Hal ini dapat disebabkan oleh kesalahan prapemrosesan data atau kontaminasi karena pemisahan data yang tidak tepat ke dalam set pelatihan, validasi, dan pengujian. Kebocoran data menyebabkan model prediktif kesulitan ketika menggeneralisasi data yang tidak terlihat, menghasilkan hasil yang tidak akurat atau tidak dapat diandalkan, atau menggembungkan atau mengempiskan metrik kinerja.
Seleksi fitur melibatkan pemilihan fitur yang paling relevan dari kumpulan data yang akan digunakan untuk pelatihan model. Fitur data memengaruhi cara algoritma machine learning mengonfigurasi bobotnya selama pelatihan, yang pada gilirannya mendorong kinerja. Selain itu, mengurangi ruang fitur ke subset yang dipilih dapat membantu meningkatkan kinerja sekaligus menurunkan tuntutan komputasi. Namun, memilih fitur yang tidak relevan atau tidak signifikan dapat melemahkan kinerja model.
Overfitting terjadi ketika sebuah model ML terlalu kompleks dan terlalu cocok atau bahkan sama persis dengan data pelatihannya, sehingga tidak dapat menggeneralisasi dengan baik pada data baru. Sebaliknya, underfitting terjadi ketika model sangat sederhana sehingga gagal menangkap pola yang mendasarinya dalam data pelatihan dan pengujian.
Penyimpangan model mengacu pada penurunan kinerja model karena perubahan data atau hubungan antara variabel input dan output. Peluruhan ini dapat berdampak negatif pada kinerja model, yang menyebabkan pengambilan keputusan yang salah dan prediksi yang buruk.
Bias dalam AI dapat diperkenalkan pada setiap fase alur kerja machine learning, tetapi ini sangat lazim dalam pemrosesan data dan tahap pengembangan model. Bias data terjadi ketika sifat tidak representatif dari kumpulan data pelatihan dan fine-tuning berdampak buruk pada perilaku dan kinerja model. Sementara itu, bias algoritmik tidak disebabkan oleh algoritma itu sendiri, melainkan oleh cara tim ilmu data mengumpulkan dan membuat kode data pelatihan serta cara pemrogram AI merancang dan mengembangkan algoritma machine learning. Bias AI dapat menyebabkan output yang tidak akurat dan hasil yang berpotensi berbahaya.
Buletin industri
Dapatkan kurasi insight tentang berita AI yang paling penting dan menarik. Berlangganan buletin Think mingguan. Lihat Pernyataan Privasi IBM.
Langganan Anda akan dikirimkan dalam bahasa Inggris. Anda akan menemukan tautan berhenti berlangganan di setiap buletin. Anda dapat mengelola langganan atau berhenti berlangganan di sini. Lihat Pernyataan Privasi IBM kami untuk informasi lebih lanjut.
Penting untuk menyelaraskan metrik dengan tujuan bisnis yang ingin dicapai oleh sebuah model. Meskipun setiap jenis model machine learning memiliki metrik sendiri, banyak model yang memiliki beberapa kesamaan:
Akurasi dihitung sebagai jumlah prediksi yang benar dibagi dengan jumlah total prediksi. Persentase ini adalah metrik yang sangat umum.
Akurasi model dan kinerja model sering disamakan, tetapi akurasi model hanyalah salah satu bagian dari kinerja model. Dan sementara keduanya saling terkait, prediksi yang akurat saja tidak dapat memberikan pandangan holistik tentang seberapa baik kinerja model.
Recall mengukur jumlah positif yang sebenarnya—prediksi yang benar yang sebenarnya. Ini juga dikenal sebagai tingkat sensitivitas atau tingkat positif sejati (TPR).
Metrik ini sangat penting dalam perawatan kesehatan, misalnya, ketika mendiagnosis penyakit atau mendeteksi kanker. Model ML dengan recall yang tinggi dapat mengidentifikasi kasus positif dengan benar sambil meminimalkan negatif palsu (kasus positif yang sebenarnya salah diprediksi sebagai kasus negatif)Â
Presisi adalah proporsi prediksi positif yang merupakan positif sesungguhnya. Model machine learning dengan presisi tinggi dapat meminimalkan positif palsu (kasus negatif aktual yang salah diprediksi sebagai kasus positif).
Metrik ini sangat penting dalam keuangan, misalnya, ketika mendeteksi penipuan. Transaksi yang ditandai haruslah transaksi yang curang (positif asli) karena menandai transaksi yang sah sebagai transaksi yang curang (positif palsu) dapat menimbulkan konsekuensi negatif.
 Â
Skor F1 adalah rata-rata harmonik dari recall dan presisi, memadukan kedua metrik menjadi satu satu. Ini menganggap kedua ukuran memiliki bobot yang sama untuk menyeimbangkan positif palsu atau negatif palsu. Ini sangat berguna untuk kumpulan data yang tidak seimbang, seperti ketika mendeteksi penyakit langka, karena kasus negatif jauh lebih banyak daripada kasus positif.
 Â
Banyak kerangka kerja AI, seperti PyTorch yang berbasis Python, scikit-learn, dan TensorFlow, menawarkan fungsi bawaan untuk menghitung akurasi, recall, presisi, dan skor F1. Kerangkat kerja ini juga menyediakan visualisasi prediksi model sebagai matriks kebingungan—tabel yang mewakili nilai prediksi dan aktual, dengan kotak yang menggambarkan jumlah positif benar, positif palsu, negatif benar, dan negatif palsu.
Model klasifikasi mengurutkan titik data ke dalam kelompok yang telah ditentukan yang disebut kelas. Berikut adalah beberapa metrik khusus untuk model klasifikasi:
Model regresi digunakan untuk prediksi yang melibatkan nilai kontinu, seperti perkiraan retail penjualan dan perkiraan harga saham. Karena algoritma ini berurusan dengan konsep yang dapat diukur, metriknya mengukur kesalahan dalam prediksi:
Kesalahan absolut rata-rata (MAE) dihitung sebagai jumlah nilai absolut dari semua kesalahan dibagi dengan ukuran sampel. Metrik ini mengukur perbedaan absolut rata-rata antara nilai prediksi dan nilai aktual.
Kesalahan kuadrat rata-rata (MSE) dihitung sebagai rata-rata dari perbedaan kuadrat antara nilai prediksi dan nilai sebenarnya di semua sampel pelatihan. Mengkuadratkan kesalahan menghukum kesalahan besar dan memberi insentif pada model untuk menguranginya.
Kesalahan rata-rata kuadrat akar (RMSE) adalah akar kuadrat dari MSE. Menguadratkan kesalahan sebelum merata-ratakannya akan menghukum kesalahan yang lebih besar dengan lebih berat, dan sekali lagi mendorong model untuk meminimalkannya.
Metrik ini mengevaluasi kinerja model pemrosesan bahasa alami (NLP). Metrik ini juga digunakan sebagai tolok ukur untuk model bahasa besar (LLM).
Berikut adalah beberapa ukuran model NLP kuantitatif:
Perplexity mengukur seberapa baik sebuah model dalam memprediksi. Semakin rendah skor kebingungan LLM, semakin baik dalam memahami suatu tugas.
Bilingual evaluation understudy (BLEU) mengevaluasi terjemahan mesin dengan menghitung pencocokan n-gram (urutan simbol teks yang berdekatan) antara terjemahan yang diprediksi oleh LLM dan terjemahan yang dibuat oleh manusia.
Recall-oriented understudy for gisting evaluation (ROUGE) menilai ringkasan teks dan memiliki beberapa jenis. ROUGE-N, misalnya, melakukan perhitungan yang serupa dengan BLEU untuk ringkasan, sementara ROUGE-L menghitung urutan umum terpanjang antara ringkasan yang diprediksi dan ringkasan yang dibuat oleh manusia.
Metrik kualitatif mencakup ukuran seperti koherensi, relevansi, dan makna semantik dan biasanya melibatkan penilai manusia yang memeriksa dan menilai model. Keseimbangan metrik kuantitatif dan kualitatif dapat membuat evaluasi yang lebih bernuansa.
Model visi komputer, khususnya yang mencakup segmentasi dan deteksi objek, dievaluasi dengan menggunakan dua ukuran kinerja umum ini:
Perpotongan atas gabungan (IoU) menghitung rasio area perpotongan terhadap area gabungan. Perpotongan mencakup bagian yang tumpang tindih antara kotak pembatas yang membatasi objek yang terdeteksi seperti yang diprediksi oleh model dan objek yang sebenarnya. Gabungan menunjukkan luas total kotak pembatas dan objek aktual. Model visi komputer menggunakan IoU untuk menilai ketepatan pelokalan objek yang terdeteksi.
Rata-rata presisi (mAP) menghitung rata-rata dari semua skor presisi rata-rata di seluruh kelas objek. Model visi komputer menggunakan IoU untuk menilai akurasi prediksi dan deteksi.
Sebagian besar teknik untuk mengoptimalkan kinerja machine learning diimplementasikan selama pengembangan model, pelatihan, dan evaluasi. Namun, setelah model diterapkan di dunia nyata, kinerjanya harus terus dilacak. Pemantauan model menginformasikan keputusan tentang cara meningkatkan kinerja dari waktu ke waktu.Â
Menyempurnakan kinerja model ML memerlukan satu atau lebih teknik ini:
Banyak kerangka kerja AI memiliki fitur bawaan yang mendukung sebagian besar teknik ini.
Menetapkan dan memelihara prosedur prapemrosesan data atau persiapan data yang ketat dapat membantu menghindari masalah kualitas data. Meskipun pembersihan data, denoising, dan normalisasi data merupakan andalan prapemrosesan data, ilmuwan data juga dapat menggunakan alat otomatisasi data dan bahkan alat didukung AI untuk menghemat waktu dan tenaga serta mencegah kesalahan manusia. Untuk kumpulan data yang tidak mencukupi atau tidak seimbang, data sintetis dapat mengisi kekosongan.
Penanganan data yang cermat adalah kunci untuk mencegah kebocoran data. Data harus dibagi dengan benar ke dalam set pelatihan, validasi, dan pengujian, dengan pra-pemrosesan dilakukan secara terpisah untuk setiap set.
Validasi silang juga dapat membantu. Validasi silang membagi data menjadi beberapa subset dan menggunakan subset yang berbeda untuk pelatihan dan validasi dalam sejumlah iterasi yang ditentukan.
Pemilihan fitur dapat menjadi tantangan dan membutuhkan keahlian domain untuk menentukan fitur yang paling penting dan berpengaruh. Penting untuk memahami signifikansi setiap fitur dan memeriksa korelasi antara fitur dan variabel target (variabel dependen yang harus diprediksi oleh model).
Metode pemilihan fitur untuk pembelajaran dengan pengawasan termasuk metode wrapper dan metode tertanam. Metode wrapper melatih algoritma machine learning dengan subset fitur yang berbeda, menambah atau menghapusnya, dan menguji hasilnya di setiap iterasi untuk menentukan rangkaian fitur yang menghasilkan kinerja model yang optimal. Metode yang disematkan mengintegrasikan pemilihan fitur ke dalam pelatihan model, mengidentifikasi fitur yang berkinerja buruk dan menghilangkannya dari iterasi berikutnya.
Dengan pembelajaran tanpa pengawasan, model mengetahui fitur data, pola, dan hubungan mereka sendiri. Metode pemilihan fitur untuk pembelajaran tanpa pengawasan meliputi analisis komponen utama (PCA), analisis komponen independen (ICA), dan penyandi otomatis.
Penyetelan hiperparameter, juga dikenal sebagai optimasi hiperparameter atau penyetelan model, mengidentifikasi, memilih, dan mengoptimalkan hiperparameter model pembelajaran mendalam untuk mendapatkan kinerja pelatihan terbaik. Hiperparameter mengatur proses pembelajaran model, dan menemukan kombinasi dan konfigurasi hiperparameter yang tepat dapat memperkuat kinerja model di dunia nyata.
Metode penyetelan hiperparameter umum termasuk pencarian grid, pencarian acak, optimasi Bayesian dan hyperband. Ilmuwan data juga dapat menerapkan metode otomatis untuk secara algoritmik menemukan hiperparameter optimal yang sesuai dengan contoh penggunaan mereka.
Pembelajaran ansambel menggabungkan beberapa model untuk meningkatkan kinerja prediktif, dengan asumsi bahwa kolektif atau ansambel model dapat menghasilkan prediksi yang lebih baik daripada model tunggal saja.
Berikut adalah beberapa teknik pembelajaran ansambel yang populer:
Bagging, juga disebut agregasi bootstrap, melatih model secara paralel dan independen satu sama lain. Kemudian, rata-rata (untuk tugas regresi) atau mayoritas (untuk masalah klasifikasi) dari prediksi diambil untuk menghitung perkiraan yang lebih akurat.
Boosting melatih model secara berurutan, memperbaiki kesalahan masa lalu di setiap iterasi. Bobot lebih pada contoh yang salah atau salah klasifikasi pada model yang berhasil kemudian ditambahkan, sehingga berfokus pada titik data yang menantang dan meningkatkan kinerja di sepanjang prosesnya.
Stacking melatih model dari kumpulan data yang sama tetapi menerapkan algoritma pelatihan yang berbeda untuk masing-masing. Kemudian prediksi yang dikompilasi atau ditumpuk digunakan untuk melatih model akhir.
Pembelajaran transfer mengambil pengetahuan yang diperoleh oleh model terlatih pada tugas awal atau kumpulan data dan menerapkannya pada tugas target atau kumpulan data yang baru tetapi terkait. Menggunakan kembali model yang terlatih untuk tugas yang berbeda akan meningkatkan kemampuan generalisasi model tersebut, sehingga membantu mengoptimalkan kinerja.
Mengelola overfitting dan underfitting adalah tantangan utama dalam machine learning. Model yang cocok secara optimal secara akurat mengenali pola dalam data tanpa terlalu sensitif terhadap fluktuasi acak atau noise.
Teknik untuk menghindari overfitting dan underfitting termasuk menemukan durasi pelatihan yang tepat untuk memberikan model waktu yang cukup untuk belajar, augmentasi data untuk memperluas set pelatihan dan regularisasi untuk mengurangi varians dalam model dengan menerapkan penalti pada parameter input dengan koefisien yang lebih besar.
Deteksi penyimpangan, aspek inti dari pemantauan dan observabilitas model, dapat membantu melindungi dari penyimpangan model. Misalnya, detektor drift AI secara otomatis mengenali kapan akurasi model menurun atau menyimpang di bawah ambang batas yang telah ditentukan, sementara alat pemantauan terus mengamati skenario penyimpangan.
Setelah penyimpangan terdeteksi, model ML dapat diperbarui secara real time atau dilatih ulang menggunakan kumpulan data yang berisi sampel yang lebih baru dan relevan.
Mitigasi bias AI dimulai dengan tata kelola AI, yang mencakup pagar pembatas, proses, dan standar yang membantu memastikan sistem dan perangkat AI etis dan aman. Berikut adalah beberapa praktik AI yang bertanggung jawab yang dapat mencegah bias:
Latih, validasi, lakukan tuning, dan terapkan AI generatif, model dasar, dan kemampuan machine learning dengan IBM watsonx.ai, studio perusahaan generasi berikutnya untuk pembangun AI. Bangun aplikasi AI dalam waktu singkat, dengan sedikit data.
Gunakan AI di bisnis Anda dalam perpaduan antara keahlian AI terdepan di industri dari IBM dan portofolio solusi Anda.
Temukan kembali alur kerja dan operasi yang penting dengan menambahkan AI untuk memaksimalkan pengalaman, pengambilan keputusan secara real-time, dan nilai bisnis.