Apa itu matriks kebingungan?

Pengusaha muda wanita berdiri di dekat jendela dengan ponsel di kantor startup

Penyusun

Jacob Murel Ph.D.

Senior Technical Content Creator

Eda Kavlakoglu

Business Development + Partnerships

IBM Research

Matriks kebingungan membantu menilai kinerja model klasifikasi dalam machine learning dengan membandingkan nilai prediksi dengan nilai aktual untuk sebuah kumpulan data.

Matriks kebingungan (atau, matriks kesalahan) adalah metode visualisasi untuk hasil algoritma pengklasifikasi. Lebih khusus lagi, ini adalah tabel yang merinci jumlah contoh kebenaran dasar dari kelas tertentu terhadap jumlah contoh kelas yang diprediksi. Matriks kebingungan adalah salah satu dari beberapa metrik evaluasi yang mengukur kinerja model klasifikasi. Itu dapat digunakan untuk menghitung sejumlah metrik kinerja model lainnya, seperti presisi dan ingatan.

Matriks kebingungan dapat digunakan dengan algoritma pengklasifikasi apa pun, seperti Naïve Bayes, model regresi logistik, model decision trees, dan sebagainya. Karena penerapannya yang luas dalam ilmu data dan model machine learning, banyak paket dan pustaka dilengkapi dengan fungsi untuk membuat matriks kebingungan, seperti modul sklearn.metrics scikit-learn untuk Python.

Desain 3D bola yang menggelinding di lintasan

Berita + Insight AI terbaru 


Temukan insight dan berita yang dikurasi oleh para pakar tentang AI, cloud, dan lainnya di Buletin Think mingguan. 

Tata letak matriks kebingungan

Dalam matriks kebingungan, kolom mewakili nilai prediksi dari kelas tertentu sementara baris mewakili nilai sebenarnya (yaitu kebenaran dasar) dari kelas tertentu, atau sebaliknya. Perhatikan bahwa kebalikannya juga muncul dalam penelitian. Struktur grid ini adalah alat yang praktis untuk memvisualisasikan akurasi klasifikasi model dengan menampilkan jumlah prediksi yang benar dan prediksi yang salah untuk semua kelas secara berdampingan.

Templat matriks kebingungan standar untuk pengklasifikasi biner mungkin terlihat seperti ini:

Kotak atas kiri menunjukkan jumlah positif nyata (TP), yaitu jumlah prediksi yang benar untuk kelas positif. Kotak di bawahnya adalah positif palsu (FP), contoh kelas negatif tersebut salah diidentifikasi sebagai kasus positif. Ini juga disebut kesalahan tipe I dalam statistik. Kotak kanan atas adalah jumlah negatif palsu (FN), contoh positif nyata yang diprediksi negatif secara keliru. Terakhir, kotak kanan bawah menampilkan jumlah negatif nyata (TN), yang merupakan contoh kelas negatif aktual yang secara akurat diprediksi negatif. Menjumlahkan masing-masing nilai ini akan memberikan jumlah total prediksi model.1

Tentu saja, templat ini adalah untuk masalah klasifikasi biner dasar. Matriks kebingungan dapat memvisualisasikan hasil untuk masalah klasifikasi multi-kelas juga. Sebagai contoh, bayangkan kita sedang mengembangkan model klasifikasi spesies sebagai bagian dari program konservasi kehidupan laut. Model memprediksi spesies ikan. Matriks kebingungan untuk masalah klasifikasi multi-kelas seperti itu mungkin terlihat seperti ini:

Kotak diagonal semuanya menunjukkan prediksi positif yang benar. Kotak-kotak lainnya menunjuk jumlah untuk positif palsu, negatif palsu, dan negatif sejati, tergantung pada kelas mana yang dipilih untuk difokuskan.

Menggunakan matriks kebingungan untuk evaluasi model

Dengan visualisasi hasil prediksi pengklasifikasi yang mudah diakses, matriks kebingungan berguna untuk menghitung metrik evaluasi model lainnya. Nilai dapat dengan mudah ditarik dari matriks dan dimasukkan ke sejumlah persamaan untuk mengukur kinerja model.

Akurasi

Akurasi model bukanlah metrik evaluasi yang sepenuhnya informatif untuk pengklasifikasi. Misalnya, bayangkan kita menjalankan pengklasifikasi pada kumpulan data berisi 100 contoh. Matriks kebingungan model hanya menunjukkan satu negatif nyata dan tidak ada positif palsu; model mengklasifikasikan dengan benar setiap instance data lainnya. Dengan demikian model memiliki akurasi 99%. Meskipun seolah-olah diinginkan, akurasi tinggi tidak dengan sendirinya menunjukkan kinerja model yang sangat baik. Misalnya, katakanlah model kami bertujuan untuk mengklasifikasikan penyakit yang sangat menular. Salah klasifikasi 1% itu menimbulkan risiko yang sangat besar. Dengan demikian, metrik evaluasi lainnya dapat digunakan untuk memberikan gambaran yang lebih baik tentang kinerja algoritma klasifikasi.

Presisi dan recall

Presisi adalah proporsi prediksi kelas positif yang sebenarnya termasuk dalam kelas yang bersangkutan.2 Cara lain untuk memahami presisi adalah dengan mengukur kemungkinan sebuah instance yang dipilih secara acak termasuk dalam kelas tertentu.3 Presisi juga dapat disebut nilai prediksi positif (PPV). Ini diwakili oleh persamaan:

Recall menunjukkan persentase instance kelas yang terdeteksi oleh model.4 Dengan kata lain, ini menunjukkan proporsi prediksi positif untuk kelas tertentu dari semua instance aktual kelas tersebut.5 Recall juga dikenal sebagai sensitivitas atau rasio positif nyata (TPR) dan diwakili oleh persamaan:

Skor F1

Ketepatan dan recall kadang-kadang dapat berbagi hubungan terbalik. Saat model meningkatkan recall dengan mengembalikan instance kelas yang lebih aktual (misalnya, positif nyata), model pasti akan salah mengklasifikasikan non-instance (misalnya, positif palsu) juga, sehingga menurunkan presisi.6 Skor F1 mencoba menggabungkan presisi dan recall untuk menangani masalah ini.

Skor F1, yang juga disebut skor F, ukuran F, atau rata-rata harmonik presisi dan recall, menggabungkan presisi dan recall untuk merepresentasikan akurasi tingkat kelas model. Dengan menggunakan kedua nilai ini, skor F1 dapat dihitung dengan persamaan, di mana P menunjukkan presisi (PPV) dan R menunjukkan recall (sensitivitas):

Skor F1 sangat berguna untuk kumpulan data yang tidak seimbang, di mana pertukaran antara presisi dan recall dapat terlihat jelas. Misalnya, katakanlah kita memiliki pengklasifikasi yang memprediksi kemungkinan penyakit langka. Model yang memprediksi tidak ada seorang pun dalam kumpulan data tes kami yang memiliki penyakit ini mungkin memiliki presisi sempurna namun tidak ada recall. Sementara itu, model yang memprediksi semua orang dalam kumpulan data kami memiliki penyakit akan menghasilkan recall yang sempurna tetapi presisi yang sama dengan persentase orang yang benar-benar memiliki penyakit (misalnya 0,00001% jika hanya satu dari setiap sepuluh juta memiliki penyakit). Skor F1 adalah sarana untuk menyeimbangkan kedua nilai ini untuk mendapatkan pandangan yang lebih menyeluruh tentang kinerja pengklasifikasi.7

Beberapa peneliti mengkritik penggunaan skor F1 sebagai metrik kinerja. Argumen semacam itu biasanya mengklaim bahwa skor F1 memberikan bobot yang sama untuk presisi dan recall, yang mungkin bukan merupakan metrik kinerja yang sama pentingnya untuk semua kumpulan data.8 Sebagai tanggapan, para peneliti telah menawarkan varian modifikasi dari skor F1.9

Tindakan bersyarat

Ukuran kondisional menunjukkan tingkat akurasi model untuk mendeteksi kelas atau non-kelas tertentu. Recall, juga dikenal sebagai rasio positif nyata (TPR) atau sensitivitas, adalah salah satu ukuran tersebut, yang menunjukkan rasio prediksi kelas positif dari semua contoh kelas yang sebenarnya. Spesifisitas, atau, rasio negatif nyata (TNR) adalah ukuran bersyarat lainnya. Ukuran ini mengukur proporsi prediksi negatif yang benar dari non-instance aktual dari kelas yang diberikan. Seseorang dapat menghitung spesifisitas dengan persamaan:10

Rasio positif palsu

Spesifisitas membantu menghitung rasio positif palsu (FPR) suatu model. Visualisasi evaluasi pengklasifikasi lainnya, seperti kurva ROC dan AUC, memanfaatkan FPR. FPR merupakan tingkat kemungkinan bahwa suatu model akan secara keliru mengklasifikasikan non-instance dari kelas tertentu sebagai bagian dari kelas tersebut. Jadi, sesuai namanya, ini mewakili rasio di mana suatu model menghasilkan positif palsu, yang dikenal sebagai kesalahan tipe I dalam statistik.

Sementara kesalahan tipe I mengacu pada positif palsu, kesalahan tipe II menunjukkan negatif palsu, contoh aktual dari kelas yang diberikan secara keliru diklasifikasikan sebagai bukan bagian dari kelas tersebut. Sesuai dengan namanya, rasio neghatif palsu (FNR) menunjukkan tingkat kemungkinan sebuah model secara keliru mengklasifikasikan sebuah contoh kelas yang sebenarnya bukan merupakan bagian dari kelas tersebut. Sama seperti FPR yang sesuai dengan spesifisitas, FNR sesuai dengan sensitivitas:

Perlu dicatat bahwa FNR sering tidak digunakan dalam literatur karena memerlukan pengetahuan tentang jumlah total intans aktual untuk kelas tertentu, yang mungkin tidak diketahui dalam kumpulan data uji yang tidak terlihat.11

Metrik tanpa syarat

Metrik tak bersyarat adalah metrik yang merepresentasikan peluang terjadinya atau tidak terjadinya suatu kelas tertentu menurut model. Presisi, atau, nilai prediksi positif (PPV), adalah salah satu metrik tanpa syarat. Seperti disebutkan, ini mengukur kemungkinan bahwa instance yang dipilih termasuk dalam kelas tertentu. Metrik tanpa syarat lainnya, nilai prediksi negatif (NPV), adalah kemungkinan bahwa instance yang dipilih tidak termasuk dalam kelas tersebut. Pada dasarnya, kedua metrik tak bersyarat ini mencoba menjawab apakah sebuah instance yang dipilih secara acak akan menjadi bagian dari kelas tertentu atau tidak. Seseorang dapat menghitung NPV dengan persamaan:12

Gabungan Para Pakar | 28 Agustus, episode 70

Decoding AI: Rangkuman Berita Mingguan

Bergabunglah dengan panel insinyur, peneliti, pemimpin produk, dan sosok kelas dunia lainnya selagi mereka mengupas tuntas tentang AI untuk menghadirkan berita dan insight terbaru seputar AI.

Solusi terkait
IBM® watsonx.ai

Latih, validasi, lakukan tuning, dan terapkan AI generatif, model dasar, dan kemampuan machine learning dengan IBM watsonx.ai, studio perusahaan generasi berikutnya untuk pembangun AI. Bangun aplikasi AI dalam waktu singkat, dengan sedikit data.

Jelajahi watsonx.ai
Solusi kecerdasan buatan (AI)

Manfaatkan AI di bisnis Anda dengan perpaduan antara keahlian AI terdepan di industri dari IBM dan portofolio solusi Anda.

Jelajahi solusi AI
Konsultasi dan layanan kecerdasan buatan (AI)

Layanan IBM Consulting AI membantu merancang ulang cara kerja bisnis dengan AI untuk transformasi.

Jelajahi layanan AI
Ambil langkah selanjutnya

Dapatkan akses ke berbagai kemampuan dalam satu alat untuk seluruh siklus pengembangan AI. Hasilkan solusi AI yang kuat dengan antarmuka ramah pengguna, alur kerja yang efisien, serta akses ke API dan SDK berstandar industri.

Jelajahi watsonx.ai Pesan demo langsung
Catatan kaki

1 Kai Ming Ting, “Confusion matrix”, Encyclopedia of Machine Learning and Data Mining, Springer, 2018.

2 Ethan Zhang dan Yi Zhang, “Precision”, Encyclopedia of Database Systems, Springer, 2018.

3 Max Kuhn dan Kjell Johnson, Applied Predictive Modeling, Springer, 2016.

4 Ethan Zhang dan Yi Zhang, “Recall”, Ensiklopedia Sistem Basis Data, Springer, 2018.

5 Max Kuhn dan Kjell Johnson, Applied Predictive Modeling, Springer, 2016.

6 Ben Carterette, “Precision and Recall”, Encyclopedia of Database Systems, Springer, 2018.

7 Ian Goodfellow, Yoshua Bengio, dan Aaron Courville, Deep Learning, MIT Press, 2016, https://www.deeplearningbook.org/. Kevin Murphy, Machine Learning: A Probabilistic Perspective, MIT Press, 2012.

8 David Hand dan Peter Christen, “A note on using the F-measure for evaluating record linkage algorithms”, Statistics and Computing, Vol. 28, 2018, hlm. 539–547,https://link.springer.com/article/10.1007/s11222-017-9746-6 .

9 David Hand, Peter Christen, and Nishadi Kirielle, “F*: an interpretable transformation of the F-measure”, Machine Learning, Vol. 110, 2021, hlm. 451 456, https://link.springer.com/article/10.1007/s10994-021-05964-1 . Davide Chicco and Giuseppe Jurman, “The advantages of the Matthews correlation coefficient (MCC) over F1 score and accuracy in binary classification evaluation”, BMC Genomics, Vol. 21, 2020,https://bmcgenomics.biomedcentral.com/articles/10.1186/s12864-019-6413-7.

10 Max Kuhn dan Kjell Johnson, Applied Predictive Modeling, Springer, 2016.

11 Allen Downey, Think Stats, edisi ke-2, O'Reilly, 2014.

12 Max Kuhn dan Kjell Johnson, Applied Predictive Modeling, Springer, 2016.