Apa itu klasifikasi dalam machine learning?

Penyusun

Ivan Belcic

Staff writer

Apa itu klasifikasi dalam machine learning?

Klasifikasi dalam machine learning adalah proses pemodelan prediktif di mana model machine learning menggunakan algoritma klasifikasi untuk memprediksi label yang benar untuk data input. 

Seiring dengan upaya model AI untuk belajar menganalisis dan mengklasifikasikan data dalam kumpulan data pelatihan, mereka menjadi lebih mahir dalam mengidentifikasi berbagai jenis data, menemukan tren, dan membuat prediksi yang lebih akurat. 

Pada akhir proses pelatihan model, kinerja model dievaluasi dengan menggunakan data pengujian. Setelah model berkinerja baik secara konsisten, ia diperkenalkan dengan data dunia nyata yang tidak terlihat. Neural networks terlatih menerapkan apa yang mereka pelajari selama pelatihan untuk membuat prediksi yang berhasil dengan data baru. 

Tren AI terbaru, dipersembahkan oleh para pakar

Dapatkan kurasi insight tentang berita AI yang paling penting dan menarik. Berlangganan buletin Think mingguan. Lihat Pernyataan Privasi IBM.

Terima kasih! Anda telah berlangganan.

Langganan Anda akan dikirimkan dalam bahasa Inggris. Anda akan menemukan tautan berhenti berlangganan di setiap buletin. Anda dapat mengelola langganan atau berhenti berlangganan di sini. Lihat Pernyataan Privasi IBM kami untuk informasi lebih lanjut.

Apa itu model klasifikasi?

Model klasifikasi adalah jenis model machine learning yang menyortir titik data ke dalam kelompok yang telah ditentukan sebelumnya yang disebut kelas. Pengklasifikasi mempelajari karakteristik kelas dari data input, kemudian belajar untuk menetapkan kelas yang mungkin pada data baru yang tidak terlihat sesuai dengan karakteristik yang dipelajari tersebut.1

Akademi AI

Manfaatkan AI untuk layanan pelanggan

Lihat bagaimana AI generatif dapat menyenangkan pelanggan dengan pengalaman yang lebih mulus dan meningkatkan produktivitas organisasi di tiga area utama ini: layanan mandiri, agen manusia, dan operasi pusat kontak.

Apa itu algoritma klasifikasi?

Algoritma klasifikasi adalah machine learning yang berfokus pada kategorisasi yang menyortir data input ke dalam kelas atau kategori berbeda. Model kecerdasan buatan (AI) menggunakan algoritma klasifikasi untuk memproses kumpulan data input terhadap pengklasifikasi tertentu yang menetapkan kriteria bagaimana data harus disortir. Algoritma klasifikasi banyak digunakan dalam ilmu data untuk memperkirakan pola dan memprediksi hasil. 

Bagaimana cara kerja model klasifikasi?

Meskipun tidak ada dua algoritma klasifikasi machine learning yang sama persis, semuanya mengikuti proses klasifikasi data dua langkah umum yang sama: 

  1. Pembelajaran
  2. Klasifikasi 

Langkah 1: Belajar

Klasifikasi pada awalnya merupakan jenis machine learning diawasi yang berarti menggunakan data berlabel untuk melatih model. Dalam pembelajaran diawasi, setiap titik data dalam data pelatihan berisi variabel input (dikenal juga sebagai variabel atau fitur independen) dan variabel output atau label. 

Dalam pelatihan klasifikasi, tugas model adalah memahami hubungan antara fitur dan label kelas, kemudian menerapkan kriteria tersebut pada kumpulan data mendatang. Model klasifikasi menggunakan fitur setiap titik data bersama dengan label kelasnya untuk menguraikan fitur apa yang menentukan setiap kelas. Dalam istilah matematis, model ini menganggap setiap titik data sebagai sebuah tuple x. Tuple adalah urutan numerik yang diurutkan yang ditunjukkan sebagai x = (x1, x2, x3... xn).

Setiap nilai dalam tuple adalah fitur dari titik data. Dengan memetakan data pelatihan menggunakan persamaan ini, model mempelajari fitur mana yang terkait dengan setiap label kelas. 

Tujuan pelatihan adalah untuk meminimalkan kesalahan selama pemodelan prediktif. Algoritma gradient descent melatih model dengan meminimalkan kesenjangan antara hasil prediksi dan hasil aktual. Model nantinya dapat disempurnakan dengan lebih banyak pelatihan untuk melakukan tugas yang lebih spesifik. 

Pendekatan pembelajaran tanpa pengawasan pada masalah klasifikasi telah menjadi fokus utama penelitian terbaru. Metode pembelajaran tanpa pengawasan memungkinkan model untuk menemukan sendiri pola dalam data yang tidak berlabel. Kurangnya label adalah apa yang membedakan pembelajaran tanpa pengawasan dan pembelajaran diawasi

Sementara itu, pembelajaran agak diawasi menggabungkan data berlabel dan tidak berlabel untuk melatih model untuk tujuan klasifikasi dan regresi. Dalam situasi di mana mendapatkan kumpulan data besar berisi data berlabel tidak memungkinkan, pembelajaran agak diawasi adalah alternatif yang layak. 

Langkah 2: Klasifikasi 

Langkah kedua dalam tugas klasifikasi adalah klasifikasi itu sendiri. Dalam fase ini, pengguna menerapkan model pada kumpulan pengujian data baru. Data yang tidak digunakan sebelumnya kini digunakan untuk mengevaluasi kinerja model untuk menghindari overfitting: ketika sebuah model terlalu bergantung pada data pelatihannya dan tidak dapat membuat prediksi yang akurat di dunia nyata. 

Model ini menggunakan fungsi prediksi yang telah dipelajari untuk mengklasifikasikan data baru di berbagai kelas yang berbeda sesuai dengan fitur masing-masing sampel. Pengguna kemudian mengevaluasi akurasi model berdasarkan jumlah sampel data pengujian yang diprediksi dengan benar.2

Jenis klasifikasi apa saja yang tersedia?

Tugas pemodelan prediktif berbasis klasifikasi dibedakan satu sama lain berdasarkan jumlah kategori dan sejauh mana kategori tersebut bersifat eksklusif: 

  • Klasifikasi biner menyortir data ke dalam dua kategori eksklusif. 

  • Klasifikasi multikelas menyortir data ke dalam lebih dari dua kategori eksklusif. 

  • Klasifikasi multilabel menyortir data ke dalam kategori noneksklusif. 

  • Klasifikasi tidak seimbang memiliki distribusi titik data yang tidak merata di seluruh kategori. 

Klasifikasi biner

Dalam masalah klasifikasi biner, model memprediksi apakah data cocok dengan salah satu dari kedua kelas. Teknik pembelajaran yang diterapkan selama pelatihan membuat model menilai fitur dalam data pelatihan dan memprediksi mana dari kemungkinan dua label berlaku pada setiap titik data: positif atau negatif, benar atau salah, dan ya atau tidak. 

Misalnya, filter spam mengklasifikasikan email sebagai spam atau bukan spam. Selain deteksi spam, model klasifikasi biner membuat prediktor perilaku yang andal: apakah pelanggan berpotensi berhenti atau membeli produk tertentu? Mereka juga berguna dalam pemrosesan bahasa alami (NLP), analisis sentimen, klasifikasi gambar, dan deteksi penipuan.

Klasifikasi multikelas

Masalah klasifikasi multikelas mengklasifikasikan data dengan lebih dari dua label kelas yang semuanya saling terpisah. Dengan cara ini, tantangan multikelas mirip dengan tugas klasifikasi biner, hanya saja memiliki lebih banyak kelas. 

Model klasifikasi multikelas memiliki banyak contoh penggunaan di dunia nyata. Selain menentukan apakah email adalah spam atau bukan spam, solusi klasifikasi multikelas juga dapat menentukan apakah email adalah promosi atau prioritas tinggi. Misalnya, pengklasifikasi gambar dapat mengklasifikasikan gambar hewan peliharaan dengan menggunakan sangat banyak label kelas, seperti anjing, kucing, llama, platipus, dan banyak lagi

Tujuan dari metode pembelajaran klasifikasi multikelas adalah untuk mengajarkan model menetapkan input secara akurat ke kemungkinan kategori yang lebih luas. Fungsi objektif umum dalam pelatihan multikelas adalah kesalahan lintas entropi kategoris yang menilai kesenjangan antara prediksi model dengan data pengujian dibandingkan dengan label yang benar untuk setiap titik data.

Klasifikasi multilabel

Klasifikasi multilabel digunakan dalam situasi di mana beberapa label noneksklusif dapat ditetapkan pada setiap titik data. Tidak seperti tipe klasifikasi berbasis eksklusivitas, klasifikasi multilabel memungkinkan kemungkinan bahwa titik data menunjukkan karakteristik dari lebih dari satu kategori—cerminan ambiguitas dunia nyata yang lebih dekat dalam kumpulan big data. 

Tugas klasifikasi multilabel sering kali dilakukan dengan menggabungkan prediksi beberapa model klasifikasi biner atau multikelas.

Klasifikasi tidak seimbang

Klasifikasi tidak seimbang, di mana beberapa kategori berisi lebih banyak titik data daripada kategori lainnya, memerlukan pendekatan khusus. Ketika kelompok tertentu mengumpulkan lebih banyak titik data, beberapa model klasifikasi menjadi bias terhadap kelompok tersebut dan semakin membuat prediksi yang menguntungkan kelompok tersebut. 

Tindakan pencegahan mencakup algoritma yang dikonfigurasi untuk memberikan konsekuensi lebih besar pada prediksi yang salah, atau metode pengambilan sampel yang menghilangkan sampel mayoritas, atau mengambil sampel berlebih dari kelompok yang kurang terwakili. 

Prediksi diskret dan kontinu

Model prediktif menghasilkan output dua jenis prediksi: 

  • Prediksi diskret dengan jelas menyortir data ke dalam kategori berbeda. 

  • Prediksi berkelanjutan menetapkan kelas berdasarkan probabilitas. 

Prediksi diskret

Prediksi diskret adalah label kelas yang diprediksi untuk setiap titik data. Misalnya, prediktor perawatan kesehatan dapat mengklasifikasikan pasien medis sebagai diabetes atau nondiabetes berdasarkan data kesehatan. Kelas diabetes dan nondiabetes adalah prediksi kategoris diskret.

Prediksi berkelanjutan

Pengklasifikasi kontinu menetapkan prediksi kelas sebagai probabilitas kontinu yang disebut skor keyakinan. Probabilitas ini adalah nilai antara 0 dan 1 yang menunjukkan persentase. Model prediktor diabetes dapat mengklasifikasikan pasien sebagai penderita diabetes dengan probabilitas 0,82. Model percaya bahwa peluang pasien menderita diabetes adalah 82%. 

Para peneliti biasanya mengevaluasi model dengan menggunakan prediksi diskret sekaligus menggunakan prediksi kontinu sebagai ambang batas. Pengklasifikasi mengabaikan prediksi apa pun yang berada di bawah ambang batas tertentu. Jika prediktor diabetes kita memiliki ambang batas 0,4 (40%) dan mengklasifikasikan pasien sebagai diabetes dengan probabilitas 0,35 (35%), maka model akan mengabaikan label tersebut dan tidak memasukkan pasien ke dalam kelas diabetes.3

Klasifikasi versus regresi

Perbedaan antara klasifikasi dan regresi adalah bahwa sementara klasifikasi memprediksi kategori titik data, regresi memprediksi nilai numerik nyata terkait. Baik klasifikasi maupun regresi adalah jenis pemodelan prediktif tetapi dengan contoh penggunaan yang berbeda. 

Model klasifikasi menyortir titik data ke dalam kategori. Klasifikasi adalah proses melatih model pembelajaran mendalam untuk menemukan fungsi yang mengategorikan titik data. 

Model regresi mempertimbangkan berbagai titik data untuk memprediksi nilai numerik kontinu untuk variabel lain. Sebagai contoh, sebuah model regresi di tempat kerja dapat memprediksi gaji pekerja berdasarkan usia, pengalaman, lokasi, dan pendidikan. 

Dalam praktiknya, keduanya sering terkait erat. Misalnya, algoritma regresi logistik menggunakan regresi untuk memenuhi tugas klasifikasi.

Jenis algoritma klasifikasi

Ada banyak jenis algoritma klasifikasi yang berbeda. Meskipun mereka memiliki contoh penggunaan yang tumpang tindih, beberapa lebih cocok pada aplikasi tertentu daripada algoritma lain. Beberapa algoritma klasifikasi yang paling populer meliputi: 

  • Regresi logistik

  • Struktur keputusan 

  • Random forest

  • Support vector machine (SVM) 

  • K-nearest neighbor 

  • naive bayes

Kebanyakan algoritma ini dapat dengan mudah diimplementasikan dalam Python dengan menggunakan pustaka scikit-learn. Sementara itu, metode ensambel dan model transformator adalah perkembangan lebih baru yang diterapkan pada masalah klasifikasi.

Regresi logistik

Algoritma regresi logistik sering digunakan untuk melakukan tugas klasifikasi. Regresi logistik adalah pengklasifikasi probabilitas yang berasal dari model regresi linier. Regresi linier menggunakan satu atau lebih variabel independen untuk memprediksi nilai variabel independen. Nilai ini dapat berupa bilangan rasional kontinu berapa pun. 

Regresi logistik adalah modifikasi terhadap regresi linier di mana nilai output (variabel terikat) dibatasi pada nilai berapa pun antara 0 dan 1. Hal ini dilakukan dengan menerapkan transformasi logit—atau log odds—pada rumus regresi linier standar.4

persamaan logit untuk regresi logistik

Model regresi logistik digunakan untuk klasifikasi biner dalam masalah regresi multivariat: ketika mempertimbangkan beberapa variabel, apakah titik data termasuk dalam kategori atau yang lain? Aplikasi umum adalah deteksi penipuan dan prediksi biomedis. Misalnya, regresi logistik telah diterapkan untuk membantu memprediksi kematian pasien yang disebabkan oleh trauma dan penyakit jantung koroner.5

Struktur keputusan

Digunakan untuk klasifikasi dan regresi, struktur keputusan membagi kumpulan data ke dalam kelompok yang semakin kecil dalam serangkaian penilaian klasifikasi biner. Struktur yang dihasilkan menyerupai pohon, bercabang keluar dari penilaian awal ke daun atau node berikutnya. 

Diagram algoritma struktur keputusan

Sifat struktur keputusan yang seperti diagram alir menjadikannya salah satu model yang lebih intuitif untuk dipahami oleh pengguna bisnis. Mudah divisualisasikan, struktur keputusan membawa transparansi ke proses klasifikasi dengan menunjukkan secara jelas proses keputusan dan kriteria yang digunakan untuk mengategorikan data. 

Random forest

Random forest adalah teknik ensambel yang menggabungkan output dari beberapa struktur keputusan menjadi satu hasil. “Hutan” yang dihasilkan meningkatkan akurasi prediksi dibandingkan satu pohon sekaligus mengatasi overfitting. Seperti struktur keputusan, random forest dapat menangani tugas klasifikasi maupun regresi. 

Diagram algoritma random forest

Algoritma random forest membuat beberapa struktur keputusan untuk setiap tugas, menggabungkan prediksi dari semua pohon, lalu memilih jawaban yang paling populer sebagai hasil pasti. Setiap pohon mempertimbangkan subset acak fitur data yang membantu memastikan korelasi rendah di antara pohon. 

Support Vector Machine (SVM)

Algoritma support vector machine (SVM) menggambar titik-titik data ke dalam ruang multidimensi dengan jumlah dimensi yang sesuai dengan jumlah fitur dalam data. Tujuan algoritma adalah untuk menemukan garis optimal—dikenal juga sebagai hyperplane atau batas keputusan—yang paling baik membagi titik-titik data menjadi kategori. 

Hyperplane optimal adalah hyperplane dengan margin terlebar, yang merupakan jarak antara hyperplane dan titik data terdekat di setiap kelas. Titik data terdekat ini dikenal sebagai vektor pendukung. Model yang memisahkan data dengan hyperplane adalah model linier, tetapi algoritma SVM juga dapat menangani tugas klasifikasi nonlinier dengan kumpulan data yang lebih kompleks. 

Regresi logistik, struktur keputusan, random forest, dan algoritma SVM semuanya adalah contoh pembelajar yang bersemangat: algoritma yang membangun model dari data pelatihan dan kemudian menerapkan model tersebut pada prediksi masa depan. Pelatihan membutuhkan waktu lebih lama, tetapi setelah algoritma membangun model yang baik, prediksi berlangsung lebih cepat. 

K-nearest neighbor (KNN)

Algoritma K-nearest neighbors (KNN) memetakan titik data ke ruang multidimensi. Kemudian mengelompokkan titik-titik data dengan nilai fitur serupa ke dalam kelompok terpisah atau kelas. Untuk mengklasifikasikan sampel data baru, pengklasifikasi melihat k jumlah titik terdekat dengan data baru, menghitung anggota setiap kelas yang terdiri dari subset tetangga, dan menampilkan proporsi tersebut sebagai estimasi kelas untuk titik data baru. 

Dengan kata lain, model tersebut menetapkan titik data baru ke kelas mana pun yang mencakup mayoritas tetangga titik tersebut. Model KNN adalah pembelajar yang malas: algoritma yang tidak langsung membangun model dari data pelatihan, tetapi merujuk pada data pelatihan dan membandingkan data baru dengan data tersebut. Biasanya dibutuhkan waktu lebih lama bagi model ini untuk membuat prediksi daripada pembelajar yang bersemangat. 

Model KNN biasanya membandingkan jarak antara titik data dengan jarak Euclide:6

Persamaan jarak Euclidean

Perkiraan tetangga terdekat (ANN) adalah varian dari KNN. Dalam ruang data berdimensi tinggi, menemukan tetangga titik data yang tepat mahal secara komputasi. Reduksi dimensi dan ANN adalah dua solusi pada masalah ini. 

Alih-alih menemukan tetangga terdekat yang tepat dari titik data, ANN menemukan perkiraan tetangga terdekat dalam jarak tertentu. Penelitian terbaru menunjukkan hasil yang menjanjikan untuk ANN dalam konteks klasifikasi multilabel.7

Naive Bayes

Berdasarkan teorema Bayes, pengklasifikasi Naive Bayes menghitung probabilitas posterior untuk prediksi kelas. Naive Bayes memperbarui prediksi kelas awal, atau probabilitas sebelumnya, dengan setiap potongan data baru.

Dengan prediktor diabetes, data medis pasien, tekanan darah, usia, kadar gula darah, dan banyak lagi, adalah variabel independen. Pengklasifikasi Bayesian menggabungkan prevalensi diabetes saat ini di seluruh populasi (probabilitas sebelumnya) dengan probabilitas bersyarat dari nilai data medis pasien yang muncul pada seseorang yang menderita diabetes. 

Pengklasifikasi Bayes Naive mengikuti persamaan Aturan Bayes:8

Persamaan aturan Bayes

Naive Bayes dikenal sebagai pengklasifikasi generatif. Dengan menggunakan nilai variabel pengamatan, pengklasifikasi Bayesian menghitung kelas mana yang kemungkinan besar menghasilkan pengamatan tersebut. 

Para peneliti pemrosesan bahasa alami (NLP) telah menerapkan Naïve Bayes secara luas untuk tugas klasifikasi teks, seperti analisis sentimen. Menggunakan model bag of words di mana setiap kata merupakan variabel, pengklasifikasi Naive Bayes memprediksi apakah kelas positif atau negatif menghasilkan teks yang dimaksud.9

Metode ansambel

Metode ensambel dan teknik machine learning menggabungkan beberapa model yang lebih kecil ke dalam satu pengklasifikasi untuk hasil yang lebih baik. Metode ensambel mendalam menyatukan beberapa model pembelajaran mendalam untuk membuat pengklasifikasi ensambel yang lebih efektif. Ensambel dengan pembelajar mendalam dapat menangani tugas klasifikasi multilabel yang kompleks. 

Gradient boosting adalah metode ensambel yang menunjukkan peningkatan akurasi prediksi. Ini adalah jenis peningkatan, teknik ensambel di mana beberapa pembelajar lemah saling belajar satu sama lain secara berurutan untuk meningkatkan hasil pada setiap iterasi.

Model transformator dalam klasifikasi

Meskipun biasanya digunakan untuk tugas NLP, model transformator juga telah diterapkan pada masalah klasifikasi. Model transformator seperti GPT dan Claude menggunakan mekanisme perhatian mandiri untuk berfokus pada bagian yang paling relevan dari kumpulan data input. Pengodean posisi digunakan untuk menginformasikan model tentang di mana setiap titik data berada dalam suatu urutan. 

Metode evaluasi pembelajaran klasifikasi

Para peneliti dan pengembang memilih metrik evaluasi tertentu untuk model klasifikasi tergantung pada tugas klasifikasi tertentu. Semuanya mengukur akurasi yang digunakan pembelajar, atau pengklasifikasi, untuk memprediksi kelas model secara akurat. 

Beberapa metrik evaluasi yang paling populer adalah: 

  • Akurasi 
  • Presisi 
  • Recall 
  • Skor F1
  • Matriks kebingungan
  • Kurva ROC

Positif sejati (TP) adalah sampel data yang diprediksi model dengan benar di kelasnya masing-masing. Positif palsu (FP) adalah contoh kelas negatif yang salah diidentifikasi sebagai kasus positif. Negatif palsu (FN) adalah contoh positif aktual yang secara keliru diprediksi sebagai negatif. Negatif sejati (TN) adalah contoh kelas negatif aktual yang diklasifikasikan model secara akurat sebagai negatif.

Akurasi

Akurasi adalah rasio positif sejati terhadap semua prediksi dalam kumpulan data. Metrik ini mengukur seberapa sering model machine learning memprediksi hasil dengan benar—dalam hal ini, kelas yang tepat untuk sebuah titik data. 

Akurasi memberikan ikhtisar tingkat tinggi tentang kinerja model, tetapi tidak mengungkapkan apakah model lebih baik dalam memprediksi kelas tertentu dibandingkan model lain. Dalam kasus di mana kumpulan data sangat tidak seimbang, berfokus pada akurasi dapat membuat model mengabaikan semua kumpulan data yang lebih kecil dan memprediksi semua hasil sebagai kelas mayoritas. Dalam situasi ini, akurasi keseluruhan akan tetap tinggi. 

Filter spam akan memiliki akurasi yang tinggi jika sebagian besar tebakannya benar, bahkan jika filter ini melewatkan sebagian besar email spam yang sebenarnya. 

Presisi

Presisi, atau nilai prediksi positif (PPV), adalah proporsi prediksi kelas positif yang termasuk dalam kelas yang ditentukan. Presisi menunjukkan apakah model memprediksi dengan benar untuk kelas target, sehingga berguna untuk tugas klasifikasi yang tidak seimbang atau ketika konsekuensi positif palsu tinggi. 

Dalam filter spam, presisi menunjukkan berapa banyak email spam yang terdeteksi adalah spam. Model yang salah mengklasifikasikan data sebagai positif palsu memiliki presisi rendah, sementara model dengan jumlah positif palsu lebih sedikit memiliki presisi tinggi.10

Rumus presisi

Recall

Juga dikenal dengan sensitivitas atau rasio positif sejati (TPR), recall menunjukkan persentase instans kelas yang terdeteksi oleh suatu model. Recall menunjukkan seberapa sering model mendeteksi anggota kelas target dalam kumpulan data. Untuk filter spam, recall menunjukkan jumlah email spam aktual yang diidentifikasi model sebagai spam.11

Skor F1

Presisi dan recall memiliki hubungan terbalik. Ketika pengklasifikasi mengembalikan lebih banyak hasil positif sejati yang menunjukkan peningkatan recall, pengklasifikasi dapat salah mengklasifikasikan bukan instans, sehingga menghasilkan positif palsu dan mengurangi presisi. Skor F1 menyelesaikan kompromi ini dengan menggabungkan presisi dan recall untuk menunjukkan total akurasi model untuk setiap kelas.12

Formula skor-F

Visualisasi data dan evaluasi model

Alat visualisasi data membantu mengilustrasikan temuan dalam analisis data. Ilmuwan data dan peneliti machine learning menggunakan dua alat utama untuk memvisualisasikan kinerja pengklasifikasi: 

  • Matriks kebingungan, sebuah tabel yang menunjukkan nilai prediksi versus nilai sebenarnya. 

  • Kurva ROC, grafik yang menggambarkan proporsi positif sejati terhadap negatif sejati.

Matriks kebingungan

Matriks kebingungan adalah tabel yang mewakili nilai yang diprediksi dan aktual dari suatu kelas. Kotak matriks menggambarkan jumlah positif sejati, positif palsu, negatif palsu, dan negatif sejati. Total nilai ini adalah jumlah total prediksi model.13

contoh matriks konfusi biner

Kurva ROC

Kurva karakteristik pengoperasian penerima (ROC) memvisualisasikan proporsi positif sejati terhadap negatif sejati. Bagan menggambarkan tingkat positif sejati terhadap tingkat negatif sejati untuk setiap ambang batas yang digunakan dalam klasifikasi model. Statistik area di bawah kurva (AUC) muncul dari kurva ROC. 

AUC mengukur seberapa besar kemungkinan positif yang dipilih secara acak memiliki skor keyakinan yang lebih tinggi daripada negatif acak. Nilai AUC berkisar dari 0 hingga 1. Angka 0 menandakan bahwa model tersebut menilai semua hal negatif dengan probabilitas yang lebih tinggi daripada hal positif, sedangkan angka 1 berarti model tersebut menilai setiap hal positif dengan probabilitas yang lebih tinggi.14

Solusi terkait
IBM watsonx.ai

Latih, validasi, lakukan tuning, dan terapkan AI generatif, model dasar, dan kemampuan machine learning dengan IBM watsonx.ai, studio perusahaan generasi berikutnya untuk pembangun AI. Bangun aplikasi AI dalam waktu singkat, dengan sedikit data.

Temukan watsonx.ai
Solusi kecerdasan buatan (AI)

Gunakan AI di bisnis Anda dalam perpaduan antara keahlian AI terdepan di industri dari IBM dan portofolio solusi Anda.

Jelajahi solusi AI
Konsultasi dan layanan AI

Temukan kembali alur kerja dan operasi yang penting dengan menambahkan AI untuk memaksimalkan pengalaman, pengambilan keputusan secara real-time, dan nilai bisnis.

Jelajahi layanan AI
Ambil langkah selanjutnya

Dapatkan akses ke berbagai kemampuan dalam satu alat untuk seluruh siklus pengembangan AI. Hasilkan solusi AI yang kuat dengan antarmuka ramah pengguna, alur kerja yang efisien, serta akses ke API dan SDK berstandar industri.

Jelajahi watsonx.ai Pesan demo langsung
Catatan kaki

1. Chris Drummond, “Classification,” Encyclopedia of Machine Learning and Data Mining, Springer, 2017.

2. Jaiwei Han, Micheline Kamber, dan Jian Pei, Data Mining: Concepts and Techniques, 3rd edition, Morgan Kaufman, 2012.

3. Max Kuhn dan Kjell Johnson, Applied Predictive Modeling, Springer, 2016.

4. Max Kuhn dan Kjell Johnson, Applied Predictive Modeling, Springer, 2016. Gareth James, Daniela Witten, Trevor Hastie, Robert Tibshirani, dan Jonathan Taylor, An Introduction to Statistical Learning with Applications in Python, Springer, 2023

5. Lisa X. Deng, Abigail May Khan, David Drajpuch, Stephanie Fuller, Jonathan Ludmir, Christopher E. Mascio, Sara L. Partington, Ayesha Qadeer, Lynda Tobin, Adrienne H. Kovacs, dan Yuli Y. Kim, "Prevalence and Correlates of Post-traumatic Stress Disorder in Adults With Congenital Heart Disease," The American Journal of Cardiology, Vol. 117, No. 5, 2016, hal. 853-857, https://www.sciencedirect.com/science/article/abs/pii/S0002914915023590

6. Max Kuhn dan Kjell Johnson, Applied Predictive Modeling, Springer, 2016. Kevin Murphy, Machine Learning: A Probabilistic Perspective, MIT Press, 2012.

7. Ville Hyvönen, Elias Jääsaari, Teemu Roos, “A Multilabel Classification Framework for Approximate Nearest Neighbor Search,” Journal of Machine Learning Research, Vol. 25, No. 46, 2024, hal. 1−51, https://www.jmlr.org/papers/v25/23-0286.html  

8. Max Kuhn dan Kjell Johnson, Applied Predictive Modeling, Springer, 2016. William Bolstad dan James Curran, Introduction to Bayesian Statistics, 3rd edition, Wiley, 2016.

9. Daniel Jurafsky dan James Martin, Speech and Language Processing: An Introduction to Natural Language Processing, Computational Linguistics, and Speech Recognition, 3rd edition, 2023.

10. Ethan Zhang dan Yi Zhang, “Precision,” Encyclopedia of Database Systems, Springer, 2018.

11. Ethan Zhang dan Yi Zhang, “Recall,” Encyclopedia of Database Systems, Springer, 2018.

12. Ben Carterette, “Precision and Recall,” Encyclopedia of Database Systems, Springer, 2018.

13. Kai Ming Ting, “Confusion matrix,” Encyclopedia of Machine Learning and Data Mining, Springer, 2017.

14. Peter Flach, “ROC Analysis,” Encyclopedia of Machine Learning and Data Mining, Springer, 2017.