Model pengelompokan yang baik17 akan menghasilkan kluster dengan kesamaan yang tinggi di dalam kluster dan kesamaan yang rendah antar kluster. Namun, menentukan kualitas kluster bisa sulit, dan pemilihan kriteria keterkaitan serta jumlah kluster dapat memengaruhi hasil secara signifikan. Oleh karena itu, saat membangun model pengklusteran, cobalah berbagai opsi dan pilih yang paling membantu Anda mengeksplorasi serta mengungkap pola dalam kumpulan data untuk analisis selanjutnya. Faktor-faktor yang perlu dipertimbangkan18 meliputi:
- Jumlah cluster yang praktis atau logis untuk kumpulan data (ukuran kumpulan data, bentuk kluster, noise, dan sebagainya)
- Statistik, seperti nilai rata-rata, maksimum dan minimum untuk setiap cluster
- Metrik perbedaan atau kriteria keterkaitan terbaik untuk diterapkan
- Dampak dari setiap outlier atau variabel hasil
- Pengetahuan domain atau kumpulan data tertentu
Metode lain untuk membantu menentukan jumlah cluster yangoptimal19 meliputi:
- Metode siku, di mana Anda memplot jumlah kuadrat dalam kluster terhadap jumlah kluster dan menentukan "elbow" (titik di mana plot mendatar)
- Statistik kesenjangan membandingkan jumlah kuadrat dalam klaster yang terbentuk dengan jumlah kuadrat yang diharapkan dalam distribusi referensi nol, lalu mengidentifikasi perbedaan terbesar sebagai indikator jumlah klaster yang optimal.