Algoritma k-means bersifat nondeterministik karena langkah inisialisasinya acak. Metode ini menyiratkan bahwa jika algoritma dijalankan dua kali pada data yang identik, penugasan kluster mungkin berbeda. Untuk mencapai hasil pengelompokan yang optimal, pemilihan centroid awal yang tepat dan jumlah kluster yang optimal akan meningkatkan akurasi dan kecepatan algoritma k-means.
Menginisialisasi centroid kluster
Setiap kluster diwakili oleh centroid, titik data yang mewakili pusat kluster. K-means mengelompokkan titik-titik data yang serupa ke dalam kluster dengan meminimalkan jarak antara titik-titik data dalam sebuah kluster dengan centroid atau nilai rata-rata k. Tujuan utama algoritma k-means adalah untuk meminimalkan jarak total antara titik-titik dan pusat kluster yang telah ditetapkan. Algoritma beroperasi secara iteratif, dan pemilihan partisi awal dapat sangat mempengaruhi kluster yang dihasilkan.
Risiko inisialisasi acak menghasilkan hasil yang tidak konsisten. Metode inisialisasi centroid ada untuk mengurangi risiko ini. Sebuah studi dari NUS Computing menjelaskan dan membandingkan metode seperti k-means++ yang populer dengan inisialisasi acak.5
K-means ++
K-means++ adalah algoritma k-means yang mengoptimalkan pemilihan satu atau beberapa centroid kluster awal. Dikembangkan oleh peneliti Arthur dan Vassilvitskii, k-means++ meningkatkan kualitas penugasan kluster akhir.6
Langkah pertama untuk inisialisasi dengan menggunakan metode k-means++ adalah memilih satu centroid dari kumpulan data. Untuk setiap centroid berikutnya, hitung jarak setiap titik data dari pusat kluster terdekatnya. Centroid berikutnya dipilih dengan mempertimbangkan kemungkinan bahwa suatu titik berada pada jarak yang proporsional dari centroid terdekat yang dipilih sebelumnya. Proses mengeksekusi iterasi sampai jumlah pusat kluster yang dipilih telah diinisialisasi.
Berikut adalah tutorial dari IBM Developer yang menggunakan metode k-means++ untuk inisialisasi.
Memilih jumlah kluster yang optimal
Idealnya, algoritma k-mean berulang sampai jumlah kluster optimal tercapai. Jumlah maksimum iterasi terpenuhi setelah centroid mencapai konvergensi.
Metode elbow
Salah satu metode untuk mencapai jumlah kluster yang optimal adalah metode elbow. Metode elbow adalah metode grafis untuk menemukan jumlah kluster optimal dalam algoritma k-means clustering. Metode ini mengukur jarak euclidean antara setiap titik data dengan pusat kluster dan memilih jumlah kluster berdasarkan perubahan dalam "within cluster sum of squares" (WCSS). Nilai ini mewakili total varians dalam setiap kluster yang diplot terhadap jumlah kluster.7
Langkah pertama dari metode elbow adalah menghitung WCSS untuk setiap cluster (k). Kemudian, nilai WCSS diplot sepanjang sumbu y dan jumlah kluster diplot pada sumbu x. Ketika jumlah kluster meningkat, titik plot harus membentuk pola yang konsisten. Dari pola ini, menghasilkan rentang untuk jumlah kluster yang optimal.8 Saat memutuskan jumlah kluster, pertimbangkan biaya komputasi. Makin besar jumlah kluster, makin banyak daya pemrosesan yang dibutuhkan terutama dengan kumpulan data yang besar.
Metode ini belum tentu yang terbaik, terutama untuk kumpulan data dengan dimensi tinggi atau bentuk tidak beraturan. Metode lain untuk memilih jumlah kluster yang optimal adalah analisis siluet.9