Pengelompokan hierarkis, juga dikenal sebagai analisis klaster hierarkis (HCA), adalah algoritma pengelompokan tanpa pengawasan yang dapat dikategorikan dalam dua cara: aglomeratif atau memecah belah.
Pengelompokan aglomeratif dianggap sebagai “pendekatan dari bawah ke atas.” Titik datanya diisolasi sebagai pengelompokan terpisah pada awalnya, dan kemudian digabungkan bersama secara berulang berdasarkan kesamaan sampai satu klaster telah tercapai. Empat metode berbeda biasanya digunakan untuk mengukur kesamaan:
- Keterkaitan Ward: Metode ini menyatakan bahwa jarak antara dua klaster ditentukan oleh peningkatan jumlah kuadrat setelah klaster digabungkan.
- Keterkaitan rata-rata: Metode ini ditentukan oleh jarak rata-rata antara dua titik di setiap klaster.
- Keterkaitan lengkap (atau maksimum): Metode ini ditentukan oleh jarak maksimum antara dua titik di setiap klaster.
- Hubungan tunggal (atau minimum): Metode ini ditentukan oleh jarak minimum antara dua titik di setiap klaster.
Jarak Euclidean adalah metrik yang paling umum digunakan untuk menghitung jarak ini; Namun, metrik lain, seperti jarak Manhattan, juga dikutip dalam literatur pengelompokan.
Pengelompokan divisif dapat didefinisikan sebagai kebalikan dari pengelompokan aglomeratif; sebaliknya, pengelompokan ini mengambil pendekatan “top-down”. Dalam hal ini, klaster data tunggal dibagi berdasarkan perbedaan antara titik data. Pengelompokan yang memecah belah tidak umum digunakan, tetapi masih perlu diperhatikan dalam konteks pengelompokan hierarkis. Proses pengelompokan biasanya divisualisasikan menggunakan dendrogram, yaitu diagram berbentuk pohon yang mencatat penggabungan atau pemisahan titik data pada setiap iterasi.