El clustering jerárquico, también conocidoa como análisis jerárquico de clústeres (HCA), es un algoritmo de clustering sin supervisión que se puede clasificar de dos maneras: aglomerativo o divisivo.
El clustering aglomerativo se considera un “enfoque ascendente”. Sus puntos de datos se aíslan inicialmente como agrupaciones separadas y luego se fusionan iterativamente en función de la similitud hasta lograr un clúster. Se utilizan comúnmente cuatro métodos diferentes para medir la similitud:
- Vinculación de Ward: este método establece que la distancia entre dos clústeres se define por el aumento en la suma de cuadrados después de fusionar los clústeres.
- Vinculación promedio: este método se define por la distancia media entre dos puntos de cada clúster.
- Vinculación completa (o máxima): este método se define por la distancia máxima entre dos puntos de cada clúster.
- Vinculación única (o mínima): este método se define por la distancia mínima entre dos puntos de cada clúster.
La distancia euclidiana es la métrica más utilizada para calcular estas distancias; sin embargo, en la literatura sobre clustering también se citan otras métricas, como la distancia Manhattan.
El clustering divisivo puede definirse como lo opuesto al clustering aglomerante; en su lugar, adopta un enfoque "descendente". En este caso, un único clúster de datos se divide en función de las diferencias entre los puntos de datos. El clustering divisivo no se usa comúnmente, pero merece la pena destacarlo en el contexto de la agrupación jerárquica. Estos procesos de clustering generalmente se visualizan mediante un dendrograma, un diagrama en forma de árbol que documenta la fusión o división de puntos de datos en cada iteración.