La agrupación en clústeres jerárquica, también conocido como análisis de clúster jerárquico (HCA), es un algoritmo de agrupación en clústeres no supervisado que se puede categorizar de dos maneras: aglomerativo o divisivo.
La agrupación en clústeres aglomerativos se considera un "enfoque ascendente". Sus puntos de datos se aíslan inicialmente como agrupaciones separadas y luego se fusionan de forma iterativa sobre la base de la similitud hasta que se logra un clúster. Se utilizan comúnmente cuatro métodos diferentes para medir la similitud:
- Vinculación de Ward: este método establece que la distancia entre dos clústeres se define por el incremento de la suma de cuadrados luego de fusionar los clústeres.
- Enlace promedio: este método se define por la distancia media entre dos puntos en cada clúster.
- Enlace completo (o máximo): este método se define por la distancia máxima entre dos puntos en cada clúster.
- Enlace único (o mínimo): este método se define por la distancia mínima entre dos puntos de cada clúster.
La distancia euclidiana es la métrica más común empleada para calcular estas distancias; sin embargo, otras métricas, como la distancia de Manhattan, también se citan en la literatura sobre agrupación en clústeres.
La agrupación en clústeres divisiva se puede definir como lo opuesto a la agrupación en clústeres aglomerativa; en su lugar, adopte un enfoque "de arriba hacia abajo". En este caso, un único clúster de datos se divide en función de las diferencias entre los puntos de datos. La agrupación clúster no se usa comúnmente, pero vale la pena señalarla en el contexto de la agrupación jerárquica. Estos procesos de agrupación en clústeres generalmente se visualizan mediante un dendrograma, un diagrama en forma de árbol que documenta la fusión o división de puntos de datos en cada iteración.