Il clustering gerarchico, noto anche come analisi dei cluster gerarchici (HCA), è un algoritmo di clustering non supervisionato che può essere classificato in due modi: agglomerativo o divisivo.
Il cluster agglomerativo è considerato un "approccio bottoms-up". I suoi dati sono inizialmente isolati come raggruppamenti separati, quindi vengono uniti iterativamente sulla base della somiglianza fino a ottenere un cluster. Quattro diversi metodi sono comunemente usati per misurare la somiglianza:
- Collegamento di Ward: questo metodo afferma che la distanza tra due cluster è definita dall'aumento della somma dei quadrati dopo l'unione dei cluster.
- Collegamento medio: questo metodo è definito dalla distanza media tra due punti in ciascun cluster.
- Collegamento completo (o massimo): questo metodo è definito dalla distanza massima tra due punti in ogni cluster.
- Collegamento singolo (o minimo): questo metodo è definito dalla distanza minima tra due punti in ogni cluster.
La distanza euclidea è la metrica più comunemente utilizzata per calcolare queste distanze; tuttavia, nella letteratura sul clustering vengono citate anche altre metriche, come la distanza di Manhattan.
Il clustering divisivo può essere definito come l'opposto del clustering agglomerativo, poiché utilizza un approccio "top-down". In questo caso, un singolo cluster di dati viene diviso in base alle differenze tra i punti dati. Il clustering divisivo non è comunemente usato, ma vale comunque la pena segnalarlo nel contesto del clustering gerarchico. Questi processi di clustering vengono generalmente visualizzati utilizzando un dendrogramma, ovvero un diagramma ad albero che documenta la fusione o la divisione dei punti dati a ogni iterazione.