Clustering hierárquico, também conhecido como análise de clusters hierárquica (hierarchical cluster analysis – HCA), é um algoritmo de clustering não supervisionado que pode ser categorizado de duas formas: aglomerativo ou divisivo.
Clustering aglomerativo é considerado uma “abordagem de baixo para cima”. Os pontos de dados são inicialmente isolados em agrupamentos separados e, em seguida, são mesclados iterativamente com base em sua similaridade até formar um único cluster. Quatro métodos são comumente usados para medir a similaridade:
- Ligação de Ward: a distância entre dois clusters é definida pelo aumento na soma dos quadrados após a junção dos clusters.
- Ligação média: definida pela distância média entre dois pontos em cada cluster.
- Vinculação completa (ou máxima): definida pela maior distância entre dois pontos em cada cluster.
- Ligação única (ou mínima): definida pela menor distância entre dois pontos em cada cluster.
A distância euclidiana é a métrica mais comum usada para calcular essas distâncias; no entanto, outras métricas, como a distância de Manhattan, também são mencionadas na literatura sobre clustering.
Clustering divisivo pode ser definido como o oposto do clustering aglomerativo; ele adota uma abordagem de “cima para baixo”. Nesse caso, um único cluster de dados é dividido com base nas diferenças entre os pontos de dados. O clustering divisivo não é amplamente utilizado, mas ainda vale a pena ser citado no contexto do clustering hierárquico. Esses processos de clustering geralmente são visualizados por meio de um dendrograma, um diagrama em forma de árvore que documenta a junção ou divisão dos pontos de dados a cada iteração.