O clustering hierárquico, às vezes chamado de cluster baseado em conectividade, agrupa pontos de dados com base na proximidade e conectividade de seus atributos.
Esse método determina os agrupamentos com base na proximidade entre os pontos de dados em todas as dimensões. A ideia é que objetos mais próximos estão mais intimamente relacionados do que aqueles que estão longe uns dos outros. Ao contrário do k-means, não há necessidade de pré-especificar o número de clusters. Em vez disso, o algoritmo de agrupamento cria uma rede gráfica dos agrupamentos em cada nível hierárquico. Essa rede é hierárquica, o que significa que qualquer nó fornecido nela tem apenas um nó pai, mas pode ter vários nós filhos.
Os agrupamentos hierárquicos podem ser representados graficamente com um dendrograma para ajudar a resumir e organizar visualmente os agrupamentos descobertos e a hierarquia que eles podem conter.
Há duas abordagens para realizar a análise hierárquica de clusters: Aglomerativo e Divisivo.
Aglomerativo
No clustering aglomerativo, uma abordagem ascendente começa com pontos de dados individuais e mescla sucessivamente os clusters calculando a matriz de proximidade de todos os clusters no nível atual da hierarquia para criar uma estrutura semelhante a uma árvore.
Uma vez que um nível de clusters tenha sido criado, onde todos os clusters têm nenhuma ou baixa similaridade entre clusters, o algoritmo se move para o conjunto de clusters recém-criados e repete o processo até que haja um nó raiz no topo do gráfico hierárquico. Há uma variedade de opções possíveis em termos de como esses clusters devem ser mesclados uns com os outros, com compensações em termos de qualidade e eficiência do agrupamento. No agrupamento de ligação única, a menor distância entre qualquer par de pontos de dados em dois clusters é utilizada como uma medida de similaridade. Na ligação de todos os pares, é utilizada a média em todos os pares de pontos de dados, enquanto na ligação por amostragem, é utilizada uma amostragem dos pontos de dados nos dois clusters para calcular a distância média. Na ligação do centroide, é utilizada a distância entre os centroides.
Um desafio com os métodos aglomerativos é que eles podem exibir encadeamento, onde clusters maiores têm naturalmente o viés de ter distâncias mais próximas de outros pontos e, portanto, continuam a ficar cada vez maiores e a atrair mais pontos de dados para seu cluster. Outra desvantagem é que os métodos aglomerativos podem ser muito mais lentos do que os métodos divisivos de construção da hierarquia.
Divisivo
Nos métodos de clustering hierárquico divisivo, uma abordagem descendente particiona sucessivamente os pontos de dados em uma estrutura semelhante a uma árvore.
A primeira etapa é dividir o conjunto de dados em clusters utilizando um método de agrupamento plano como o k-means. Os clusters com a maior soma dos erros quadráticos (SSE) são, então, divididos utilizando-se um método de agrupamento plano. O algoritmo é interrompido quando atinge nós individuais ou algum SSE mínimo.
O particionamento divisivo permite maior flexibilidade em termos da estrutura hierárquica da árvore e do nível de equilíbrio nos diferentes clusters. Não é necessário ter uma árvore perfeitamente equilibrada em termos das profundidades dos diferentes nós ou uma árvore em que o grau de cada ramo seja exatamente dois. Isso permite a construção de uma estrutura de árvore que possibilita diversas compensações no equilíbrio das profundidades dos nós e dos pesos dos nós (número de pontos de dados no nó).
O agrupamento hierárquico divisivo pode ser mais rápido do que o agrupamento hierárquico aglomerativo, especialmente quando os dados não exigem a construção da árvore até os pontos de dados individuais.