Le clustering hiérarchique, parfois appelé clustering basé sur la connectivité, regroupe les points de données en fonction de la proximité et de la connectivité de leurs attributs. Cette méthode détermine les clusters en fonction de la proximité des points de données les uns par rapport aux autres dans toutes les dimensions. L’idée est que les objets les plus proches sont plus étroitement liés que ceux qui sont éloignés les uns des autres.
Contrairement à la méthode k-means, il n’est pas nécessaire de spécifier à l’avance le nombre de clusters. Au lieu de cela, l’algorithme de clustering crée un réseau graphique des clusters à chaque niveau hiérarchique. Ce réseau est hiérarchique, ce qui signifie qu’un nœud donné n’a qu’un seul nœud parent mais peut avoir plusieurs nœuds enfants.
Les clusters hiérarchiques peuvent être représentés sur un graphique à l’aide d’un dendrogramme pour aider à résumer et à organiser visuellement les clusters découverts et la hiérarchie qu’ils peuvent présenter.
Il existe deux approches pour effectuer une analyse hiérarchique des clusters :
Agglomératif : dans le cas du partitionnement agglomératif, une approche ascendante part de points de données individuels et fusionne successivement les clusters en calculant la matrice de proximité de tous les clusters au niveau actuel de la hiérarchie afin de créer une structure arborescente.
Une fois qu’un niveau de clusters a été créé où tous les clusters n’ont pas ou peu de similarité entre eux, l’algorithme passe à l’ensemble des clusters nouvellement créés et répète le processus jusqu’à ce qu’il y ait un nœud racine au sommet du graphe hiérarchique.
Différents choix sont possibles quant à la manière dont ces clusters doivent être fusionnés les uns avec les autres, avec des compromis en matière de qualité et d’efficacité du partitionnement. Dans le cas d’une classification par liaison simple, la distance la plus courte entre une paire de points de données dans deux clusters est utilisée comme mesure de similarité.
Dans le couplage de toutes les paires, c’est la moyenne de toutes les paires de points de données qui est utilisée, tandis que dans le couplage d’échantillons, un échantillon des points de données dans les deux clusters est utilisé pour calculer la distance moyenne.
Dans le cas des liens entre centroïdes, c’est la distance entre les centroïdes qui est utilisée. L’un des défis des méthodes agrégatives est qu’elles peuvent présenter un chaînage, où les clusters plus grands sont naturellement biaisés vers des distances plus proches par rapport à d’autres points et continuent donc de s’agrandir et d’attirer plus de points de données dans leur cluster. Un autre inconvénient est que les méthodes agglomératives peuvent être beaucoup plus lentes que les méthodes de division dans la construction de la hiérarchie.
Divisé : dans les méthodes de partitionnement hiérarchique, une approche descendante partitionne successivement les points de données dans une structure arborescente. La première étape consiste à fractionner le jeu de données en clusters à l’aide d’une méthode de partitionnement plate comme K-means. Les clusters dont la somme des erreurs quadratiques (SSE) est la plus élevée sont ensuite partitionnés davantage à l’aide d’une méthode de partitionnement plat.
L’algorithme s’arrête lorsqu’il atteint des nœuds individuels ou un SSE minimum. Le partitionnement divisé permet une plus grande flexibilité en matière de structure hiérarchique de l’arbre et de niveau d’équilibre dans les différents clusters. Il n’est pas nécessaire d’avoir un arbre parfaitement équilibré en matière de profondeur des différents nœuds ou un arbre dans lequel le degré de chaque branche est exactement égal à deux. Cela permet la construction d’une structure d’arbre qui permet différents compromis dans l’équilibrage des profondeurs de nœuds et des pondérations de nœuds (nombre de points de données dans le nœud).
Le partitionnement hiérarchique divisé peut être plus rapide que le partitionnement hiérarchique agglomératif, en particulier lorsque les données ne nécessitent pas la création de l’arbre jusqu’aux points de données individuels.