Clustering ist eine Technik des unbeaufsichtigten maschinellen Lernens, die in der Datenanalyse verwendet wird, um ähnliche Objekte zu erkennen und zu gruppieren. Hierarchische Clusteranalyse (HCA) oder hierarchisches Clustering gruppiert Objekte in einer Cluster-Hierarchie, ohne sie in eine lineare Reihenfolge zu setzen. Viele Disziplinen, wie z. B. Biologie, Bildanalyse und Sozialwissenschaften, verwenden hierarchische Clustering-Methoden, um Muster in Datensätzen zu erkunden und zu erkennen. Zu den Anwendungsfällen gehören die Kategorisierung von Populationen in der klinischen Forschung, Kundensegmentierung und die Erkennung von Gemeinschaften von Knotenpunkten in Netzwerkmodellen.

Es gibt zwei Arten von hierarchischem Clustering:

- Agglomerativer oder Bottom-Up-Ansatz1, bei dem Cluster immer wieder zu größeren zusammengeführt werden, bis ein einziger Cluster entsteht.

- Spaltender oder Top-Down-Ansatz, der2 mit allen Daten in einem einzelnen Cluster beginnt und Cluster weiter aufteilt, bis alle Cluster Singletons sind.

Die hierarchische Clustering-Analyse ist mit hohen Rechenkosten verbunden. Die Verwendung eines Heapspeichers kann zwar die Rechenzeit reduzieren, erhöht aber gleichzeitig die Speicheranforderungen. Sowohl die spaltende als auch die agglomerative Art des Clusterings sind "„gierig“, was bedeutet, dass der Algorithmus entscheidet, welche Cluster zusammengeführt oder geteilt werden sollen, indem er in jeder Phase des Prozesses die lokal optimale Wahl trifft. Es ist auch möglich, ein Stopp-Kriterium anzuwenden, bei dem der Algorithmus die Agglomeration oder das Aufteilen von Clustern stoppt, wenn er eine vorgegebene Anzahl von Clustern erreicht.

Ein baumartiges Diagramm, das als Dendrogramm3 bezeichnet wird, wird häufig verwendet, um die Hierarchie der Cluster zu visualisieren. Es zeigt die Reihenfolge an, in der Cluster zusammengeführt oder geteilt wurden, und zeigt die Ähnlichkeit oder den Abstand zwischen Datenpunkten an. Dendrogramme können auch als verschachtelte Liste von Listen4 mit Attributen verstanden werden.