Netezza - Divisives Clustering
Divisives Clustering ist eine Methode der Clusteranalyse, bei der der Algorithmus wiederholt ausgeführt wird, um Cluster in Subcluster aufzuteilen, bis ein angegebener Stopppunkt erreicht wird.
Die Clusterbildung beginnt mit einem einzelnen Cluster, der sämtliche Trainingsinstanzen (Datensätze) enthält. Bei der ersten Iteration des Algorithmus wird das Dataset in zwei Subcluster aufgeteilt, die durch die nachfolgenden Iterationen in weitere Subcluster aufgespaltet werden. Die Stoppkriterien werden angegeben als maximale Anzahl an Iterationen, als maximale Anzahl der Ebenen, in die das Dataset unterteilt wird, und als erforderliche Mindestanzahl an Instanzen für die weitere Partitionierung.
Der sich so ergebende hierarchische Clustering-Baum kann verwendet werden, um Instanzen zu klassifizieren, indem diese aus dem Stammcluster nach unten weitergegeben werden, wie im folgenden Beispiel.

Auf jeder Ebene wird der Subcluster mit der besten Übereinstimmung hinsichtlich des Abstands der Instanz von den Subclusterzentren ausgewählt.
Wenn die Instanzen mit einer angewendeten Hierarchieebene von -1 (Standard) gescort werden, gibt das Scoring lediglich einen Blattcluster zurück, da Blätter durch negative Nummern gekennzeichnet sind. In diesem Beispiel wäre dies einer der Cluster 4, 5, 6, 8 oder 9. Wenn jedoch die Hierarchieebene beispielsweise auf 2 gesetzt ist, gibt das Scoring einen der Cluster auf der zweiten Ebene unterhalb des Stammclusters aus, also 4, 5, 6 oder 7.