Beim verteilungsbasierten Clustering, manchmal auch probabilistisches Clustering genannt, werden Datenpunkte auf der Grundlage ihrer Wahrscheinlichkeitsverteilung gruppiert. Bei diesem Ansatz wird davon ausgegangen, dass es einen Prozess gibt, der Normalverteilungen für jede Dimension der Daten erzeugt, die die Clusterzentren bilden. Er unterscheidet sich vom zentrumsbasierten Clustering dadurch, dass er keine Abstandsmetrik wie einen euklidischen oder Manhattan-Abstand verwendet. Stattdessen wird bei verteilungsbasierten Ansätzen nach einer wohldefinierten Verteilung gesucht, die in jeder Dimension auftritt. Die Cluster-Mittelwerte sind die Mittelwerte der Gaußschen Verteilung über jede Dimension. Verteilungsbasiertes Clustering ist ein modellbasierter Ansatz für das Clustering, da es die mehrfache Anpassung einer Verteilung über jede Dimension erfordert, um Cluster zu finden. Das bedeutet, dass es bei der Arbeit mit großen Datensätzen rechenintensiv sein kann.
Ein häufig verwendeter Ansatz für verteilungsbasiertes Clustering ist die Erstellung eines Gaußschen Mischungsmodells (GMM) durch Erwartungsmaximierung (Expectation-Maximization). Ein GMM heißt so, weil angenommen wird, dass jedes Cluster durch eine Gaußsche Verteilung definiert ist, die oft als Normalverteilung bezeichnet wird.
Betrachten Sie einen Datensatz mit zwei verschiedenen Clustern, A und B, die beide durch zwei unterschiedliche Normalverteilungen definiert sind: eine entlang der x-Achse und eine entlang der y-Achse. Die Erwartungsmaximierung beginnt mit einer zufälligen Schätzung der beiden Verteilungen entlang der Achsen und verbessert sich dann iterativ, indem zwei Schritte abwechselnd durchgeführt werden:
Erwartung: Weisen Sie jedem Cluster jeden Datenpunkt zu und berechnen Sie die Wahrscheinlichkeit, dass er aus Cluster A und Cluster B stammt.
Maximierung: Sie aktualisieren die Parameter, die jeden Cluster definieren, einen gewichteten Mittelwert und eine Varianz-Kovarianz-Matrix, basierend auf der Wahrscheinlichkeit, dass jeder Datenpunkt im Cluster ist. Anschließend wiederholen Sie den Schritt der Erwartung, bis die Gleichung mit den für jedes Cluster beobachteten Verteilungen konvergiert.
Jedem Datenpunkt wird eine Wahrscheinlichkeit für die Zuordnung zu einem Cluster zugewiesen. Das bedeutet, dass das Clustering über die Erwartungsmaximierung ein weicher Clustering-Ansatz ist und dass ein bestimmter Punkt wahrscheinlich mit mehr als einem Cluster assoziiert werden kann. Dies ist in einigen Szenarien sinnvoll, z. B. wenn ein Lied eher Folk und eher Rock ist oder wenn ein Benutzer Fernsehsendungen auf Spanisch bevorzugt, aber manchmal auch Sendungen auf Englisch sieht.