Was ist Clustering?

21. Februar 2024

Was ist Clustering?

Clustering ist ein unüberwachter Algorithmus mit maschinellem Lernen, der verschiedene Objekte, Datenpunkte oder Beobachtungen anhand von Ähnlichkeiten oder Mustern in Gruppen oder Clustern organisiert und klassifiziert.

Es gibt eine Vielzahl von Möglichkeiten, Clustering beim maschinellen Lernen einzusetzen, von der anfänglichen Erkundung eines Datensatzes bis zur Überwachung laufender Prozesse. Sie können es bei der explorativen Datenanalyse mit einem neuen Datensatz verwenden, um zugrunde liegende Trends, Muster und Ausreißer zu verstehen. Oder Sie haben einen größeren Datensatz, der in mehrere Datensätze aufgeteilt oder durch Dimensionalitätsreduktion reduziert werden muss. In diesen Fällen kann das Clustering ein Schritt der Vorverarbeitung sein.

Zu den Beispielen für Cluster können Musikgenres, verschiedene Benutzergruppen, Schlüsselsegmente einer Marktsegmentierung, Arten des Netzwerkverkehrs auf einem Server-Cluster, Freundesgruppen in einem sozialen Netzwerk oder viele andere Arten von Kategorien gehören. Der Prozess der Clusterbildung kann nur ein Merkmal der Daten oder alle in den Daten vorhandenen Merkmale verwenden.

Man kann sich das Clustering als den Versuch vorstellen, natürliche Gruppierungen in den Daten zu finden, um zu ermitteln, welche Kategorien es geben könnte und was diese Kategorien definiert. Cluster können Ihnen dabei helfen, die zugrunde liegenden Beziehungen zwischen Datenpunkten zu finden, um aufzuzeigen, welche Merkmale oder Eigenschaften in den verschiedenen Kategorien vorhanden sind. Je nach verwendetem Clustering-Algorithmus können Sie Ausreißer aus Ihren Daten entfernen oder sie als Ausreißer kennzeichnen. Clustering kann auch bei der Erkennung von Anomalien helfen, indem es aufdeckt, welche Datenpunkte nicht in einem Cluster enthalten sind oder nur schwach mit einem Cluster assoziiert sind und somit eine Anomalie im Datenerzeugungsprozess darstellen könnten.

Clustering kann auch verwendet werden, um die Komplexität großer Datensätze zu reduzieren, indem die Anzahl der Dimensionen der Daten verringert wird. Wenn Sie sehen, dass die Kategorien nur durch zwei oder drei Merkmale definiert sind, können Sie möglicherweise überflüssige Merkmale entfernen oder Techniken zur Dimensionalitätsreduktion wie PCA verwenden. Clustering ist auch bei der Visualisierung von Datensätzen sehr nützlich, um aufkommende Eigenschaften der Daten sowie die Dichte und Beziehungen zwischen Clustern sichtbar zu machen.

Bei Clustering-Algorithmen wird manchmal zwischen hartem und weichem Clustering unterschieden. Bei hartem Clustering gehört jeder Datenpunkt nur zu einem einzigen Cluster und hat einen binären Wert, der besagt, dass er entweder zu einem Cluster gehört oder nicht. Bei weichem Clustering erhält jeder Datenpunkt einen Wahrscheinlichkeitswert für die Zugehörigkeit zu jedem identifizierten Cluster. Es gibt nicht den einen optimalen Clustering-Prozess. Vielmehr sollten Sie den Ansatz wählen, der für Ihre Bedürfnisse und Ihre Daten am sinnvollsten ist.

3D-Design aus Kugeln, die auf einer Schiene rollen

Die neuesten Erkenntnisse und Insights zu KI

Entdecken Sie von Experten kuratierte Erkenntnisse und Neuigkeiten zu KI, Cloud und mehr im wöchentlichen Newsletter Think. 

Arten von Clustering

Es gibt viele verschiedene Clustering-Algorithmen, da es mehrere Möglichkeiten für die Definition eines Clusters gibt. Je nach Größe der Eingabedaten, der Dimensionalität der Daten, der Starrheit der Kategorien und der Anzahl der Cluster innerhalb des Datensatzes eignen sich unterschiedliche Ansätze für verschiedene Arten von Modellen. Beachten Sie, dass ein Algorithmus für einen Datensatz sehr gut und für einen anderen sehr schlecht funktionieren kann. In diesem Abschnitt werden fünf der am häufigsten verwendeten Ansätze für das Clustering behandelt. Es gibt noch weitere Techniken wie das spektrale Clustering oder das Mean-Shift-Clustering, auf die wir in diesem Artikel nicht eingehen können.

Centroid-basiertes Clustering

Zentrumsbasiertes Clustering ist eine Clustering-Methode, bei der ein Datensatz auf der Grundlage des Abstands zwischen den Zentren in ähnliche Gruppen unterteilt oder aufgeteilt wird. Der Schwerpunkt oder das Zentrum jedes Clusters ist je nach Datenlage entweder der Mittelwert oder der Median aller Punkte im Cluster.

Eine der am häufigsten verwendeten zentrumsbasierten Clustering-Techniken ist der k-Means Clustering-Algorithmus. K-means geht davon aus, dass das Zentrum eines jeden Clusters das Cluster mit Hilfe eines Abstandsmaßes, meist des euklidischen Abstands, zum Zentrum definiert. Um das Clustering zu initialisieren, geben Sie eine Anzahl von erwarteten Clustern an, die das „k“ in k-Means darstellt. Der Algorithmus versucht dann, sinnvolle Cluster in den Daten zu finden, die dieser Anzahl entsprechen. Die optimalen k Cluster in einem bestimmten Datensatz werden ermittelt, indem der Gesamtabstand zwischen jedem Punkt und dem ihm zugewiesenen Clusterschwerpunkt iterativ minimiert wird.

K-means ist ein harter Clustering-Ansatz, d. h. jeder Datenpunkt wird einem separaten Cluster zugewiesen und es gibt keine Wahrscheinlichkeit für die Zugehörigkeit zu einem Cluster. K-means funktioniert gut, wenn die Cluster ungefähr gleich groß sind und es keine signifikanten Sonderfälle oder Änderungen der Dichte in den Daten gibt. K-means schneidet oft schlecht ab, wenn die Daten hochdimensional sind oder wenn sich die Cluster in ihrer Größe oder Dichte erheblich unterscheiden. K-Means ist zudem besonders empfindlich gegenüber Sonderfällen, da es versucht, Centroids auf Grundlage der Mittelwerte aller Werte im Cluster zu bestimmen und daher anfällig für eine Überanpassung ist, um diese Ausreißer einzubeziehen.

Ein anderer auf Centroids basierender Ansatz für k-Means ist k-Medoids. Das sind repräsentative Objekte eines Datensatzes oder eines Clusters innerhalb eines Datensatzes, deren Summe der Abstände zu anderen Objekten im Cluster minimal ist. Anstatt einen willkürlichen Schwerpunkt als Zentrum des Graphen zu verwenden, erstellt der Algorithmus Cluster, indem er einzelne Datenpunkte als Medoid oder Zentrum des Clusters verwendet. Da der k-Medoids-Algorithmus vorhandene Datenpunkte und nicht beliebige Centroids verwendet, ist er weniger anfällig für Sonderfälle.

Hierarchisches Clustering

Hierarchisches Clustering, manchmal auch konnektivitätsbasiertes Clustering genannt, gruppiert Datenpunkte auf der Grundlage der Nähe und Konnektivität ihrer Attribute. Bei dieser Methode werden Cluster auf der Grundlage der Nähe der Datenpunkte zueinander über alle Dimensionen hinweg ermittelt. Die Idee dahinter ist, dass Objekte, die näher beieinander liegen, enger miteinander verbunden sind als solche, die weit voneinander entfernt sind. Anders als bei k-Means muss die Anzahl der Cluster nicht im Voraus festgelegt werden. Stattdessen erstellt der Clustering-Algorithmus ein Graphennetzwerk aus den Clustern auf jeder Hierarchiestufe. Dieses Netzwerk ist hierarchisch, d. h. jeder Knoten darin hat nur einen übergeordneten Knoten, kann aber mehrere untergeordnete Knoten haben. Hierarchische Cluster können mit einem Dendrogramm grafisch dargestellt werden, um die entdeckten Cluster und die darin enthaltene Hierarchie visuell zusammenzufassen und zu organisieren.

Es gibt zwei Ansätze zur Durchführung hierarchischer Clusteranalysen:

Agglomerativ: Beim agglomerativen Clustering beginnt ein Bottom-up-Ansatz mit einzelnen Datenpunkten und führt sukzessive Cluster zusammen, indem er die Proximity-Matrix aller Cluster auf der aktuellen Ebene der Hierarchie berechnet, um eine baumartige Struktur zu erstellen. Sobald eine Ebene von Clustern erstellt wurde, bei der alle Cluster keine oder nur eine geringe Ähnlichkeit zwischen den Clustern aufweisen, wechselt der Algorithmus zu den neu erstellten Clustern und wiederholt den Vorgang, bis sich ein Wurzelknoten an der Spitze des hierarchischen Graphen befindet. Es gibt eine Vielzahl von Möglichkeiten, wie diese Cluster miteinander verschmolzen werden können, mit Abstrichen bei der Qualität und Effizienz des Clusterns. Beim Single-Linkage-Clustering wird der kürzeste Abstand zwischen einem beliebigen Paar von Datenpunkten in zwei Clustern als Ähnlichkeitsmaß verwendet. Bei der Verknüpfung aller Paare wird der Durchschnitt über alle Paare von Datenpunkten verwendet, während bei der Verknüpfung mit Stichproben eine Stichprobe der Datenpunkte in den beiden Clustern für die Berechnung des durchschnittlichen Abstands verwendet wird. Bei der Centroid-Verknüpfung wird der Abstand zwischen den Zentren verwendet. Eine Herausforderung bei agglomerativen Methoden besteht darin, dass es zu einer Verkettung kommen kann, bei der größere Cluster von Natur aus dazu neigen, engere Abstände zu anderen Punkten zu haben, sodass sie immer größer werden und mehr Datenpunkte in ihr Cluster ziehen. Ein weiterer Nachteil ist, dass agglomerative Methoden viel langsamer sein können als divisive Methoden zur Erstellung der Hierarchie.

Divisiv: Bei divisiven hierarchischen Clustering-Methoden werden die Datenpunkte in einem Top-Down-Ansatz sukzessive in eine baumartige Struktur aufgeteilt. Der erste Schritt besteht in der Aufteilung des Datensatzes in Cluster mithilfe einer Flat-Clustering-Methode wie k-Means. Die Cluster mit der größten Summe der quadrierten Fehler (Sum of Squared Errors, SSE) werden dann mit einer flachen Clustering-Methode weiter aufgeteilt. Der Algorithmus bricht entweder ab, wenn er einzelne Knoten oder ein bestimmtes Minimum an SSE erreicht. Die divisive Partitionierung ermöglicht eine größere Flexibilität sowohl in Bezug auf die hierarchische Struktur des Baums als auch auf den Grad der Ausgewogenheit in den verschiedenen Clustern. Es ist nicht notwendig, einen perfekt ausgeglichenen Baum in Bezug auf die Tiefe der verschiedenen Knoten zu haben oder einen Baum, in dem der Grad jedes Zweiges genau zwei beträgt. Dies ermöglicht die Konstruktion einer Baumstruktur, die verschiedene Kompromisse bei der Ausgewogenheit der Knotentiefen und Knotengewichte (Anzahl der Datenpunkte im Knoten) zulässt. Divisives hierarchisches Clustering kann schneller sein als agglomeratives hierarchisches Clustering, vor allem, wenn die Daten nicht erfordern, dass der Baum bis hinunter zu den einzelnen Datenpunkten konstruiert wird.

Verteilungsbasiertes Clustering

Beim verteilungsbasierten Clustering, manchmal auch probabilistisches Clustering genannt, werden Datenpunkte auf der Grundlage ihrer Wahrscheinlichkeitsverteilung gruppiert. Bei diesem Ansatz wird davon ausgegangen, dass es einen Prozess gibt, der Normalverteilungen für jede Dimension der Daten erzeugt, die die Clusterzentren bilden. Er unterscheidet sich vom zentrumsbasierten Clustering dadurch, dass er keine Abstandsmetrik wie einen euklidischen oder Manhattan-Abstand verwendet. Stattdessen wird bei verteilungsbasierten Ansätzen nach einer wohldefinierten Verteilung gesucht, die in jeder Dimension auftritt. Die Cluster-Mittelwerte sind die Mittelwerte der Gaußschen Verteilung über jede Dimension. Verteilungsbasiertes Clustering ist ein modellbasierter Ansatz für das Clustering, da es die mehrfache Anpassung einer Verteilung über jede Dimension erfordert, um Cluster zu finden. Das bedeutet, dass es bei der Arbeit mit großen Datensätzen rechenintensiv sein kann.

Ein gängiger Ansatz für verteilungsbasiertes Clustering ist die Erstellung eines Gaußschen Mischungsmodells (GMM) durch Erwartungsmaximierung (Expectation-Maximization). Ein GMM wird so genannt, weil angenommen wird, dass jedes Cluster durch eine Gaußsche Verteilung definiert ist, die oft als Normalverteilung bezeichnet wird.

Betrachten Sie einen Datensatz mit zwei verschiedenen Clustern, A und B, die beide durch zwei unterschiedliche Normalverteilungen definiert sind: eine entlang der x-Achse und eine entlang der y-Achse. Die Erwartungsmaximierung beginnt mit einer zufälligen Schätzung der beiden Verteilungen entlang der Achsen und verbessert sich dann iterativ, indem zwei Schritte abwechselnd durchgeführt werden:

Erwartung: Weisen Sie jeden Cluster jeden Datenpunkt zu und berechnen Sie die Wahrscheinlichkeit, dass er aus Cluster A und Cluster B stammt.

Maximierung: Sie aktualisieren die Parameter, die jeden Cluster definieren, einen gewichteten Mittelwert und eine Varianz-Kovarianz-Matrix, basierend auf der Wahrscheinlichkeit, dass jeder Datenpunkt im Cluster ist. Anschließend wiederholen Sie den Schritt der Erwartung, bis die Gleichung mit den für jedes Cluster beobachteten Verteilungen konvergiert.

Jedem Datenpunkt wird eine Wahrscheinlichkeit für die Zuordnung zu einem Cluster zugewiesen. Das bedeutet, dass das Clustering über die Erwartungsmaximierung ein weicher Clustering-Ansatz ist und dass ein bestimmter Punkt wahrscheinlich mit mehr als einem Cluster assoziiert werden kann. Dies ist in einigen Szenarien sinnvoll, z. B. wenn ein Lied ein bisschen Folk und irgendwie Rock zugeschrieben wird oder wenn ein Benutzer Fernsehsendungen auf Spanisch bevorzugt, aber manchmal auch Sendungen auf Englisch sieht.

Dichtebasiertes Clustering

Dichtebasiertes Clustering funktioniert durch die Erkennung von Bereichen, in denen Punkte konzentriert sind und in denen sie durch leere oder spärliche Bereiche getrennt sind. Im Gegensatz zu zentrumsbasierten Ansätzen wie k-Means oder verteilungsbasierten Ansätzen wie der Erwartungsmaximierung können dichtebasierte Clustering-Ansätze Cluster mit beliebiger Form erkennen. Dies kann äußerst hilfreich sein, wenn die Cluster nicht um einen bestimmten Ort oder eine bestimmte Verteilung herum definiert sind. Im Gegensatz zu anderen Clustering-Algorithmen wie k-Means und hierarchisches Clustering kann ein dichtebasierter Algorithmus Cluster beliebiger Form, Größe oder Dichte in Ihren Daten ermitteln. Dichtebasiertes Clustering kann auch zwischen Datenpunkten unterscheiden, die Teil eines Clusters sind, und solchen, die als Rauschen bezeichnet werden sollten. Dichtebasiertes Clustering ist besonders nützlich, wenn Sie mit Datensätzen arbeiten, die Rauschen oder Sonderfällen enthalten, oder wenn wir kein Vorwissen über die Anzahl der Cluster in den Daten haben.

DBSCAN ist ein Beispiel für einen Clustering-Algorithmus, der einen dichtebasierten Ansatz für das Clustering verwendet. Er verwendet einen dichtebasierten räumlichen Clustering-Ansatz zur Erstellung von Clustern mit einer vom Benutzer angegebenen Dichte, die sich um einen räumlichen Schwerpunkt dreht. Der Bereich unmittelbar um den Schwerpunkt wird als Nachbarschaft bezeichnet. Dabei versucht DBSCAN, Nachbarschaften von Clustern zu definieren, die die angegebene Dichte aufweisen. Für jeden Cluster definiert DBSCAN drei Arten von Datenpunkten:

Kernpunkte: Ein Datenpunkt ist ein Kernpunkt, wenn die Nachbarschaft um diesen Datenpunkt mindestens so viele Punkte enthält wie die vom Benutzer angegebene Mindestanzahl von Punkten.

Grenzpunkte: Ein Datenpunkt ist ein Grenzpunkt, wenn die Nachbarschaft um diesen Datenpunkt weniger als die minimale Anzahl von Datenpunkten enthält, die Nachbarschaft um diesen Punkt jedoch einen Kernpunkt enthält.

Sonderfall: Ein Datenpunkt ist ein Sonderfall, wenn er weder ein Kernpunkt noch ein Grenzpunkt ist. Im Wesentlichen ist dies die „andere“ Klasse.

HDBSCAN ist eine Variante von DBSCAN, bei der keine Parameter festgelegt werden müssen. Dadurch ist es noch flexibler als das Original. HDBSCAN ist gegenüber Rauschen und Sonderfällen in den Daten weniger empfindlich. Außerdem kann DBSCAN manchmal Probleme bei der Identifizierung von Clustern mit ungleichmäßiger Dichte haben. Dies war eine der Hauptmotivationen für HDBSCAN, sodass es viel effektiver mit Clustern unterschiedlicher Dichte umgehen kann.

Gitterbasiertes Clustering

Gitterbasierte Clustering-Algorithmen werden nicht so häufig verwendet wie die vier vorangegangenen Ansätze. Sie können jedoch beim hochdimensionalen Clustering hilfreich sein, wenn andere Clustering-Algorithmen möglicherweise nicht so leistungsfähig sind. Bei diesem Ansatz unterteilt der Algorithmus einen hochdimensionalen Datensatz in Zellen. Jeder Zelle wird eine eindeutige Kennung zugewiesen, die sogenannte Zell-ID, und alle Datenpunkte, die in eine Zelle fallen, werden als Teil desselben Clusters betrachtet.

Das gitterbasierte Clustering ist ein effizienter Algorithmus für die Analyse großer mehrdimensionaler Datensätze, da es die Zeit für die Suche nach den nächsten Nachbarn reduziert, die bei vielen Clustering-Methoden üblich ist.

Ein beliebter gitterbasierter Clustering-Algorithmus nennt sich STING, was für STatistical INformation Grid steht. Bei STING wird der räumliche Bereich in rechteckige Zellen und mehrere Zellebenen mit unterschiedlichen Auflösungsgraden unterteilt. Zellen auf hoher Ebene werden in mehrere Zellen auf niedriger Ebene unterteilt. STING kann bei der Berechnung von Clustern in Big-Data-Szenarien, in denen die Datensätze extrem groß sind, sehr effizient sein, da es den Datensatz einfach iterativ in feinere Gitter unterteilt und die Anzahl der Punkte innerhalb dieses Gitters auswertet. Ein Nachteil von STING ist, dass die Grenzen von Clustern horizontal oder vertikal definiert sein müssen. Der Algorithmus kann keine nicht-rechteckigen Clustergrenzen erkennen.

Ein weiterer gitterbasierter Algorithmus, der bei hochdimensionalen Daten besonders leistungsfähig ist, ist der Clustering In Quest oder CLIQUE-Algorithmus. CLIQUE kombiniert einen gitterbasierten und einen dichtebasierten Ansatz zum Clustering. Bei diesem Algorithmus wird der Datenraum in ein Gitter unterteilt und die relative Dichte der Punkte in den Zellen des Gitters verglichen. Unterräume, die eine ähnliche Dichte aufweisen, werden zusammengeführt. Dieser Ansatz findet dichte Einheiten in allen relevanten Unterräumen und misst dann, ob ähnliche Cluster miteinander verbunden werden sollten. Das bedeutet, dass CLIQUE Cluster beliebiger Form in hochdimensionalen Daten erkennen kann.

Mixture of Experts | Podcast

KI entschlüsseln: Wöchentlicher Nachrichtenüberblick

Schließen Sie sich unserer erstklassigen Expertenrunde aus Ingenieuren, Forschern, Produktführern und anderen an, die sich durch das KI-Rauschen kämpfen, um Ihnen die neuesten KI-Nachrichten und Erkenntnisse zu liefern.

Auswerten von Clustering

Es gibt verschiedene Bewertungsmetriken für die Clusteranalyse. Dabei hängt die Auswahl der geeigneten Metrik von der Art des Clustering-Algorithmus und dem entsprechenden Datensatz ab. Bewertungsmetriken lassen sich im Allgemeinen in zwei Hauptkategorien unterteilen: Extrinsisch und intrinsisch.

Intrinsische Messgrößen

Intrinsische Messgrößen sind Bewertungsmetriken für die Clusteranalyse, die nur die Informationen innerhalb des Datensatzes verwenden. Sie können hilfreich sein, wenn Sie mit nicht gekennzeichneten Daten arbeiten. Die Qualität der Analyse basiert ausschließlich auf den Beziehungen zwischen den Datenpunkten. Sie können verwendet werden, wenn wir keine Vorkenntnisse oder Kennzeichnungen der Daten haben. Übliche intrinsische Messgrößen sind:

Silhouettenkoeffizient: Diese Kennzahl misst die Ähnlichkeit und Unähnlichkeit jedes Datenpunkts in Bezug auf seinen eigenen Cluster und alle anderen Cluster. Die Werte der Kennzahl reichen von -1 bis +1. Ein hoher Wert bedeutet, dass das Objekt gut zu seinem eigenen Cluster passt und schlecht zu den benachbarten Clustern.

Davies-Bouldin-Index: Diese Metrik berechnet das Verhältnis zwischen dem Abstand innerhalb von Clustern und dem Abstand zwischen Clustern. Je niedriger der Indexwert ist, desto besser ist die Clustering-Leistung.

Calinski-Harabasz-Index: Dieses Kriterium wird auch als Varianzverhältniskriterium bezeichnet. Es misst das Verhältnis der Varianz zwischen den Clustern und der Varianz innerhalb eines Clusters. Je höher das Calinski-Harabasz-Verhältnis, desto besser ist ein Cluster definiert.

Diese Bewertungsmetriken können uns helfen, die Leistung verschiedener Clustering-Algorithmen und -Modelle zu vergleichen, Clustering-Parameter zu optimieren und die Genauigkeit und Qualität der Clustering-Ergebnisse zu überprüfen.

Extrinsische Messgrößen

Extrinsische Messgrößen verwenden Grundwahrheiten (Ground Truth) oder externe Informationen, um die Gültigkeit der Leistung des Clustering-Algorithmus zu bewerten. Dies erfordert eine Form von Beschriftungsdaten, die bestätigen, zu welcher Klasse oder welchem Cluster jeder Datenpunkt gehört. In diesem Fall können Sie die Genauigkeit Ihrer Clustering-Analyse mit Metriken vergleichen, die häufig für die Klassifizierungsgenauigkeit verwendet werden. Zu den gängigen extrinsischen Messgrößen gehören:

F-Maß (auch F-Score genannt): Diese Metrik bestimmt die Genauigkeit des Clustering-Algorithmus, indem sie die Präzision und den Wiedererkennungswert beim Vergleich eines vorgeschlagenen Clustering mit der Grundwahrheit betrachtet. Im Falle eines F-Maßes ist ein höherer Wert besser.

Reinheit: Diese Metrik misst den Anteil der Datenpunkte, die korrekt der gleichen Klasse oder dem gleichen Cluster zugeordnet werden, zu dem sie gehören. Bei diesem Messwert ist ein höherer Wert besser.

Rand-Index: Dies ist ein Maß für die Ähnlichkeit zwischen den wahren und den vorhergesagten Bezeichnungen des Clustering-Algorithmus und reicht von 0 bis 1. Ein höherer Wert bedeutet eine bessere Clustering-Leistung.

Informationsvariation (auch „Shared Information Distance“ genannt): Dieser Wert misst die Menge der verlorenen und gewonnenen Informationen zwischen zwei Clustern. Dies kann zwischen einem Ground-Truth-Clustering und einem vom Algorithmus erzeugten Clustering oder zwischen zwei verschiedenen Clusterings sein. Eine niedrigere Zahl ist besser, da dies einen geringeren Abstand zwischen zwei Clustering-Ergebnissen anzeigt.

Anwendungsfälle von Clustering

Es gibt viele Anwendungsbereiche, in denen Clustering ein wertvolles Werkzeug für das Data Mining oder die explorative Datenanalyse ist. Wir können hier nur eine kleine Auswahl der Anwendungsbereiche aufführen, um einen Eindruck von der Bedeutung dieser Art von Analyse zu vermitteln.

Anomalieerkennung

Clustering kann bei der Aufdeckung von Anomalien helfen, indem gemessen wird, welche Datenpunkte nicht in der durch die Clusteranalyse definierten Clusterstruktur enthalten sind. Datenpunkte, die zu kleinen oder sehr spärlichen Clustern gehören oder die weit von ihrem zugewiesenen Cluster entfernt sind, können als Anomalien betrachtet werden. Dichtebasierte Methoden wie die Erwartungsmaximierung werden verwendet, um Datenpunkte in dichten Regionen als normal und solche in Regionen mit geringer Dichte als Anomalien zu identifizieren.

Marktforschung

Wenn Sie herausfinden möchten, welche Kunden-Personas oder Untergruppen von Märkten es geben könnte, kann Clustering ein leistungsfähiges Werkzeug für die Kundensegmentierung sein. Sie können demografische Daten mit Daten zum Kundenverhalten kombinieren, um herauszufinden, welche Merkmale und Kaufmuster am häufigsten miteinander korrelieren.

Bildsegmentierung

Die Pixel eines Bildes können auf verschiedene Weise geclustert werden, wodurch das Bild in verschiedene Abschnitte unterteilt werden kann, um beispielsweise den Vordergrund vom Hintergrund zu trennen, Objekte anhand von Ähnlichkeiten in Farbe und Helligkeit zu erkennen oder Bilder für die weitere Verarbeitung in bestimmte Regionen aufzuteilen. Bei Bildern verarbeiten Clustering-Methoden die Pixel im Bild und definieren Bereiche innerhalb des Bildes, die den Cluster darstellen.

Dokumentverarbeitung

Die Clustering-Analyse kann bei der Verarbeitung von Dokumenten auf vielfältige Weise hilfreich sein. Dokumente können nach Ähnlichkeit gruppiert werden, um zu zeigen, welche Dokumente einander am ähnlichsten sind. Dies kann auf der Länge des Dokuments, der Verteilung der Worthäufigkeit oder auf anderen Wegen der Quantifizierung von wichtigen Merkmalen des Dokuments basieren. Ein weiterer häufiger Anwendungsfall ist die Analyse von Abschnittsgruppen eines Dokuments auf der Grundlage der Häufigkeit von Schlüsselwörtern, der Satzlänge oder der Verteilung von Begriffen. Dies kann bei der Zusammenfassung von Dokumenten oder bei der Aufteilung größerer Dokumente in kleinere Datensätze für die weitere Analyse hilfreich sein.

Weiterführende Lösungen
IBM watsonx.ai

Trainieren, validieren, optimieren und implementieren Sie generative KI, Foundation Models und maschinelle Lernfunktionen mit IBM watsonx.ai, einem Studio der nächsten Generation für AI Builder in Unternehmen. Erstellen Sie KI-Anwendungen mit einem Bruchteil der Zeit und Daten.

Entdecken sie watsonx.ai
Lösungen im Bereich künstlicher Intelligenz

Setzen Sie KI in Ihrem Unternehmen ein – mit branchenführendem Fachwissen im Bereich KI und dem Lösungsportfolio von IBM an Ihrer Seite.

Erkunden Sie KI-Lösungen
KI-Beratung und -Services

Erfinden Sie kritische Workflows und Abläufe neu, indem Sie KI einsetzen, um Erfahrungen, Entscheidungsfindung in Echtzeit und den geschäftlichen Nutzen zu maximieren.

KI-Services entdecken
Machen Sie den nächsten Schritt

Profitieren Sie von einem einheitlichen Zugriff auf Funktionen, die den gesamten Lebenszyklus der KI-Entwicklung abdecken. Erstellen Sie leistungsstarke KI-Lösungen mit benutzerfreundlichen Oberflächen, Workflows und Zugriff auf branchenübliche APIs und SDKs.

watsonx.ai erkunden Live-Demo buchen