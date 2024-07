Modelle des nicht überwachten Lernens werden für drei Hauptaufgaben verwendet – Clustering, Assoziation und Dimensionalitätsreduktion. Nachfolgend wird jede dieser Lernmethoden definiert und es werden die gängigen Algorithmen und Ansätze für ihre effektive Durchführung vorgestellt.

Clustering

Clustering ist ein Data-Mining-Verfahren, bei dem Daten ohne Kennzeichnung auf der Grundlage ihrer Gemeinsamkeiten oder ihrer Unterschiede in Gruppen zusammengefasst werden. Clustering-Algorithmen werden verwendet, um unbearbeitete, nicht klassifizierte Datenobjekte zu Gruppen zu verarbeiten, die durch Strukturen oder Muster in den Informationen dargestellt werden. Clustering-Algorithmen lassen sich in einige wenige Typen einteilen, insbesondere in den exklusiven, den überlappenden, den hierarchischen und den probabilistischen.

Exklusives und überlappendes Clustering

Exklusives Clustering ist eine Form der Gruppierung, die vorgibt, dass ein Datenpunkt nur in einem Cluster vorkommen darf. Dies kann auch als „hartes“ Clustering bezeichnet werden. Der K-Means-Clustering-Algorithmus ist ein Beispiel für exklusives Clustering.

K-Means-Clustering ist ein gängiges Beispiel für eine exklusive Clustering-Methode, bei der Datenpunkte in k Gruppen eingeteilt werden, wobei k die Anzahl der Cluster auf der Grundlage des Abstands zum Zentroid einer jeden Gruppe darstellt. Die Datenpunkte, die einem bestimmten Zentroid am nächsten liegen, werden unter derselben Kategorie in Gruppen (Clustern) zusammengefasst. Ein größerer k-Wert deutet auf kleinere Gruppierungen mit höherer Granularität hin, während ein kleinerer k-Wert auf größere Gruppierungen mit geringerer Detailliertheit schließen lässt. K-Means-Clustering wird häufig für Marktsegmentierung, Dokumentclustering, Bildsegmentierung und Grafikkomprimierung verwendet.

Überlappendes Clustering unterscheidet sich vom exklusiven Clustering dadurch, dass Datenpunkte zu mehreren Clustern mit unterschiedlichen Graden der Zugehörigkeit gehören können. Das „weiche“ oder unscharfe K-Means-Clustering ist ein Beispiel für überlappendes Clustering.

Hierarchisches Clustering

Hierarchisches Clustering, das auch als hierarchische Clusteranalyse (Hierarchical Cluster Analysis, HCA) bezeichnet wird, ist ein nicht überwachter Clustering-Algorithmus, der in zweierlei Kategorien unterteilt werden kann: agglomeratives Clustering oder divisives Clustering. Agglomeratives Clustering wird als „Bottom-up-Ansatz" betrachtet. Seine Datenpunkte werden anfänglich als separate Gruppierungen isoliert und dann iterativ auf der Grundlage der Ähnlichkeit zusammengeführt, bis ein Cluster entstanden ist. Zur Messung der Ähnlichkeit werden in der Regel vier unterschiedliche Methoden verwendet:

Ward-Verknüpfung: Diese Methode besagt, dass der Abstand zwischen zwei Clustern durch die Zunahme der Summe der Quadrate nach der Zusammenführung der Cluster definiert wird. Durchschnittliche Verknüpfung: Diese Methode wird durch den mittleren Abstand zwischen zwei Punkten in jedem Cluster definiert. Vollständige (oder maximale) Verknüpfung: Diese Methode wird durch den maximalen Abstand zwischen zwei Punkten in jedem Cluster definiert. Einzelne (oder minimale) Verknüpfung: Diese Methode wird durch den minimalen Abstand zwischen zwei Punkten in jedem Cluster definiert.

Der euklidische Abstand ist die gängigste Metrik zur Berechnung dieser Abstände; in der Fachliteratur zu Clustering werden jedoch auch noch andere Metriken genannt, wie etwa der Manhattan-Abstand.

Divisives Clustering kann als das Gegenteil von agglomerativem Clustering definiert werden und verwendet einen „Top-down-Ansatz“. In diesem Fall wird ein einzelner Datencluster auf der Grundlage der Unterschiede zwischen den Datenpunkten aufgeteilt. Divisives Clustering wird zwar nicht häufig verwendet, ist aber im Zusammenhang mit dem hierarchischen Clustering trotzdem erwähnenswert. Diese Clustering-Prozesse werden in der Regel mit einem Dendrogramm dargestellt, einem baumartigen Diagramm, das die Zusammenführung oder Aufteilung von Datenpunkten bei jeder Iteration dokumentiert.

Probabilistisches Clustering

Ein probabilistisches Modell ist ein nicht überwachtes Verfahren, das bei der Lösung von Problemen mit der Dichteschätzung oder dem „weichen“ Clustering helfen kann. Beim probabilistischen Clustering werden Datenpunkte basierend auf der Wahrscheinlichkeit, dass sie zu einer bestimmten Verteilung gehören, in Gruppen (Clustern) zusammengefasst. Das Gaußsche Mischmodell (GMM) ist eine der gängigsten probabilistischen Clustering-Methoden.

Gaußsche Mischmodelle (GMMs) werden als Mischmodelle klassifiziert, was bedeutet, dass sie aus einer nicht angegebenen Anzahl von Wahrscheinlichkeitsverteilungsfunktionen bestehen. GMMs werden in erster Linie eingesetzt, um zu ermitteln, zu welcher Gaußschen oder normalen Wahrscheinlichkeitsverteilung ein bestimmter Datenpunkt gehört. Wenn der Mittelwert oder die Varianz bekannt sind, kann bestimmt werden, zu welcher Verteilung ein bestimmter Datenpunkt gehört. Bei GMMs sind diese Variablen jedoch nicht bekannt, so dass davon ausgegangen wird, dass eine latente (oder verborgene) Variable existiert, um die Datenpunkte entsprechend in Gruppen (Clustern) zusammenzufassen. Eine Verwendung des Algorithmus der Erwartungsmaximierung (EM) ist zwar nicht zwingend erforderlich, erfolgt aber häufig, um die Wahrscheinlichkeiten der Zuordnung für einen bestimmten Datenpunkt zu einem bestimmten Datencluster zu schätzen.

Assoziationsregeln

Eine Assoziationsregel ist eine regelbasierte Methode zur Ermittlung von Beziehungen zwischen den Variablen in einem bestimmten Dataset. Diese Methoden werden häufig für Warenkorbanalysen verwendet, die Unternehmen ermöglichen, die Beziehungen zwischen unterschiedlichen Produkten besser zu verstehen. Durch Verstehen der Konsumgewohnheiten von Kunden werden Unternehmen in die Lage versetzt, bessere Cross-Selling-Strategien und Steuerkomponenten für Empfehlungen zu entwickeln. Beispiele dafür lassen sich bei „Kunden, die diesen Artikel gekauft haben, kauften auch“ von Amazon oder der Wiedergabeliste „Mix der Woche“ von Spotify finden. Es gibt zwar einige unterschiedliche Algorithmen zur Erstellung von Assoziationsregeln, wie A-priori, Eclat und FP-Growth, doch der A-priori-Algorithmus ist am gängigsten.

A-priori-Algorithmen

A-priori-Algorithmen sind durch Warenkorbanalysen bekannt geworden, was zu verschiedenen Empfehlungssteuerkomponenten für Musikplattformen und Onlinehändler im Einzelhandel geführt hat. Sie werden in transaktionsorientierten Datasets verwendet und geben dort häufige Item-Sets an, um die Wahrscheinlichkeit für die Nutzung eines Produkts angesichts der Nutzung eines anderen Produkts zu bestimmen. Wenn man beispielsweise den „Black Sabbath“-Radiosender wiedergibt, angefangen mit dem Song „Orchid“, dürfte es sich bei einem anderen der Songs auf diesem Kanal wahrscheinlich um einen von Led Zeppelin handeln, wie z. B. „Over the Hills and Far Away“. Dies beruht auf den eigenen bisherigen Hörgewohnheiten sowie auf denen anderer. A-priori-Algorithmen verwenden zum Zählen von Itemsets einen Hash-Baum und navigieren wie bei einer Breitensuche durch das Dataset.

Dimensionalitätsreduktion

Mehr Daten liefern zwar im Allgemeinen genauere Ergebnisse, können aber auch die Leistung von Algorithmen für maschinelles Lernen beeinträchtigen (z. B. durch übermäßige Anpassung) und die Visualisierung von Datensätzen erschweren. Die Dimensionalitätsreduktion ist ein Verfahren, das eingesetzt wird, wenn die Anzahl von Merkmalen oder Dimensionen in einem bestimmten Dataset zu hoch ist. Sie reduziert die Anzahl der Dateneingaben auf eine überschaubare Größe, während sie gleichzeitig die Integrität des Datasets so weit wie möglich bewahrt. Dieses Verfahren wird in der Regel in der Phase der Datenvorverarbeitung eingesetzt, und es können einige unterschiedliche Methoden zur Dimensionalitätsreduktion angewendet werden, wie beispielsweise die folgenden:

Hauptkomponentenanalyse

Die Hauptkomponentenanalyse (Principal Component Analysis, PCA) ist ein Algorithmus für die Dimensionalitätsreduktion, der zur Reduzierung von Redundanzen und zur Komprimierung von Datasets durch Merkmalextraktion eingesetzt wird. Diese Methode verwendet eine lineare Transformation, um eine neue Datendarstellung zu erstellen, die eine Reihe von „Hauptkomponenten“ ergibt. Die erste Hauptkomponente ist die Richtung, die die Varianz des Datasets maximiert. Die zweite Hauptkomponente findet zwar auch die maximale Varianz in den Daten, hat aber keinerlei Korrelation zur ersten Hauptkomponente, so dass sich eine Richtung ergibt, die senkrecht oder orthogonal zur ersten Komponente liegt. Dieser Prozess wiederholt sich je nach Anzahl der Dimensionen, wobei die nächste Hauptkomponente die Richtung ist, die orthogonal zu den vorherigen Komponenten mit der größten Varianz liegt.

Einzelwertzerlegung

Die Einzelwertzerlegung (Singular Value Decomposition, SVD) ist ein weiterer Ansatz zur Dimensionalitätsreduktion, bei dem eine Matrix A in drei Matrizen mit niedrigem Rang faktorisiert wird. Die SVD wird durch die Formel A = USVT dargestellt, wobei U und V orthogonale Matrizen sind. S ist eine Diagonalmatrix, und die Werte von S werden als Singulärwerte der Matrix A betrachtet. Ähnlich wie die Hauptkomponentenanalyse wird sie häufig zur Rauschunterdrückung und zur Komprimierung von Daten verwendet, z. B. von Bilddateien.

Autoencoder

Autoencoder setzen neuronale Netze ein, um Daten zu komprimieren und dann eine neue Darstellung der ursprünglichen Dateneingabe zu erzeugen. In der Abbildung unten ist zu erkennen, dass die verborgene Schicht speziell als Engpass fungiert, um die Eingabeschicht zu komprimieren, bevor sie innerhalb der Ausgabeschicht rekonstruiert wird. Die Phase von der Eingabeschicht zur verborgenen Schicht wird als „Codierung“ bezeichnet, während die Phase von der verborgenen Schicht zur Ausgabeschicht als „Decodierung“ bezeichnet wird.