Unüberwachtes Lernen, auch als nicht überwachtes maschinelles Lernen bekannt, verwendet maschinelle Lernalgorithmen (ML), um Datensätze ohne Kennzeichnung zu analysieren und zu clustern. Diese Algorithmen entdecken versteckte Muster oder Datengruppierungen, ohne dass dabei ein manueller Eingriff erforderlich ist.
Die Fähigkeit des unüberwachten Lernens, Ähnlichkeiten und Unterschiede in Informationen zu entdecken, macht diese Methode zur idealen Lösung für explorative Datenanalysen, Cross-Selling-Strategien, Kundensegmentierung sowie Bild- und Mustererkennung.
Unüberwachte Lernmodelle werden für drei Hauptaufgaben verwendet: Clustering, Assoziation und Dimensionalitätsreduzierung. Im Folgenden definieren wir die einzelnen Lernmethoden und zeigen gängige Algorithmen und Ansätze für ihre effektive Durchführung auf.
Clustering ist eine Data-Mining-Technik, bei der nicht gekennzeichnete Daten basierend auf ihren Ähnlichkeiten oder Unterschieden gruppiert werden. Clustering-Algorithmen werden verwendet, um rohe, unklassifizierte Datenobjekte zu gruppieren, die durch Strukturen oder Muster in den Informationen dargestellt werden. Clustering-Algorithmen können in einige wenige Typen eingeteilt werden: exklusive, überlappende, hierarchische und probabilistische Algorithmen.
Exklusives Clustering ist eine Form der Gruppierung, die vorschreibt, dass ein Datenpunkt nur in einem Cluster vorhanden sein kann. Dies kann auch als „hartes“ Clustering bezeichnet werden. k-Means-Clustering ist ein gängiges Beispiel für eine exklusive Clustering-Methode, bei der Datenpunkte verschiedenen k-Gruppen zugewiesen werden, wobei k die Anzahl der Cluster basierend auf der Entfernung vom Schwerpunkt der einzelnen Gruppen darstellt. Die Datenpunkte, die einem bestimmten Schwerpunkt am nächsten liegen, werden in dieselbe Kategorie gruppiert. Ein größerer k-Wert weist auf kleinere Gruppierungen mit höherer Granularität hin, während ein kleinerer k-Wert auf größere Gruppierungen und geringere Granularität hinweist. k-Means-Clustering wird häufig in den Bereichen Marktsegmentierung, Dokument-Clustering, Bildsegmentierung und Bildkomprimierung verwendet.
Überlappende Cluster unterscheiden sich vom exklusiven Clustering dadurch, dass Datenpunkte zu mehreren Clustern mit unterschiedlichen Zugehörigkeitsgraden gehören können. „Soft“ oder „fuzzy“ k-Means-Clustering ist ein Beispiel für überlappendes Clustering.
Hierarchisches Clustering, auch als hierarchische Clusteranalyse (HCA) bekannt, ist ein unüberwachter Cluster-Algorithmus, der auf zwei Arten kategorisiert werden kann: agglomerativ oder spaltend.
Agglomeratives Clustering gilt als „Bottom-up“-Ansatz. Die Datenpunkte werden zunächst als separate Gruppierungen isoliert und dann iterativ auf der Grundlage der Ähnlichkeit zusammengeführt, bis ein Cluster entstanden ist. Zur Messung der Ähnlichkeit werden üblicherweise vier verschiedene Methoden verwendet:
Der euklidische Abstand ist die gebräuchlichste Metrik zur Berechnung dieser Abstände. In der Literatur zu Clustering werden jedoch auch andere Metriken wie der Manhattan-Abstand genannt.
Divisives Clustering kann als das Gegenteil von agglomerativem Clustering definiert werden; hier wird ein „Top-down“-Ansatz verfolgt. In diesem Fall wird ein einzelner Datencluster basierend auf den Unterschieden zwischen den Datenpunkten aufgeteilt. Divisives Clustering wird nicht häufig verwendet, ist aber im Kontext hierarchischen Clusterings dennoch erwähnenswert. Diese Clusteringprozesse werden normalerweise mithilfe eines Dendrogramms visualisiert, einem baumartigen Diagramm, das die Zusammenführung oder Aufteilung von Datenpunkten bei jeder Iteration dokumentiert.
Ein probabilistisches Modell ist eine unüberwachte Technik, die uns hilft, Dichteschätzungs- oder „weiche“ Clustering-Probleme zu lösen. Beim probabilistischen Clustering werden Datenpunkte auf der Grundlage der Wahrscheinlichkeit, dass sie zu einer bestimmten Verteilung gehören, einem Cluster zugeordnet. Das Gaußsche Mischmodell (GMM) ist eine der am häufigsten verwendeten probabilistischen Cluster-Methoden.
Eine Zuordnungsregel ist eine regelbasierte Methode, um Beziehungen zwischen Variablen in einem gegebenen Datensatz zu finden. Diese Methoden werden häufig für die Warenkorbanalyse eingesetzt, wodurch Unternehmen die Beziehungen zwischen verschiedenen Produkten besser verstehen können. Wenn Unternehmen die Konsumgewohnheiten ihrer Kunden verstehen, können sie bessere Cross-Selling-Strategien und Empfehlungsengines entwickeln. Beispiele hierfür sind „Kunden, die diesen Artikel gekauft haben, haben auch gekauft“ von Amazon oder die „Discover Weekly“-Playlist von Spotify. Es gibt zwar einige verschiedene Algorithmen, die zur Generierung von Assoziationsregeln verwendet werden, wie z. B. Apriori, EClat und FP-Growth, aber der Apriori-Algorithmus ist am weitesten verbreitet.
Apriori-Algorithmen wurden durch Warenkorbanalysen populär und führen zu verschiedenen Empfehlungsmaschinen für Musikplattformen und Online-Händler. Sie werden in Datensätzen verwendet, um häufige Itemsets oder Artikelsammlungen zu finden und die Wahrscheinlichkeit des Konsums eines Produkts bei gleichzeitigem Konsum eines anderen Produkts zu ermitteln. Wenn ich beispielsweise Black Sabbath Radio auf Spotify höre und mit dem Song „Orchid“ beginne, ist einer der anderen Songs auf diesem Kanal wahrscheinlich ein Song von Led Zeppelin, beispielsweise „Over the Hills and Far Away“. Dies basiert auf meinen bisherigen Hörgewohnheiten sowie den Gewohnheiten anderer Hörer. Apriori-Algorithmen verwenden einen Hash-Baum zum Zählen von Datensätzen, wobei sie den Datensatz nach dem Breadth-First-Prinzip durchsuchen.
Während mehr Daten im Allgemeinen zu genaueren Ergebnissen führen, können sie sich auch auf die Leistung von Algorithmen für maschinelles Lernen auswirken (z. B. Überanpassung) und können auch die Visualisierung von Datensätzen erschweren. Die Reduzierung der Dimensionalität ist eine Technik, die verwendet wird, wenn die Anzahl der Merkmale oder Dimensionen in einem bestimmten Datensatz zu hoch ist. Dadurch wird die Anzahl der Eingaben auf eine überschaubare Größe reduziert, während gleichzeitig die Integrität des Datensatzes so weit wie möglich gewahrt bleibt. Sie wird häufig in der Vorverarbeitungsphase von Daten verwendet und es gibt verschiedene Methoden zur Dimensionalitätsreduzierung, z. B.:
Die Hauptkomponentenanalyse (Principal Component Analysis, PCA) ist eine Art von Algorithmus zur Dimensionalitätsreduktion, der verwendet wird, um Redundanzen zu reduzieren und Datensätze durch Funktionsextraktion zu komprimieren. Diese Methode verwendet eine lineare Transformation, um eine neue Datenrepräsentation zu erstellen, die eine Reihe von „Hauptkomponenten“ ergibt. Die erste Hauptkomponente ist die Richtung, die die Varianz des Datensatzes maximiert. Die zweite Hauptkomponente findet zwar ebenfalls die maximale Varianz in den Daten, ist aber völlig unkorreliert mit der ersten Hauptkomponente, was eine Richtung ergibt, die senkrecht, also orthogonal, zur ersten Komponente steht. Dieser Prozess wiederholt sich basierend auf der Anzahl der Dimensionen, wobei eine nächste Hauptkomponente die Richtung orthogonal zu den vorherigen Komponenten mit der größten Varianz ist.
Die Singulärwertzerlegung (SVD) ist ein weiterer Ansatz zur Dimensionalitätsreduktion, bei dem eine Matrix A in drei Matrizen mit niedrigem Rang faktorisiert wird. SVD wird durch die Formel A = USVT gekennzeichnet, wobei U und V orthogonale Matrizen sind. S ist eine diagonale Matrix und die S-Werte gelten als Einzelwerte der Matrix A. Ähnlich wie die PCA wird sie häufig verwendet, um Rauschen zu reduzieren und Daten, wie z. B. Bilddateien, zu komprimieren.
Autoencoder nutzen neuronale Netze, um Daten zu komprimieren und dann eine neue Darstellung der ursprünglichen Dateneingabe wiederherzustellen. In der Abbildung unten sehen Sie, dass die verborgene Ebene speziell als Engpass fungiert, um die Eingabeebene vor der Rekonstruktion innerhalb der Ausgabeebene zu komprimieren. Die Stufe von der Eingabeebene zur verborgenen Ebene wird als „Kodierung“ bezeichnet, während die Stufe von der verborgenen Ebene zur Ausgabeebene als „Dekodierung“ bezeichnet wird.
Techniken des maschinellen Lernens haben sich zu einer gängigen Methode entwickelt, um die Nutzererfahrung mit einem Produkt zu verbessern und Systeme zur Qualitätssicherung zu testen. Unüberwachtes Lernen bietet einen explorativen Weg zur Betrachtung von Daten und ermöglicht es Unternehmen, im Vergleich zur manuellen Beobachtung schneller Muster in großen Datenmengen zu erkennen. Einige der häufigsten Anwendungen des unüberwachten Lernens in der Praxis sind:
Unüberwachtes Lernen und überwachtes Lernen werden häufig zusammen genannt. Im Gegensatz zu Algorithmen für unüberwachtes Lernen verwenden Algorithmen für überwachtes Lernen gekennzeichnete Daten. Aus diesen Daten werden entweder zukünftige Ergebnisse prognostiziert oder Daten bestimmten Kategorien zugeordnet, basierend auf dem Regressions- oder Klassifikationsproblem, das es zu lösen gilt.
Obwohl überwachte Lernalgorithmen in der Regel genauer sind als unüberwachte Lernmodelle, erfordern sie ein menschliches Eingreifen im Vorfeld, um die Daten angemessen zu kennzeichnen. Dank dieser gekennzeichneten Datensätze kann jedoch eine Rechenkomplexität für überwachte Lernalgorithmen vermieden werden, da keine große Trainingsmenge benötigt werden, um die beabsichtigten Ergebnisse zu erzielen. Gängige Regressions- und Klassifizierungstechniken sind lineare und logistische Regression, Naive Bayes, KNN-Algorithmus und Random Forest.
Von halbüberwachtem Lernen sprechen wir, wenn nur ein Teil der vorhandenen Eingabedaten gekennzeichnet wurde. Unüberwachtes und halbüberwachtes Lernen können attraktivere Alternativen darstellen, da es zeitaufwändig und kostspielig sein kann, sich auf Fachwissen zu verlassen, um Daten für überwachtes Lernen angemessen zu kennzeichnen.
Einen detaillierten Einblick in die Unterschiede zwischen diesen Ansätzen finden Sie unter „Überwachtes vs. unüberwachtes Lernen: Was ist der Unterschied? “
Unüberwachtes Lernen hat zwar viele Vorteile, kann aber auch einige Herausforderungen mit sich bringen, wenn maschinelle Lernmodelle ohne menschliches Eingreifen ausgeführt werden. Zu diesen Herausforderungen können gehören: