Was ist unüberwachtes Lernen?

23. September 2021

Was ist unüberwachtes Lernen?

Unüberwachtes Lernen, auch als nicht überwachtes maschinelles Lernen bekannt, verwendet maschinelle Lernalgorithmen (ML), um Datensätze ohne Kennzeichnung zu analysieren und zu clustern. Diese Algorithmen entdecken versteckte Muster oder Datengruppierungen, ohne dass dabei ein manueller Eingriff erforderlich ist.

Die Fähigkeit des unüberwachten Lernens, Ähnlichkeiten und Unterschiede in Informationen zu entdecken, macht diese Methode zur idealen Lösung für explorative Datenanalysen, Cross-Selling-Strategien, Kundensegmentierung sowie Bild- und Mustererkennung.

3D-Design aus Kugeln, die auf einer Schiene rollen

Die neuesten Erkenntnisse und Insights zu KI

Entdecken Sie von Experten kuratierte Erkenntnisse und Neuigkeiten zu KI, Cloud und mehr im wöchentlichen Newsletter Think. 

Gängige Ansätze des unüberwachten Lernens

Unüberwachte Lernmodelle werden für drei Hauptaufgaben verwendet: Clustering, Assoziation und Dimensionalitätsreduzierung. Im Folgenden definieren wir die einzelnen Lernmethoden und zeigen gängige Algorithmen und Ansätze für ihre effektive Durchführung auf.

Clustering

Clustering ist eine Data-Mining-Technik, bei der nicht gekennzeichnete Daten basierend auf ihren Ähnlichkeiten oder Unterschieden gruppiert werden. Clustering-Algorithmen werden verwendet, um rohe, unklassifizierte Datenobjekte zu gruppieren, die durch Strukturen oder Muster in den Informationen dargestellt werden. Clustering-Algorithmen können in einige wenige Typen eingeteilt werden: exklusive, überlappende, hierarchische und probabilistische Algorithmen.

Exklusives und überlappendes Clustering

Exklusives Clustering ist eine Form der Gruppierung, die vorschreibt, dass ein Datenpunkt nur in einem Cluster vorhanden sein kann. Dies kann auch als „hartes“ Clustering bezeichnet werden. k-Means-Clustering ist ein gängiges Beispiel für eine exklusive Clustering-Methode, bei der Datenpunkte verschiedenen k-Gruppen zugewiesen werden, wobei k die Anzahl der Cluster basierend auf der Entfernung vom Schwerpunkt der einzelnen Gruppen darstellt. Die Datenpunkte, die einem bestimmten Schwerpunkt am nächsten liegen, werden in dieselbe Kategorie gruppiert. Ein größerer k-Wert weist auf kleinere Gruppierungen mit höherer Granularität hin, während ein kleinerer k-Wert auf größere Gruppierungen und geringere Granularität hinweist. k-Means-Clustering wird häufig in den Bereichen Marktsegmentierung, Dokument-Clustering, Bildsegmentierung und Bildkomprimierung verwendet.

Überlappende Cluster unterscheiden sich vom exklusiven Clustering dadurch, dass Datenpunkte zu mehreren Clustern mit unterschiedlichen Zugehörigkeitsgraden gehören können. „Soft“ oder „fuzzy“ k-Means-Clustering ist ein Beispiel für überlappendes Clustering.

Hierarchisches Clustering

Hierarchisches Clustering, auch als hierarchische Clusteranalyse (HCA) bekannt, ist ein unüberwachter Cluster-Algorithmus, der auf zwei Arten kategorisiert werden kann: agglomerativ oder spaltend.

Agglomeratives Clustering gilt als „Bottom-up“-Ansatz. Die Datenpunkte werden zunächst als separate Gruppierungen isoliert und dann iterativ auf der Grundlage der Ähnlichkeit zusammengeführt, bis ein Cluster entstanden ist. Zur Messung der Ähnlichkeit werden üblicherweise vier verschiedene Methoden verwendet:

  1. Ward-Verknüpfung: Diese Methode besagt, dass der Abstand zwischen zwei Clustern durch die Zunahme der quadratischen Summe nach der Zusammenführung der Cluster definiert wird.

  2. Durchschnittliche Verknüpfung: Diese Methode wird durch die mittlere Entfernung zwischen zwei Punkten in jedem Cluster definiert.

  3. Vollständige (oder maximale) Verknüpfung: Diese Methode wird durch den maximalen Abstand zwischen zwei Punkten in jedem Cluster definiert.

  4. Einfache (oder minimale) Verknüpfung: Diese Methode wird durch den minimalen Abstand zwischen zwei Punkten in jedem Cluster definiert.

Der euklidische Abstand ist die gebräuchlichste Metrik zur Berechnung dieser Abstände. In der Literatur zu Clustering werden jedoch auch andere Metriken wie der Manhattan-Abstand genannt.

Divisives Clustering kann als das Gegenteil von agglomerativem Clustering definiert werden; hier wird ein „Top-down“-Ansatz verfolgt. In diesem Fall wird ein einzelner Datencluster basierend auf den Unterschieden zwischen den Datenpunkten aufgeteilt. Divisives Clustering wird nicht häufig verwendet, ist aber im Kontext hierarchischen Clusterings dennoch erwähnenswert. Diese Clusteringprozesse werden normalerweise mithilfe eines Dendrogramms visualisiert, einem baumartigen Diagramm, das die Zusammenführung oder Aufteilung von Datenpunkten bei jeder Iteration dokumentiert.

Probabilistische Clusterung

Ein probabilistisches Modell ist eine unüberwachte Technik, die uns hilft, Dichteschätzungs- oder „weiche“ Clustering-Probleme zu lösen. Beim probabilistischen Clustering werden Datenpunkte auf der Grundlage der Wahrscheinlichkeit, dass sie zu einer bestimmten Verteilung gehören, einem Cluster zugeordnet. Das Gaußsche Mischmodell (GMM) ist eine der am häufigsten verwendeten probabilistischen Cluster-Methoden.

  • Gaußsche Mischungsmodelle werden als Mischungsmodelle klassifiziert, was bedeutet, dass sie aus einer unbestimmten Anzahl von Wahrscheinlichkeitsverteilungsfunktionen bestehen. GMMs werden in erster Linie eingesetzt, um zu bestimmen, zu welcher Gaußschen oder normalen Wahrscheinlichkeitsverteilung ein bestimmter Datenpunkt gehört. Wenn der Mittelwert oder die Varianz bekannt sind, können wir bestimmen, zu welcher Verteilung ein bestimmter Datenpunkt gehört. In GMMs sind diese Variablen jedoch nicht bekannt, daher gehen wir davon aus, dass eine latente oder versteckte Variable existiert, um Datenpunkte in einem Cluster angemessen zu gruppieren. Es ist zwar nicht erforderlich, den EM-Algorithmus (Expectation-Maximization) zu verwenden, aber dieser wird häufig verwendet, um die Zuweisungswahrscheinlichkeiten für einen bestimmten Datenpunkt zu einem bestimmten Datencluster einzuschätzen.

Zuordnungsregeln

Eine Zuordnungsregel ist eine regelbasierte Methode, um Beziehungen zwischen Variablen in einem gegebenen Datensatz zu finden. Diese Methoden werden häufig für die Warenkorbanalyse eingesetzt, wodurch Unternehmen die Beziehungen zwischen verschiedenen Produkten besser verstehen können. Wenn Unternehmen die Konsumgewohnheiten ihrer Kunden verstehen, können sie bessere Cross-Selling-Strategien und Empfehlungsengines entwickeln. Beispiele hierfür sind „Kunden, die diesen Artikel gekauft haben, haben auch gekauft“ von Amazon oder die „Discover Weekly“-Playlist von Spotify. Es gibt zwar einige verschiedene Algorithmen, die zur Generierung von Assoziationsregeln verwendet werden, wie z. B. Apriori, EClat und FP-Growth, aber der Apriori-Algorithmus ist am weitesten verbreitet.

Apriori-Algorithmen

Apriori-Algorithmen wurden durch Warenkorbanalysen populär und führen zu verschiedenen Empfehlungsmaschinen für Musikplattformen und Online-Händler. Sie werden in Datensätzen verwendet, um häufige Itemsets oder Artikelsammlungen zu finden und die Wahrscheinlichkeit des Konsums eines Produkts bei gleichzeitigem Konsum eines anderen Produkts zu ermitteln. Wenn ich beispielsweise Black Sabbath Radio auf Spotify höre und mit dem Song „Orchid“ beginne, ist einer der anderen Songs auf diesem Kanal wahrscheinlich ein Song von Led Zeppelin, beispielsweise „Over the Hills and Far Away“. Dies basiert auf meinen bisherigen Hörgewohnheiten sowie den Gewohnheiten anderer Hörer. Apriori-Algorithmen verwenden einen Hash-Baum zum Zählen von Datensätzen, wobei sie den Datensatz nach dem Breadth-First-Prinzip durchsuchen.

Reduzierung der Dimensionalität

Während mehr Daten im Allgemeinen zu genaueren Ergebnissen führen, können sie sich auch auf die Leistung von Algorithmen für maschinelles Lernen auswirken (z. B. Überanpassung) und können auch die Visualisierung von Datensätzen erschweren. Die Reduzierung der Dimensionalität ist eine Technik, die verwendet wird, wenn die Anzahl der Merkmale oder Dimensionen in einem bestimmten Datensatz zu hoch ist. Dadurch wird die Anzahl der Eingaben auf eine überschaubare Größe reduziert, während gleichzeitig die Integrität des Datensatzes so weit wie möglich gewahrt bleibt. Sie wird häufig in der Vorverarbeitungsphase von Daten verwendet und es gibt verschiedene Methoden zur Dimensionalitätsreduzierung, z. B.:

Hauptkomponentenanalyse

Die Hauptkomponentenanalyse (Principal Component Analysis, PCA) ist eine Art von Algorithmus zur Dimensionalitätsreduktion, der verwendet wird, um Redundanzen zu reduzieren und Datensätze durch Funktionsextraktion zu komprimieren. Diese Methode verwendet eine lineare Transformation, um eine neue Datenrepräsentation zu erstellen, die eine Reihe von „Hauptkomponenten“ ergibt. Die erste Hauptkomponente ist die Richtung, die die Varianz des Datensatzes maximiert. Die zweite Hauptkomponente findet zwar ebenfalls die maximale Varianz in den Daten, ist aber völlig unkorreliert mit der ersten Hauptkomponente, was eine Richtung ergibt, die senkrecht, also orthogonal, zur ersten Komponente steht. Dieser Prozess wiederholt sich basierend auf der Anzahl der Dimensionen, wobei eine nächste Hauptkomponente die Richtung orthogonal zu den vorherigen Komponenten mit der größten Varianz ist.

Singuläre Wertzerlegung

Die Singulärwertzerlegung (SVD) ist ein weiterer Ansatz zur Dimensionalitätsreduktion, bei dem eine Matrix A in drei Matrizen mit niedrigem Rang faktorisiert wird. SVD wird durch die Formel A = USVT gekennzeichnet, wobei U und V orthogonale Matrizen sind. S ist eine diagonale Matrix und die S-Werte gelten als Einzelwerte der Matrix A. Ähnlich wie die PCA wird sie häufig verwendet, um Rauschen zu reduzieren und Daten, wie z. B. Bilddateien, zu komprimieren.

Autoencoder

Autoencoder nutzen neuronale Netze, um Daten zu komprimieren und dann eine neue Darstellung der ursprünglichen Dateneingabe wiederherzustellen. In der Abbildung unten sehen Sie, dass die verborgene Ebene speziell als Engpass fungiert, um die Eingabeebene vor der Rekonstruktion innerhalb der Ausgabeebene zu komprimieren. Die Stufe von der Eingabeebene zur verborgenen Ebene wird als „Kodierung“ bezeichnet, während die Stufe von der verborgenen Ebene zur Ausgabeebene als „Dekodierung“ bezeichnet wird.

Anwendungen des unüberwachten Lernens

Techniken des maschinellen Lernens haben sich zu einer gängigen Methode entwickelt, um die Nutzererfahrung mit einem Produkt zu verbessern und Systeme zur Qualitätssicherung zu testen. Unüberwachtes Lernen bietet einen explorativen Weg zur Betrachtung von Daten und ermöglicht es Unternehmen, im Vergleich zur manuellen Beobachtung schneller Muster in großen Datenmengen zu erkennen. Einige der häufigsten Anwendungen des unüberwachten Lernens in der Praxis sind:

  • Nachrichtenbereiche: Google News verwendet unüberwachtes Lernen, um Artikel zu derselben Geschichte aus verschiedenen Online-Nachrichtenagenturen zu kategorisieren. Zum Beispiel könnten die Ergebnisse einer Präsidentschaftswahl unter dem Label „US“-Nachrichten kategorisiert werden.

  • Computer Vision: Unüberwachte Lernalgorithmen werden für Aufgaben der visuellen Wahrnehmung verwendet, z. B. für die Objekterkennung.

  • Medizinische Bildgebung: Unüberwachtes maschinelles Lernen bietet wichtige Funktionen für medizinische Bildgebungsgeräte, wie Bilderkennung, -klassifizierung und -segmentierung, die in der Radiologie und Pathologie zur schnellen und genauen Diagnose von Patienten eingesetzt werden.

  • Anomalie-Erkennung: Modelle für unüberwachtes Lernen können große Datenmengen durchforsten und atypische Datenpunkte innerhalb eines Datensatzes entdecken. Diese Anomalien können das Bewusstsein für fehlerhafte Geräte, menschliches Versagen oder Verstöße gegen die Sicherheit schärfen.

  • Kunden-Personas: Die Definition von Kunden-Personas macht es einfacher, gemeinsame Merkmale und Kaufgewohnheiten von Geschäftskunden zu verstehen. Unüberwachtes Lernen ermöglicht es Unternehmen, bessere Persona-Profile ihrer Kunden zu erstellen, so dass sie ihre Produktbotschaften angemessener ausrichten können.

  • Empfehlungsengines: Mithilfe von Daten zum Kaufverhalten in der Vergangenheit kann unüberwachtes Lernen helfen, Datentrends zu entdecken, die zur Entwicklung effektiverer Cross-Selling-Strategien genutzt werden können. Dies dient dazu, den Kunden während des Check-out-Prozesses bei Online-Händlern relevante Add-on-Empfehlungen zu geben.
Mixture of Experts | 25. April, Folge 52

KI entschlüsseln: Wöchentlicher Nachrichtenüberblick

Schließen Sie sich unserer erstklassigen Expertenrunde aus Ingenieuren, Forschern, Produktführern und anderen an, die sich durch das KI-Rauschen kämpfen, um Ihnen die neuesten KI-Nachrichten und Erkenntnisse zu liefern.

Unüberwachtes vs. überwachtes und halbüberwachtes Lernen

Unüberwachtes Lernen und überwachtes Lernen werden häufig zusammen genannt. Im Gegensatz zu Algorithmen für unüberwachtes Lernen verwenden Algorithmen für überwachtes Lernen gekennzeichnete Daten. Aus diesen Daten werden entweder zukünftige Ergebnisse prognostiziert oder Daten bestimmten Kategorien zugeordnet, basierend auf dem Regressions- oder Klassifikationsproblem, das es zu lösen gilt.

Obwohl überwachte Lernalgorithmen in der Regel genauer sind als unüberwachte Lernmodelle, erfordern sie ein menschliches Eingreifen im Vorfeld, um die Daten angemessen zu kennzeichnen. Dank dieser gekennzeichneten Datensätze kann jedoch eine Rechenkomplexität für überwachte Lernalgorithmen vermieden werden, da keine große Trainingsmenge benötigt werden, um die beabsichtigten Ergebnisse zu erzielen. Gängige Regressions- und Klassifizierungstechniken sind lineare und logistische Regression, Naive Bayes, KNN-Algorithmus und Random Forest.

Von halbüberwachtem Lernen sprechen wir, wenn nur ein Teil der vorhandenen Eingabedaten gekennzeichnet wurde. Unüberwachtes und halbüberwachtes Lernen können attraktivere Alternativen darstellen, da es zeitaufwändig und kostspielig sein kann, sich auf Fachwissen zu verlassen, um Daten für überwachtes Lernen angemessen zu kennzeichnen.

Einen detaillierten Einblick in die Unterschiede zwischen diesen Ansätzen finden Sie unter „Überwachtes vs. unüberwachtes Lernen: Was ist der Unterschied?

Herausforderungen des unüberwachte Lernens

Unüberwachtes Lernen hat zwar viele Vorteile, kann aber auch einige Herausforderungen mit sich bringen, wenn maschinelle Lernmodelle ohne menschliches Eingreifen ausgeführt werden. Zu diesen Herausforderungen können gehören:

  • Rechenkomplexität aufgrund einer großen Menge an Trainingsdaten

  • Längere Trainingszeiten

  • Höheres Risiko für ungenaue Ergebnisse

  • Menschliches Eingreifen zur Validierung von Ausgabevariablen

  • Mangelnde Transparenz darüber, auf welcher Grundlage Daten geclustert wurden
Weitere Lösungen
IBM watsonx.ai

Trainieren, validieren, optimieren und implementieren Sie generative KI, Foundation Models und maschinelle Lernfunktionen mit IBM watsonx.ai, einem Studio der nächsten Generation für AI Builder in Unternehmen. Erstellen Sie KI-Anwendungen mit einem Bruchteil der Zeit und Daten.

Entdecken sie watsonx.ai
Lösungen im Bereich künstlicher Intelligenz

Setzen Sie KI in Ihrem Unternehmen ein
– mit branchenführendem Fachwissen im Bereich KI und dem umfassenden Lösungsportfolio von IBM an Ihrer Seite.

Erkunden Sie KI-Lösungen
KI-Beratung und -Services

Erfinden Sie kritische Workflows und Abläufe neu, indem Sie KI einsetzen, um Erfahrungen, Entscheidungsfindung in Echtzeit und den geschäftlichen Nutzen zu maximieren.

KI-Services entdecken
Machen Sie den nächsten Schritt

Profitieren Sie von einem einheitlichen Zugriff auf Funktionen, die den gesamten Lebenszyklus der KI-Entwicklung abdecken. Erstellen Sie leistungsstarke KI-Lösungen mit benutzerfreundlichen Oberflächen, Workflows und Zugriff auf branchenübliche APIs und SDKs.

watsonx.ai erkunden Live-Demo buchen