Was ist nicht überwachtes Lernen?
Wie nicht überwachtes Lernen funktioniert und wie es zur Untersuchung und Gruppierung (Clustering) von Daten eingesetzt werden kann
Darstellung eines abstrakten Wellenelements aus grünen Linien auf schwarzem Hintergrund
Was ist nicht überwachtes Lernen?

Nicht überwachtes Lernen, das auch als nicht überwachtes maschinelles Lernen bezeichnet wird, verwendet Algorithmen des maschinellen Lernens, um Datasets ohne Kennzeichnung zu analysieren und für das Clustering zu konfigurieren. Diese Algorithmen erkennen versteckte Muster oder Datengruppierungen, ohne dass hierzu ein manueller Eingriff erforderlich wäre. Die Fähigkeit, Gemeinsamkeiten und Unterschiede in Informationen zu erkennen, macht diese Art des Lernens zur idealen Lösung für die explorative Datenanalyse und Cross-Selling-Strategien, für die Definition von Kundensegmenten und die Bilderkennung.

Gängige Ansätze bei nicht überwachtem Lernen

Modelle des nicht überwachten Lernens werden für drei Hauptaufgaben verwendet – Clustering, Assoziation und Dimensionalitätsreduktion. Nachfolgend wird jede dieser Lernmethoden definiert und es werden die gängigen Algorithmen und Ansätze für ihre effektive Durchführung vorgestellt.

Clustering

Clustering ist ein Data-Mining-Verfahren, bei dem Daten ohne Kennzeichnung auf der Grundlage ihrer Gemeinsamkeiten oder ihrer Unterschiede in Gruppen zusammengefasst werden. Clustering-Algorithmen werden verwendet, um unbearbeitete, nicht klassifizierte Datenobjekte zu Gruppen zu verarbeiten, die durch Strukturen oder Muster in den Informationen dargestellt werden. Clustering-Algorithmen lassen sich in einige wenige Typen einteilen, insbesondere in den exklusiven, den überlappenden, den hierarchischen und den probabilistischen.

Exklusives und überlappendes Clustering

Exklusives Clustering ist eine Form der Gruppierung, die vorgibt, dass ein Datenpunkt nur in einem Cluster vorkommen darf. Dies kann auch als „hartes“ Clustering bezeichnet werden. Der K-Means-Clustering-Algorithmus ist ein Beispiel für exklusives Clustering.

  • K-Means-Clustering ist ein gängiges Beispiel für eine exklusive Clustering-Methode, bei der Datenpunkte in k Gruppen eingeteilt werden, wobei k die Anzahl der Cluster auf der Grundlage des Abstands zum Zentroid einer jeden Gruppe darstellt. Die Datenpunkte, die einem bestimmten Zentroid am nächsten liegen, werden unter derselben Kategorie in Gruppen (Clustern) zusammengefasst. Ein größerer k-Wert deutet auf kleinere Gruppierungen mit höherer Granularität hin, während ein kleinerer k-Wert auf größere Gruppierungen mit geringerer Detailliertheit schließen lässt. K-Means-Clustering wird häufig für Marktsegmentierung, Dokumentclustering, Bildsegmentierung und Grafikkomprimierung verwendet.

Überlappendes Clustering unterscheidet sich vom exklusiven Clustering dadurch, dass Datenpunkte zu mehreren Clustern mit unterschiedlichen Graden der Zugehörigkeit gehören können. Das „weiche“ oder unscharfe K-Means-Clustering ist ein Beispiel für überlappendes Clustering.

Hierarchisches Clustering

Hierarchisches Clustering, das auch als hierarchische Clusteranalyse (Hierarchical Cluster Analysis, HCA) bezeichnet wird, ist ein nicht überwachter Clustering-Algorithmus, der in zweierlei Kategorien unterteilt werden kann: agglomeratives Clustering oder divisives Clustering. Agglomeratives Clustering wird als „Bottom-up-Ansatz" betrachtet. Seine Datenpunkte werden anfänglich als separate Gruppierungen isoliert und dann iterativ auf der Grundlage der Ähnlichkeit zusammengeführt, bis ein Cluster entstanden ist. Zur Messung der Ähnlichkeit werden in der Regel vier unterschiedliche Methoden verwendet:

  1. Ward-Verknüpfung: Diese Methode besagt, dass der Abstand zwischen zwei Clustern durch die Zunahme der Summe der Quadrate nach der Zusammenführung der Cluster definiert wird.
  2. Durchschnittliche Verknüpfung: Diese Methode wird durch den mittleren Abstand zwischen zwei Punkten in jedem Cluster definiert.
  3. Vollständige (oder maximale) Verknüpfung: Diese Methode wird durch den maximalen Abstand zwischen zwei Punkten in jedem Cluster definiert.
  4. Einzelne (oder minimale) Verknüpfung: Diese Methode wird durch den minimalen Abstand zwischen zwei Punkten in jedem Cluster definiert.

Der euklidische Abstand ist die gängigste Metrik zur Berechnung dieser Abstände; in der Fachliteratur zu Clustering werden jedoch auch noch andere Metriken genannt, wie etwa der Manhattan-Abstand.

Divisives Clustering kann als das Gegenteil von agglomerativem Clustering definiert werden und verwendet einen „Top-down-Ansatz“. In diesem Fall wird ein einzelner Datencluster auf der Grundlage der Unterschiede zwischen den Datenpunkten aufgeteilt. Divisives Clustering wird zwar nicht häufig verwendet, ist aber im Zusammenhang mit dem hierarchischen Clustering trotzdem erwähnenswert. Diese Clustering-Prozesse werden in der Regel mit einem Dendrogramm dargestellt, einem baumartigen Diagramm, das die Zusammenführung oder Aufteilung von Datenpunkten bei jeder Iteration dokumentiert.

Probabilistisches Clustering

Ein probabilistisches Modell ist ein nicht überwachtes Verfahren, das bei der Lösung von Problemen mit der Dichteschätzung oder dem „weichen“ Clustering helfen kann. Beim probabilistischen Clustering werden Datenpunkte basierend auf der Wahrscheinlichkeit, dass sie zu einer bestimmten Verteilung gehören, in Gruppen (Clustern) zusammengefasst. Das Gaußsche Mischmodell (GMM) ist eine der gängigsten probabilistischen Clustering-Methoden.

  • Gaußsche Mischmodelle (GMMs) werden als Mischmodelle klassifiziert, was bedeutet, dass sie aus einer nicht angegebenen Anzahl von Wahrscheinlichkeitsverteilungsfunktionen bestehen. GMMs werden in erster Linie eingesetzt, um zu ermitteln, zu welcher Gaußschen oder normalen Wahrscheinlichkeitsverteilung ein bestimmter Datenpunkt gehört. Wenn der Mittelwert oder die Varianz bekannt sind, kann bestimmt werden, zu welcher Verteilung ein bestimmter Datenpunkt gehört. Bei GMMs sind diese Variablen jedoch nicht bekannt, so dass davon ausgegangen wird, dass eine latente (oder verborgene) Variable existiert, um die Datenpunkte entsprechend in Gruppen (Clustern) zusammenzufassen. Eine Verwendung des Algorithmus der Erwartungsmaximierung (EM) ist zwar nicht zwingend erforderlich, erfolgt aber häufig, um die Wahrscheinlichkeiten der Zuordnung für einen bestimmten Datenpunkt zu einem bestimmten Datencluster zu schätzen.   

Assoziationsregeln

Eine Assoziationsregel ist eine regelbasierte Methode zur Ermittlung von Beziehungen zwischen den Variablen in einem bestimmten Dataset. Diese Methoden werden häufig für Warenkorbanalysen verwendet, die Unternehmen ermöglichen, die Beziehungen zwischen unterschiedlichen Produkten besser zu verstehen. Durch Verstehen der Konsumgewohnheiten von Kunden werden Unternehmen in die Lage versetzt, bessere Cross-Selling-Strategien und Steuerkomponenten für Empfehlungen zu entwickeln. Beispiele dafür lassen sich bei „Kunden, die diesen Artikel gekauft haben, kauften auch“ von Amazon oder der Wiedergabeliste „Mix der Woche“ von Spotify finden. Es gibt zwar einige unterschiedliche Algorithmen zur Erstellung von Assoziationsregeln, wie A-priori, Eclat und FP-Growth, doch der A-priori-Algorithmus ist am gängigsten.

A-priori-Algorithmen

A-priori-Algorithmen sind durch Warenkorbanalysen bekannt geworden, was zu verschiedenen Empfehlungssteuerkomponenten für Musikplattformen und Onlinehändler im Einzelhandel geführt hat. Sie werden in transaktionsorientierten Datasets verwendet und geben dort häufige Item-Sets an, um die Wahrscheinlichkeit für die Nutzung eines Produkts angesichts der Nutzung eines anderen Produkts zu bestimmen. Wenn man beispielsweise den „Black Sabbath“-Radiosender wiedergibt, angefangen mit dem Song „Orchid“, dürfte es sich bei einem anderen der Songs auf diesem Kanal wahrscheinlich um einen von Led Zeppelin handeln, wie z. B. „Over the Hills and Far Away“. Dies beruht auf den eigenen bisherigen Hörgewohnheiten sowie auf denen anderer. A-priori-Algorithmen verwenden zum Zählen von Itemsets einen Hash-Baum und navigieren wie bei einer Breitensuche durch das Dataset.

Dimensionalitätsreduktion

Mehr Daten liefern zwar im Allgemeinen genauere Ergebnisse, können aber auch die Leistung von Algorithmen für maschinelles Lernen beeinträchtigen (z. B. durch übermäßige Anpassung) und die Visualisierung von Datensätzen erschweren. Die Dimensionalitätsreduktion ist ein Verfahren, das eingesetzt wird, wenn die Anzahl von Merkmalen oder Dimensionen in einem bestimmten Dataset zu hoch ist. Sie reduziert die Anzahl der Dateneingaben auf eine überschaubare Größe, während sie gleichzeitig die Integrität des Datasets so weit wie möglich bewahrt. Dieses Verfahren wird in der Regel in der Phase der Datenvorverarbeitung eingesetzt, und es können einige unterschiedliche Methoden zur Dimensionalitätsreduktion angewendet werden, wie beispielsweise die folgenden:

Hauptkomponentenanalyse

Die Hauptkomponentenanalyse (Principal Component Analysis, PCA) ist ein Algorithmus für die Dimensionalitätsreduktion, der zur Reduzierung von Redundanzen und zur Komprimierung von Datasets durch Merkmalextraktion eingesetzt wird. Diese Methode verwendet eine lineare Transformation, um eine neue Datendarstellung zu erstellen, die eine Reihe von „Hauptkomponenten“ ergibt. Die erste Hauptkomponente ist die Richtung, die die Varianz des Datasets maximiert. Die zweite Hauptkomponente findet zwar auch die maximale Varianz in den Daten, hat aber keinerlei Korrelation zur ersten Hauptkomponente, so dass sich eine Richtung ergibt, die senkrecht oder orthogonal zur ersten Komponente liegt. Dieser Prozess wiederholt sich je nach Anzahl der Dimensionen, wobei die nächste Hauptkomponente die Richtung ist, die orthogonal zu den vorherigen Komponenten mit der größten Varianz liegt.

Einzelwertzerlegung

Die Einzelwertzerlegung (Singular Value Decomposition, SVD) ist ein weiterer Ansatz zur Dimensionalitätsreduktion, bei dem eine Matrix A in drei Matrizen mit niedrigem Rang faktorisiert wird. Die SVD wird durch die Formel A = USVT dargestellt, wobei U und V orthogonale Matrizen sind. S ist eine Diagonalmatrix, und die Werte von S werden als Singulärwerte der Matrix A betrachtet. Ähnlich wie die Hauptkomponentenanalyse wird sie häufig zur Rauschunterdrückung und zur Komprimierung von Daten verwendet, z. B. von Bilddateien.

Autoencoder

Autoencoder setzen neuronale Netze ein, um Daten zu komprimieren und dann eine neue Darstellung der ursprünglichen Dateneingabe zu erzeugen. In der Abbildung unten ist zu erkennen, dass die verborgene Schicht speziell als Engpass fungiert, um die Eingabeschicht zu komprimieren, bevor sie innerhalb der Ausgabeschicht rekonstruiert wird. Die Phase von der Eingabeschicht zur verborgenen Schicht wird als „Codierung“ bezeichnet, während die Phase von der verborgenen Schicht zur Ausgabeschicht als „Decodierung“ bezeichnet wird.

Anwendungen des nicht überwachten Lernens

Verfahren des maschinellen Lernens sind eine gängige Methode zur Verbesserung der Benutzererfahrung für Produkte und zum Testen von Systemen für die Qualitätssicherung geworden. Nicht überwachtes Lernen bietet einen explorativen Pfad bei der Anzeige von Daten und ermöglicht Unternehmen, im Vergleich zur manuellen Betrachtung Muster in umfangreichen Datenmengen schneller zu erkennen. Einige der gängigsten praktischen Anwendungen des nicht überwachten Lernens sind die folgenden:

  • Nachrichtenbereiche: Google News verwendet nicht überwachtes Lernen, um Artikel zum gleichen Thema von unterschiedlichen Online-Nachrichtenagenturen zu kategorisieren. So könnten die Ergebnisse einer Präsidentschaftswahl unter ihrer Kennzeichnung für „US“-Nachrichten kategorisiert werden.
  • Computer Vision: Für visuelle Wahrnehmungsaufgaben wie die Objekterkennung werden Algorithmen für nicht überwachtes Lernen verwendet.  
  • Medizinische Bildgebung: Nicht überwachtes maschinelles Lernen liefert wesentliche Funktionen für medizinische Bildgebungsgeräte, z. B. Bilderkennung, Klassifizierung und Segmentierung, die in der Radiologie und Pathologie zur schnellen und genauen Diagnostizierung von Patienten eingesetzt werden.
  • Anomalieerkennung: Modelle für nicht überwachtes Lernen können große Datenmengen durchkämmen und atypische Datenpunkte innerhalb eines Datasets erkennen. Diese Anomalien können die Sensibilität für defekte Geräte, menschliches Versagen oder Sicherheitslücken steigern.
  • Kundenpersonas: Durch das Definieren von Kundenpersonas lassen sich allgemeine Merkmale und Kaufgewohnheiten von Geschäftskunden einfacher verstehen. Nicht überwachtes Lernen ermöglicht Unternehmen, bessere Profile für Käuferpersonas zu erstellen, so dass Unternehmen ihre Produktbotschaften angemessener gestalten können.
  • Steuerkomponenten für Empfehlungen: Mithilfe von Daten zum Kaufverhalten in der Vergangenheit kann nicht überwachtes Lernen dabei helfen, Datentrends zu erkennen, die zur Entwicklung effektiverer Cross-Selling-Strategien genutzt werden können. Bei Online-Händlern wird dies genutzt, um Kunden während des Check-out-Vorgangs Empfehlungen für relevante Zusatzprodukte anzubieten.
Nicht überwachtes Lernen vs. überwachtes Lernen vs. teilüberwachtes Lernen

Nicht überwachtes Lernen und überwachtes Lernen werden oft gemeinsam erörtert. Im Gegensatz zu Algorithmen für nicht überwachtes Lernen verwenden Algorithmen für überwachtes Lernen mit Kennzeichnungen versehene Daten. Anhand dieser Daten werden entweder künftige Ergebnisse vorhergesagt oder die Daten auf der Grundlage des zu lösenden Regressions- oder Klassifizierungsproblems bestimmten Kategorien zugewiesen. Algorithmen für überwachtes Lernen sind zwar in der Regel genauer als Modelle des nicht überwachten Lernens, erfordern aber im Vorfeld menschliche Eingriffe, um die Daten entsprechend zu kennzeichnen. Durch diese gekennzeichneten Datasets können Algorithmen für überwachtes Lernen jedoch rechnerische Komplexität vermeiden, da sie kein umfangreiches Trainingsset benötigen, um die gewünschten Ergebnisse zu erzielen. Gängige Regressions- und Klassifizierungsverfahren sind lineare und logistische Regression, Naive Bayes, KNN-Algorithmus und Random Forest.

Von teilüberwachtem Lernen spricht man, wenn nur ein Teil der gegebenen Eingabedaten gekennzeichnet wurde. Nicht überwachtes und teilüberwachtes Lernen können attraktivere Alternativen sein, da es zeitaufwändig und kostenintensiv sein kann, sich auf Fachwissen zu stützen, um Daten für überwachtes Lernen angemessen zu kennzeichnen.

Einen tieferen Einblick in die Unterschiede zwischen diesen Ansätzen erhalten Sie in „Überwachtes vs. nicht überwachtes Lernen: Was ist der Unterschied?“.

Herausforderungen des nicht überwachten Lernens

Nicht überwachtes Lernen bietet zwar viele Vorteile, kann aber auch einige Herausforderungen mit sich bringen, wenn Modelle für maschinelles Lernen ohne menschlichen Eingriff ausgeführt werden dürfen. Diese Herausforderungen umfassen u. a. die folgenden:

  • Berechnungskomplexität aufgrund einer großen Menge von Trainingsdaten
  • Längere Trainingszeiten
  • Höheres Risiko für ungenaue Ergebnisse
  • Manueller Eingriff zur Validierung von Ausgabevariablen
  • Fehlende Transparenz der Basis, auf deren Grundlage Daten in Gruppen zusammengefasst wurden

 

Zugehörige Lösungen
IBM® Watson Studio

Erstellen und skalieren Sie vertrauenswürdige KI in jeder Cloud. Automatisieren Sie den KI-Lebenszyklus für ModelOps.

Mehr zu IBM® Watson Studio erfahren
IBM® Cloud Pak for Data

Verbinden Sie die richtigen Daten zur richtigen Zeit mit den richtigen Personen, und zwar standortunabhängig.

Mehr zu Cloud Pak for Data erfahren
IBM Cloud-Lösungen

Hybrid. Offen konzipiert. Ausfallsicher. Ihre Plattform und Ihr Partner für digitale Transformation.

Mehr über Cloud-Lösungen erfahren
Ressourcen Überwachtes vs. nicht überwachtes Lernen: Was ist der Unterschied?

Erkunden Sie die Grundlagen von zwei datenwissenschaftlichen Ansätzen: überwachtes und nicht überwachtes Lernen. Finden Sie heraus, welcher Ansatz speziell für Ihre Situation der richtige ist.

Die 3 Modelle für maschinelles Lernen

Informieren Sie sich über die drei Algorithmuskategorien: überwachtes, nicht überwachtes und bestärkendes Lernen. Lernen Sie die Ideen dahinter und einige wichtige Algorithmen kennen, die für die einzelnen Kategorien verwendet werden.

Machen Sie den nächsten Schritt

Modelle für nicht überwachtes Lernen sind leistungsfähige Tools, wenn Sie mit großen Datenmengen arbeiten.IBM Watson Studio in IBM Cloud Pak for Data bietet eine Open-Source-Lösung für Datenwissenschaftler und Entwickler, die ihre Bereitstellungen für nicht überwachtes maschinelles Lernen beschleunigen möchten. Skalieren Sie Ihre Lernmodelle in beliebigen Cloud-Umgebungen und profitieren Sie von den Ressourcen und dem Fachwissen von IBM, um Ihre Modelle des nicht überwachten maschinellen Lernens optimal zu nutzen.

Jetzt mehr zu IBM® Watson Studio erfahren