Überwachtes vs. unüberwachtes Lernen: Was ist der Unterschied?

Fraktal wie eine Synapse mit vielen Nervenenden

Autor

Julianna Delua

SME, IBM Analytics, Data Science/Machine Learning

Die Welt wird mit jedem Tag „intelligenter“, und um mit den Erwartungen der Verbraucher Schritt zu halten, setzen Unternehmen zunehmend Algorithmen des maschinellen Lernens ein, um die Dinge zu vereinfachen. Sie können sie auf Endbenutzergeräten verwenden (durch Gesichtserkennung zum Freischalten von Smartphones) oder um Kreditkartenbetrug zu erkennen (z. B. das Auslösen von Warnungen bei ungewöhnlichen Käufen).

Innerhalb der künstlichen Intelligenz (KI) und des maschinellen Lernens gibt es zwei grundlegende Ansätze: überwachtes Lernen und unüberwachtes Lernen. Der Hauptunterschied besteht darin, dass der eine gekennzeichnete Daten verwendet, um die Ergebnisse vorherzusagen, während der andere dies nicht tut. Allerdings gibt es einige Nuancen zwischen den beiden Ansätzen und Schlüsselbereiche, in denen der eine den anderen übertrifft. In diesem Beitrag werden die Unterschiede erläutert, damit Sie den besten Ansatz für Ihre Situation wählen können.

Die neuesten KI-Trends, präsentiert von Experten

Erhalten Sie kuratierte Einblicke in die wichtigsten – und faszinierendsten – KI-Neuheiten. Abonnieren Sie unseren wöchentlichen Think-Newsletter. Weitere Informationen in der IBM Datenschutzerklärung.

Vielen Dank! Sie haben ein Abonnement abgeschlossen.

Ihr Abonnement wird auf Englisch geliefert. In jedem Newsletter finden Sie einen Abmeldelink. Hier können Sie Ihre Abonnements verwalten oder sich abmelden. Weitere Informationen finden Sie in unserer IBM Datenschutzerklärung.

Was ist überwachtes Lernen?

Überwachtes Lernen ist ein maschinelles Lernverfahren, das sich durch die Verwendung von gekennzeichneten Datensätzen auszeichnet. Diese Datensätze sind dazu ausgelegt, Algorithmen zu trainieren oder zu überwachen, damit diese Daten genau klassifizieren oder Ergebnisse genau vorhersagen können. Anhand gekennzeichneter Eingaben und Ausgaben kann das Modell seine Genauigkeit messen und im Laufe der Zeit dazulernen.

Überwachtes Lernen kann beim Data Mining in zwei Problemkategorien unterteilt werden: Klassifizierung und Regression.

  • Bei Klassifizierungsproblemen wird ein Algorithmus verwendet, um Testdaten genau in bestimmte Kategorien einzuordnen, z. B. um Äpfel von Orangen zu unterscheiden. In der realen Welt können überwachte Lernalgorithmen auch verwendet werden, um Spam in einem separaten Ordner als Ihrem Posteingang zu klassifizieren. Lineare Klassifikatoren, Support-Vektor-Maschinen, Entscheidungsbäume und Random Forest sind gängige Arten von Klassifizierungsalgorithmen.

  • Regression ist eine weitere Methode des überwachten Lernens, die einen Algorithmus verwendet, um die Beziehung zwischen abhängigen und unabhängigen Variablen zu verstehen. Regressionsmodelle sind hilfreich bei der Vorhersage numerischer Werte auf der Grundlage verschiedener Datenpunkte, z. B. Umsatzprognosen für ein bestimmtes Unternehmen. Einige gängige Regressionsalgorithmen sind die lineare Regression, die logistische Regression und die polynomiale Regression.
AI Academy

Nutzen Sie KI für Ihren Kundenservice

Erfahren Sie, wie der Einsatz von generativer KI mit einer nahtloseren Erfahrung die Kundenzufriedenheit erhöht und die Produktivität des Unternehmens in diesen drei Schlüsselbereichen steigert: Self-Service, Servicemitarbeiter und Abläufe im Contact Center.

Was ist unüberwachtes Lernen?

Beim unüberwachten Lernen werden maschinelle Lernalgorithmen verwendet, um Datensätze ohne Kennzeichnung zu analysieren und zu clustern. Diese Algorithmen entdecken versteckte Muster in Daten, ohne dass ein menschliches Eingreifen erforderlich ist (daher sind sie „unüberwacht“).

Unüberwachte Lernmodelle werden für drei Hauptaufgaben verwendet: Clustering, Assoziation und Dimensionalitätsreduzierung.

  • Clustering ist eine Data-Mining-Technik, bei der nicht gekennzeichnete Daten basierend auf ihren Ähnlichkeiten oder Unterschieden gruppiert werden. K-Means-Clustering-Algorithmen weisen beispielsweise ähnliche Datenpunkte in Gruppen zu, wobei der K-Wert die Größe der Gruppierung und Granularität darstellt. Diese Technik ist hilfreich für die Marktsegmentierung, Bildkomprimierung usw.

  • Assoziation ist eine weitere Art von unüberwachter Lernmethode, die verschiedene Regeln verwendet, um Beziehungen zwischen Variablen in einem bestimmten Datensatz zu finden. Diese Methoden werden häufig für Warenkorbanalysen und Empfehlungssysteme verwendet, etwa für Empfehlungen wie „Kunden, die diesen Artikel gekauft haben, kauften auch“.

  • Dimensionalitätsreduzierung ist eine Lerntechnik, die verwendet wird, wenn die Anzahl der Funktionen (oder Dimensionen) in einem bestimmten Datensatz zu hoch ist. Es reduziert die Anzahl der Eingaben auf eine überschaubare Größe und bewahrt gleichzeitig die Datenintegrität. Häufig wird diese Technik in der Vorverarbeitungsphase von Daten verwendet, z. B. wenn Autoencoder Rauschen aus visuellen Daten entfernen, um die Bildqualität zu verbessern.

Der Hauptunterschied: gekennzeichnete Daten

Der Hauptunterschied zwischen den beiden Ansätzen besteht in der Verwendung von gekennzeichneten Datensätzen. Einfach ausgedrückt verwendet überwachtes Lernen gekennzeichnete Eingabe- und Ausgabedaten, während ein unüberwachter Lernalgorithmus dies nicht tut.

Beim überwachten Lernen „lernt“ der Algorithmus aus dem Trainingsdatensatz, indem er iterativ Vorhersagen zu den Daten trifft und die richtige Antwort einstellt. Obwohl überwachte Lernmodelle tendenziell genauer sind als unüberwachte Lernmodelle, erfordern sie ein menschliches Eingreifen im Vorfeld, um die Daten angemessen zu kennzeichnen. Ein überwachtes Lernmodell kann beispielsweise vorhersagen, wie lange Ihre Fahrt zur Arbeit dauern wird, basierend auf Tageszeit, Wetterbedingungen und so weiter. Aber zuerst müssen Sie es trainieren, damit es weiß, dass regnerisches Wetter die Fahrzeit verlängert.

Im Gegensatz dazu arbeiten unüberwachte Lernmodelle selbstständig, um die inhärente Struktur von ungekennzeichneten Daten zu entdecken. Beachten Sie, dass für die Validierung von Ausgabevariablen weiterhin ein gewisser menschlicher Eingriff erforderlich ist. Ein unüberwachtes Lernmodell kann beispielsweise erkennen, dass Online-Käufer häufig Gruppen von Produkten gleichzeitig kaufen. Ein Datenanalyst müsste jedoch validieren, ob es für eine Empfehlungsmaschine sinnvoll ist, Babykleidung mit einer Bestellung von Windeln, Apfelmus und Trinkbechern zu gruppieren.

Weitere wichtige Unterschiede

  • Ziele: Beim überwachten Lernen besteht das Ziel darin, Ergebnisse für neue Daten vorherzusagen. Sie wissen im Voraus, welche Art von Ergebnissen Sie erwarten können. Bei einem unüberwachten Lernalgorithmus besteht das Ziel darin, Erkenntnisse aus großen Mengen neuer Daten zu gewinnen. Das maschinelle Lernen selbst bestimmt, was anders oder interessant vom Datensatz ist.

  • Anwendungen: Modelle für überwachtes Lernen eignen sich unter anderem ideal für die Erkennung von Spam, die Stimmungsanalyse, die Wettervorhersage und die Preisvorhersage. Im Gegensatz dazu eignet sich unüberwachtes Lernen hervorragend für die Erkennung von Anomalien, Empfehlungsmaschinen, Kunden-Personas und medizinische Bildgebung.

  • Komplexität: Überwachtes Lernen ist eine einfache Methode für maschinelles Lernen, die normalerweise mithilfe von Programmen wie R oder Python berechnet wird. Beim unüberwachten Lernen benötigen Sie leistungsstarke Tools für die Arbeit mit großen Mengen nicht klassifizierter Daten. Unüberwachte Lernmodelle sind rechenkomplex, da sie einen großen Trainingssatz benötigen, um die beabsichtigten Ergebnisse zu erzielen.

  • Nachteile: Modelle für überwachtes Lernen können zeitaufwändig zu trainieren sein, und die Kennzeichnungen für Eingabe- und Ausgabevariablen erfordern Fachwissen. Unüberwachte Lernverfahren können hingegen zu äußerst ungenauen Ergebnissen führen, sofern nicht menschliches Eingreifen die Ausgabevariablen validiert.

Überwachtes versus unüberwachtes Lernen: Was ist für Sie am besten geeignet?

Die Wahl des richtigen Ansatzes für Ihre Situation hängt davon ab, wie Ihre Data Scientists die Struktur und das Volumen Ihrer Daten sowie den Anwendungsfall bewerten. Achten Sie bei Ihrer Entscheidungsfindung auf die folgenden Punkte:

  • Bewerten Sie Ihre Eingabedaten: Handelt es sich um gekennzeichnete oder nicht gekennzeichnete Daten? Haben Sie Experten, die Sie bei der zusätzlichen Kennzeichnung unterstützen können?

  • Definieren Sie Ihre Ziele: Haben Sie ein wiederkehrendes, klar definiertes Problem zu lösen? Oder muss der Algorithmus neue Probleme vorhersagen?

  • Prüfen Sie Ihre Optionen für Algorithmen: Gibt es Algorithmen mit der gleichen Dimensionalität, die Sie benötigen (Anzahl der Funktionen, Attribute oder Merkmale)? Können diese Ihr Datenvolumen und Ihre Struktur unterstützen?

Die Klassifizierung von Big Data kann beim überwachten Lernen eine echte Herausforderung sein, aber die Ergebnisse sind sehr genau und vertrauenswürdig. Im Gegensatz dazu kann unüberwachtes Lernen große Datenmengen in Echtzeit verarbeiten. Es fehlt jedoch an Transparenz darüber, wie Daten geclustert werden, und es besteht ein höheres Risiko ungenauer Ergebnisse. Hier kommt das semi-überwachte Lernen ins Spiel.

Semi-überwachtes Lernen: Das Beste aus beiden Welten

Sie können sich nicht entscheiden, ob Sie überwachtes oder unüberwachtes Lernen verwenden möchten? Semi-überwachtes Lernen ist ein guter Mittelweg, bei dem Sie einen Trainingsdatensatz mit gekennzeichneten und nicht gekennzeichneten Daten verwenden. Dies ist besonders nützlich, wenn es schwierig ist, relevante Funktionen aus Daten zu extrahieren – und wenn Sie über eine große Menge an Daten verfügen.

Halbüberwachtes Lernen ist ideal für medizinische Bilder, bei denen eine geringe Menge an Trainingsdaten zu einer deutlichen Verbesserung der Genauigkeit führen kann. So kann ein Radiologe beispielsweise eine kleine Untergruppe von CT-Scans mit Tumoren oder Krankheiten kennzeichnen, sodass das Gerät genauer vorhersagen kann, welche Patienten möglicherweise mehr medizinische Aufmerksamkeit benötigen.

Mehr erfahren über überwachtes und unüberwachtes Lernen

Modelle für maschinelles Lernen sind eine leistungsfähige Möglichkeit, Datenerkenntnisse zu gewinnen, die unsere Welt verbessern. Um mehr über die spezifischen Algorithmen zu erfahren, die beim überwachten und unüberwachten Lernen verwendet werden, empfehlen wir Ihnen die Lektüre der Learn Hub-Artikel zu diesen Techniken. Wir empfehlen Ihnen auch, sich den Blogbeitrag anzusehen, der einen Schritt weiter geht und einen detaillierten Überblick über Deep Learning und neuronale Netze bietet.

 

Weiterführende Lösungen
IBM watsonx.ai

Trainieren, validieren, optimieren und implementieren Sie generative KI, Foundation Models und maschinelle Lernfunktionen mit IBM watsonx.ai, einem Studio der nächsten Generation für AI Builder in Unternehmen. Erstellen Sie KI-Anwendungen mit einem Bruchteil der Zeit und Daten.

Entdecken sie watsonx.ai
Lösungen im Bereich künstlicher Intelligenz

Setzen Sie KI in Ihrem Unternehmen ein – mit branchenführendem Fachwissen im Bereich KI und dem Lösungsportfolio von IBM an Ihrer Seite.

Erkunden Sie KI-Lösungen
KI-Beratung und -Services

Erfinden Sie kritische Workflows und Abläufe neu, indem Sie KI einsetzen, um Erfahrungen, Entscheidungsfindung in Echtzeit und den geschäftlichen Nutzen zu maximieren.

KI-Services entdecken
Machen Sie den nächsten Schritt

Profitieren Sie von einem einheitlichen Zugriff auf Funktionen, die den gesamten Lebenszyklus der KI-Entwicklung abdecken. Erstellen Sie leistungsstarke KI-Lösungen mit benutzerfreundlichen Oberflächen, Workflows und Zugriff auf branchenübliche APIs und SDKs.

watsonx.ai erkunden Live-Demo buchen