Was ist Klassifizierung beim maschinellen Lernen?

Autoren

Ivan Belcic

Staff writer

Was ist Klassifizierung beim maschinellen Lernen?

Die Klassifizierung im maschinellen Lernen ist ein prädiktiver Modellierungsprozess, bei dem maschinelle Lernmodelle Klassifizierungsalgorithmen verwenden, um die richtige Bezeichnung für die Eingabe vorherzusagen. 

Wenn KI-Modelle lernen, Daten in ihren Trainings-Datensätzen zu analysieren und zu klassifizieren, werden sie immer kompetenter darin, verschiedene Datentypen zu identifizieren, Trends zu erkennen und genauere Vorhersagen zu treffen. 

Am Ende des Modelltrainingsprozesses wird die Leistung des Modells anhand von Testdaten bewertet. Nachdem das Modell eine konstant gute Leistung erbracht hat, wird es mit unbekannten Daten aus der realen Welt vertraut gemacht. Die trainierten Neural Networks wenden das an, was sie während des Trainings gelernt haben, um mit neuen Daten erfolgreiche Vorhersagen zu treffen. 

Die neuesten KI-Trends, präsentiert von Experten

Erhalten Sie kuratierte Einblicke in die wichtigsten – und faszinierendsten – KI-Neuheiten. Abonnieren Sie unseren wöchentlichen Think-Newsletter. Weitere Informationen in der IBM Datenschutzerklärung.

Vielen Dank! Sie haben ein Abonnement abgeschlossen.

Ihr Abonnement wird auf Englisch geliefert. In jedem Newsletter finden Sie einen Abmeldelink. Hier können Sie Ihre Abonnements verwalten oder sich abmelden. Weitere Informationen finden Sie in unserer IBM Datenschutzerklärung.

Was sind Klassifizierungsmodelle?

Ein Klassifizierungsmodell ist eine Art von maschinellem Lernmodell, das Datenpunkte in vordefinierte Gruppen, sogenannte Klassen, sortiert. Klassifikatoren lernen Klassenmerkmale aus Eingabedaten und lernen dann, neuen unbekannten Daten mögliche Klassen entsprechend diesen erlernten Merkmalen zuzuweisen.1

AI Academy

Nutzen Sie KI für Ihren Kundenservice

Erfahren Sie, wie der Einsatz von generativer KI mit einer nahtloseren Erfahrung die Kundenzufriedenheit erhöht und die Produktivität des Unternehmens in diesen drei Schlüsselbereichen steigert: Self-Service, Servicemitarbeiter und Abläufe im Contact Center.

Was sind Klassifizierungsalgorithmen?

Ein Klassifizierungsalgorithmus ist ein auf Kategorisierung ausgerichteter maschineller Lernalgorithmus, der Eingabedaten in verschiedene Klassen oder Kategorien sortiert. KI-Modelle verwenden Klassifizierungsalgorithmen, um Eingabedatensätze anhand eines bestimmten Klassifikators zu verarbeiten, der die Kriterien für die Sortierung der Daten festlegt. Klassifizierungsalgorithmen werden in Data Science häufig zur Vorhersage von Mustern und Ergebnissen eingesetzt. 

So funktionieren Klassifizierungsmodelle

Obwohl keine zwei Klassifizierungsalgorithmen für maschinelles Lernen genau gleich sind, folgen sie alle dem gleichen allgemeinen zweistufigen Prozess zur Datenklassifizierung: 

  1. Schulung
  2. Klassifikation 

Schritt 1: Lernen

Die Klassifizierung ist traditionell eine Art des überwachten maschinellen Lernens, was bedeutet, dass sie gekennzeichnete Daten zum Trainieren von Modellen verwendet. Beim überwachten Lernen enthält jeder Datenpunkt in den Trainingsdaten Eingabevariablen (auch als unabhängige Variablen oder Funktionen bezeichnet) und eine Ausgabe oder eine Kennzeichnung. 

Beim Klassifizierungstraining besteht die Aufgabe des Modells darin, die Beziehungen zwischen Funktionen und Klassenbezeichnungen zu verstehen und diese Kriterien dann auf zukünftige Datensätze anzuwenden. Klassifizierungsmodelle verwenden die Funktionen jedes Datenpunktes zusammen mit seiner Klassenbezeichnung, um zu entschlüsseln, welche Funktionen die einzelnen Klassen definieren. Mathematisch gesehen betrachtet das Modell jeden Datenpunkt als Tupel x. Ein Tupel ist eine geordnete numerische Folge, die als x = (x1,x2,x3…xn) dargestellt wird.

Jeder Wert im Tupel ist eine Funktion des Datenpunkts. Indem Trainingsdaten mit dieser Gleichung abgeglichen werden, lernt ein Modell, welche Funktionen mit den einzelnen Klassenkennzeichnungen verbunden sind. 

Der Zweck des Trainings besteht darin, Fehler bei der Vorhersagemodellierung zu minimieren. Gradientenabstiegs-Algorithmen trainieren Modelle, indem sie die Lücke zwischen vorhergesagten und tatsächlichen Ergebnissen minimieren. Modelle können später mit mehr Training fein abgestimmt werden, um spezifischere Aufgaben auszuführen. 

Unüberwachte Lernansätze für Klassifikationsprobleme sind ein Schwerpunkt der jüngsten Forschung. Unüberwachte Lernmethoden ermöglichen es Modellen, selbst Muster in nicht gekennzeichneten Daten zu erkennen. Das Fehlen von Kennzeichnungen ist das, was unüberwachtes Lernen und überwachtes Lernen unterscheidet. 

Beim halbüberwachten Lernen werden hingegen gekennzeichnete und nicht gekennzeichnete Daten kombiniert, um Modelle für Klassifizierungs- und Regressionszwecke zu trainieren. In Situationen, in denen die Beschaffung großer Datensätze gekennzeichneter Daten nicht möglich ist, ist halbüberwachtes Lernen eine praktikable Alternative. 

Schritt 2: Klassifizierung 

Der zweite Schritt bei den Klassifizierungsaufgaben ist die selbst erstellte Klassifizierung. In dieser Phase setzen Benutzer das Modell auf einem Testsatz mit neuen Daten ein. Bisher ungenutzte Daten werden verwendet, um die Modellleistung zu bewerten, um eine Überanpassung zu vermeiden: wenn sich ein Modell zu stark auf seine Trainingsdaten stützt und nicht mehr in der Lage ist, genaue Vorhersagen in der realen Welt zu treffen. 

Das Modell verwendet die erlernte vorhergesagte Funktion, um neue Daten entsprechend den Funktionen der einzelnen Stichproben in unterschiedlichen Klassen zu klassifizieren. Die Benutzer bewerten dann die Genauigkeit des Modells anhand der Anzahl der korrekt vorhergesagtenTestdaten.2

Welche Arten der Klassifizierung gibt es? 

Klassifikationsbasierte prädiktive Modellierungsaufgaben unterscheiden sich durch die Anzahl der Kategorien und den Grad der Exklusivität der Kategorien voneinander: 

  • Binäre Klassifizierung sortiert Daten in zwei exklusive Kategorien. 

  • Multiklassen-Klassifizierung sortiert Daten in mehr als zwei exklusive Kategorien. 

  • Multilabel-Klassifizierung sortiert Daten in nicht-exklusive Kategorien. 

  • Bei einer unausgewogenen Klassifizierung sind die Datenpunkte ungleichmäßig über die Kategorien verteilt. 

Binäre Klassifizierung

Bei binären Klassifikationsproblemen sagt ein Modell voraus, ob Daten in eine von zwei Klassen passen. Die Lerntechniken, die während des Trainings angewendet werden, ermöglichen es den Modellen, die Funktionen in den Trainingsdaten zu bewerten und vorherzusagen, welche von zwei möglichen Kennzeichnungen auf jeden Datenpunkt zutreffen: positiv oder negativ, wahr oder falsch und ja oder nein. 

Ein Spamfilter klassifiziert beispielsweise E-Mails als Spam oder als kein Spam. Neben der Spam-Erkennung liefern binäre Klassifizierungsmodelle zuverlässige Verhaltensprädiktoren: Wird ein potenzieller Kunde abwandern oder ein bestimmtes Produkt kaufen? Sie sind außerdem nützlich bei der Verarbeitung natürlicher Sprache (NLP), der Stimmungsanalyse, der Bildklassifizierung und der Betrugserkennung.

Multiklassen-Klassifizierung

Multiklassen-Klassifizierungsprobleme klassifizieren Daten mit mehr als zwei Klassenkennzeichnungen, die sich alle gegenseitig ausschließen. Auf diese Weise ähneln Herausforderungen mit mehreren Klassen binären Klassifizierungsaufgaben, nur dass es mehr Klassen gibt. 

Klassifizierungsmodelle mit mehreren Klassen haben viele reale Anwendungsfälle. Neben der Feststellung, ob es sich bei E-Mails um Spam handelt oder nicht, könnte eine Klassifizierungslösung mit mehreren Klassen auch bestimmen, ob es sich bei den E-Mails um Werbemails oder um E-Mails mit hoher Priorität handelt. Ein Bildklassifikator könnte beispielsweise Bilder von Tieren mithilfe einer Vielzahl von Klassenkennzeichnungen wie Hund, Katze, Lama, Schnabeltier und mehr klassifizieren. 

Das Ziel eines Lernverfahrens zur Multiklassen-Klassifizierung ist es, einem Modell beizubringen, Eingabedaten präzise einer größeren Bandbreite möglicher Kategorien zuzuordnen. Eine häufig verwendete Zielfunktion beim Training mit mehreren Klassen ist der kategorische Kreuzentropieverlust, der die Diskrepanz zwischen den Vorhersagen des Modells anhand der Testdaten und den korrekten Kennzeichnungen für jeden Datenpunkt bewertet.

Multikennzeichnung-Klassifizierung

Die Multilabel-Klassifizierung wird in Situationen verwendet, in denen jedem Datenpunkt mehrere nicht exklusive Kennzeichnungen zugewiesen werden können. Im Gegensatz zu exklusivitätsbasierten Klassifizierungstypen lässt die Multikennzeichnung-Klassifizierung die Möglichkeit zu, dass Datenpunkte Merkmale von mehr als einer Kategorie aufweisen – was die reale Mehrdeutigkeit bei Big Data-Sammlungen besser widerspiegelt. 

Multikennzeichnung-Klassifizierungsaufgaben werden häufig durch die Kombination der Vorhersagen mehrerer binärer oder Multiklassen-Klassifizierungsmodelle gelöst.

Unausgewogene Klassifizierung

Eine unausgewogene Klassifizierung, bei der einige Kategorien mehr Datenpunkte als andere enthalten, erfordert einen speziellen Ansatz. Wenn bestimmte Gruppen mehr Datenpunkte sammeln, werden manche Klassifizierungsmodelle zu Gunsten dieser Gruppen voreingenommen und sagen zunehmend Vorhersagen zu deren Gunsten voraus. 

Zu den Gegenmaßnahmen gehören Algorithmen, die so konfiguriert sind, dass sie die Kosten falscher Vorhersagen stärker gewichten, oder Stichprobenverfahren, die entweder Mehrheitsstichproben ausschließen oder unterrepräsentierte Gruppen überrepräsentieren. 

Diskrete und kontinuierliche Vorhersagen

Prädiktive Modelle geben zwei Arten von Vorhersagen aus: 

  • Diskrete Vorhersagen sortieren Daten definitiv in verschiedene Kategorien. 

  • Kontinuierliche Vorhersagen weisen eine Klasse auf der Grundlage einer Wahrscheinlichkeit zu. 

Diskrete Vorhersagen

Diskrete Vorhersagen sind die vorhergesagten Klassenbezeichnungen für jeden Datenpunkt. Zum Beispiel kann ein Gesundheits-Prädiktor Patienten auf der Grundlage von Gesundheitsdaten als Diabetiker oder Nicht-Diabetiker klassifizieren. Die Klassen Diabetiker und Nicht-Diabetiker sind die diskreten kategorialen Vorhersagen.

Kontinuierliche Vorhersagen

Kontinuierliche Klassifikatoren weisen Klassenvorhersagen als kontinuierliche Wahrscheinlichkeiten zu, sogenannte Konfidenzwerte. Diese Wahrscheinlichkeiten sind Werte zwischen 0 und 1 und stellen Prozentsätze dar. Das Diabetes-Prädiktormodell könnte einen Patienten mit einer Wahrscheinlichkeit von 0,82 als Diabetiker klassifizieren. Das Modell geht davon aus, dass der Patient eine 82%ige Wahrscheinlichkeit hat, an Diabetes zu erkranken. 

Forscher bewerten Modelle in der Regel mit diskreten Vorhersagen und kontinuierlichen Vorhersagen als Schwellenwerten. Ein Klassifikator ignoriert jede Vorhersage unter einem bestimmten Schwellenwert. Wenn unser Diabetes-Prädiktor einen Schwellenwert von 0,4 (40 %) hat und einen Patienten mit einer Wahrscheinlichkeit von 0,35 (35 %) als Diabetiker einstuft, ignoriert das Modell diese Kennzeichnung und weist den Patienten nicht der Diabetikerklasse zu.3

Klassifizierung versus Regression

Der Unterschied zwischen Klassifizierung und Regression besteht darin, dass die Klassifizierung die Kategorien eines Datenpunkts vorhersagt und die Regression einen zugehörigen reellen numerischen Wert vorhersagt. Sowohl Klassifizierung als auch Regression sind Arten der prädiktiven Modellierung, die jedoch unterschiedliche Anwendungsfälle haben. 

Klassifikationsmodelle sortieren Datenpunkte in Kategorien. Klassifizierung ist der Prozess, bei dem ein Deep-Learning-Modell trainiert wird, um die Funktion zu finden, die Datenpunkte kategorisiert. 

Regressionsmodelle berücksichtigen verschiedene Datenpunkte, um einen kontinuierlichen numerischen Wert für eine andere Variable vorherzusagen. Zum Beispiel könnte ein Regressionsmodell am Arbeitsplatz das Gehalt eines Arbeitnehmers auf der Grundlage von Alter, Erfahrung, Standort und Bildung vorhersagen. 

In der Praxis sind beide oft eng miteinander verknüpft. Der logistische Regressionsalgorithmus verwendet beispielsweise die Regression, um Klassifizierungsaufgaben zu erfüllen.

Arten von Klassifizierungsalgorithmen

Es gibt viele verschiedene Arten von Klassifizierungsalgorithmen. Obwohl sie sich überschneidende Anwendungsfälle haben, eignen sich einige für bestimmte Anwendungen besser als andere. Zu den beliebtesten Klassifizierungsalgorithmen gehören: 

  • Logistische Regression

  • Entscheidungsbaum 

  • Random Forest

  • Support Vector Machine (SVM) 

  • K-Nearest-Neighbors 

  • Naive Bayes

Viele dieser Algorithmen können mithilfe von scikit-learn-Bibliotheken leicht in Python implementiert werden. Inzwischen sind Ensemble-Methoden und Transformer-Modelle neuere Entwicklungen, die auf Klassifikationsprobleme angewendet werden.

Logistische Regression

Logistische Regressionsalgorithmen werden häufig zur Durchführung von Klassifizierungsaufgaben verwendet. Logistische Regression ist ein Wahrscheinlichkeitsklassifikator, der aus linearen Regressions-Modellen abgeleitet wird. Die lineare Regression verwendet eine oder mehrere unabhängige Variablen, um den Wert einer unabhängigen Variable vorherzusagen. Dieser Wert kann eine beliebige kontinuierliche rationale Zahl sein. 

Die logistische Regression ist eine Modifikation der linearen Regression, bei der der Ausgabewert (oder die unabhängige Variable) auf einen beliebigen Wert zwischen 0 und 1 begrenzt wird. Dies geschieht durch eine Logit-Transformation – oder eine Log-Odds – auf die Standardformel der linearen Regression. 4

Logit-Gleichung für die logistische Regression

Logistische Regressionsmodelle werden zur binären Klassifizierung bei multivariaten Regressionsproblemen verwendet: Gehört der Datenpunkt bei Berücksichtigung mehrerer Variablen zu einer Kategorie oder der anderen Kategorie? Häufige Anwendungen sind Betrugserkennung und biomedizinische Vorhersagen. Zum Beispiel wurde eine logistische Regression eingeführt, um die Patientensterblichkeit aufgrund eines Traumas und einer koronaren Herzkrankheit vorherzusagen.5

Entscheidungsbaum

Entscheidungsbäume, die sowohl für die Klassifizierung als auch für die Regression verwendet werden, teilen Datensätze in immer kleineren Gruppen in einer Reihe von binären Klassifizierungsurteilen auf. Die daraus resultierende Struktur ähnelt einem Baum, der sich von einer ersten Beurteilung nach außen in nachfolgende Blätter oder Knoten verzweigt. 

Ein Diagramm eines Entscheidungsbaum-Algorithmus

Die flussdiagrammähnliche Natur von Entscheidungsbäumen macht sie zu einem der intuitiveren Modelle, die für Geschäftsanwender verständlich sind. Entscheidungsbäume sind leicht zu visualisieren und bringen Transparenz in den Klassifizierungsprozess, indem sie die Entscheidungsprozesse und Kriterien zur Kategorisierung von Daten klar darstellen. 

Random Forest

Der Random Forest ist eine Ensemble-Technik, bei der die Ausgabe mehrerer Entscheidungsbäume zu einem einzigen Ergebnis kombiniert wird. Der resultierende „Wald“ verbessert die Vorhersagegenauigkeit gegenüber der eines einzelnen Baums und wirkt gleichzeitig einer Überanpassung entgegen. Wie Entscheidungsbäume können Random Forests sowohl Klassifizierungs- als auch Regressionsaufgaben bewältigen. 

Ein Diagramm eines Random-Forest-Algorithmus

Random-Forest-Algorithmen erstellen mehrere Entscheidungsbäume für jede Aufgabe, aggregieren die Vorhersage aller Bäume und wählen dann die beliebteste Antwort als definitives Ergebnis aus. Jeder Baum berücksichtigt eine zufällige Teilmenge von Datenfunktionen, um eine geringe Korrelation zwischen den Bäumen sicherzustellen. 

Support Vector Machine (SVM)

Support Vector Machine-Algorithmen (SVM) zeichnen Datenpunkte in einen mehrdimensionalen Raum, wobei die Anzahl der Dimensionen der Anzahl der Funktionen in den Daten entspricht. Das Ziel des Algorithmus ist es, die optimale Linie zu finden – auch bekannt als Hyperebene oder Entscheidungsgrenze –, die Datenpunkte am besten in Kategorien unterteilt. 

Die optimale Hyperebene ist die mit dem breitesten Rand, der dem Abstand zwischen der Hyperebene und den nächstgelegenen Datenpunkten in jeder Klasse entspricht. Diese nahegelegenen Datenpunkte werden als Unterstützungsvektoren bezeichnet. Modelle, die Daten mit einer Hyperebene trennen, sind lineare Modelle, aber SVM-Algorithmen können auch nichtlineare Klassifizierungsaufgaben mit komplexeren Datensätzen bewältigen. 

Logistische Regression, Entscheidungsbäume, Random Forests und SVM-Algorithmen sind alles Beispiele für eifrige Lernende: Algorithmen, die Modelle aus Trainingsdaten erstellen und diese Modelle dann auf zukünftige Vorhersagen anwenden. Das Training dauert länger, aber nachdem der Algorithmus ein gutes Modell erstellt hat, sind die Vorhersagen schneller. 

K-Nearest-Neighbors (KNNs)

K-Nearest-Neighbors-Algorithmen (KNN) ordnen Datenpunkte einem multidimensionalen Raum zu. Anschließend gruppieren sie diese Datenpunkte mit ähnlichen Funktionswerten in separate Gruppen oder Klassen. Um neue Datenpunkte zu klassifizieren, betrachtet der Klassifikator die k nächstgelegenen Punkte, zählt die Mitglieder jeder Klasse in der benachbarten Teilmenge und gibt diesen Anteil als Klassenschätzung für den neuen Datenpunkt zurück. 

Mit anderen Worten: Das Modell weist einen neuen Datenpunkt jener Klasse zu, welche die Mehrheit der Nachbarn dieses Punktes umfasst. KNN-Modelle sind langsame Lernende: Algorithmen, die nicht sofort ein Modell aus Trainingsdaten erstellen, sondern sich stattdessen auf Trainingsdaten beziehen und neue Daten damit vergleichen. In der Regel brauchen diese Modelle länger, um Vorhersagen zu treffen, als eifrige Lernende. 

KNN-Modelle vergleichen in der Regel die Entfernung zwischen Datenpunkten mit der euklidischen Distanz:6

Euklidische Distanzgleichung

Ungefährer nächster Neighbor (ANN) ist eine Variante von KNN. In hochdimensionalen Datenräumen ist es rechenintensiv, die exakten Nachbarn eines Datenpunkts zu finden. Dimensionalitätsreduktion und ANN sind zwei Lösungen für dieses Problem. 

Anstatt den genau nächsten Nachbarn eines Datenpunkts zu finden, findet ANN einen ungefähren nächsten Nachbarn innerhalb einer bestimmten Entfernung. Jüngste Untersuchungen haben vielversprechende Ergebnisse für ANN im Zusammenhang mit der Multikennzeichnung-Klassifizierung gezeigt.7

Naive Bayes

Auf der Grundlage des Bayes-Theorems berechnen Naive-Bayes-Klassifikatoren die A-posteriori-Wahrscheinlichkeit für Klassenvorhersagen. Naive Bayes aktualisiert die anfänglichen Klassenvorhersagen oder vorherigen Wahrscheinlichkeiten mit jedem neuen Datenelement. 

Bei einem Diabetes-Prädiktor sind die medizinischen Daten des Patienten – Blutdruck, Alter, Blutzuckerspiegel und mehr – die unabhängigen Variablen. Ein Bayes'scher Klassifikator kombiniert die aktuelle Prävalenz von Diabetes in einer Population (vorherige Wahrscheinlichkeit) mit der bedingten Wahrscheinlichkeit, dass die medizinischen Datenwerte des Patienten bei jemandem mit Diabetes auftreten. 

Naive Bayes-Klassifikatoren folgen der Gleichung der Bayes-Regel:11

Gleichung der Bayes-Regel

Naive Bayes ist als generativer Klassifikator bekannt. Anhand der Variablenwerte einer Beobachtung berechnet der Bayes'sche Klassifikator, welche Klasse die Beobachtung am wahrscheinlichsten generiert hat. 

Forscher der Verarbeitung natürlicher Sprache (NLP) haben Naive Bayes in großem Umfang für Textklassifizierungsaufgaben wie die Stimmungsanalyse eingesetzt. Unter Verwendung eines Bag-of-Words-Modells, in dem jedes Wort eine Variable darstellt, sagt der Naive Bayes-Klassifikator voraus, ob eine positive oder negative Klasse den fraglichen Text erzeugt hat.9

Ensemble-Methoden

Ensemble-Methoden und Techniken des maschinellen Lernens kombinieren mehrere kleinere Modelle zu einem einzigen Klassifikator, um bessere Ergebnisse zu erzielen. Deep-Ensemble-Methoden bringen mehrere Deep-Learning-Modelle zusammen, um noch leistungsfähigere Ensemble-Klassifikatoren zu erstellen. Ensembles mit Deep-Learnern können komplexe Multikennzeichnungs-Klassifizierungsaufgaben bewältigen. 

Gradient Boosting ist eine Ensemble-Methode, die nachweislich die Vorhersagegenauigkeit erhöht. Es handelt sich um eine Art des Boostings, eine Ensemble-Technik, bei der mehrere schwache Lernende nacheinander voneinander lernen, um die Ergebnisse mit jeder Iteration zu verbessern.

Transformermodelle in der Klassifizierung

Transformer-Modelle werden typischerweise für NLP-Aufgaben verwendet, wurden aber auch auf Klassifizierungsprobleme angewendet. Transformer-Modelle wie GPT und Claude verwenden Mechanismen der Selbstbeobachtung, um sich auf die relevantesten Teile einer Eingabe zu konzentrieren. Die Positionskodierung dient dazu, dem Modell mitzuteilen, wo sich jeder Datenpunkt in einer Sequenz befindet. 

Klassifizierung-Lernevaluationsmethoden

Forscher und Entwickler wählen je nach der spezifischen Klassifizierungsaufgabe bestimmte Metriken für Klassifizierungsmodelle aus. Alle messen die Genauigkeit, mit der Lernende oder Klassifikatoren Modellklassen genau vorhersagen. 

Einige der beliebtesten Bewertungsmetriken sind: 

  • Genauigkeit 
  • Präzision 
  • Recall 
  • F1-Score
  • Konfusionsmatrix
  • ROC-Kurve

Richtig positiv (True Positives, TP) sind die Datenproben, die das Modell in ihrer jeweiligen Klasse korrekt vorhersagt. Falsch positiv (False Positives, FP) sind Instanzen der negativen Klasse, die fälschlicherweise als positive Fälle identifiziert wurden. Falsch negativ (False Negatives, FN) sind tatsächliche positive Instanzen, die fälschlicherweise als negativ vorhergesagt werden. Richtig positiv (True Negatives, TN) sind die tatsächlichen negativen Klasseninstanzen, die das Modell präzise als negativ klassifiziert.

Genauigkeit

Genauigkeit ist das Verhältnis von richtig positiven Ergebnissen zu allen Vorhersagen im Datensatz. Sie misst, wie oft ein maschinelles Lernmodell ein Ergebnis korrekt vorhersagt – in diesem Fall die richtige Klasse für einen Datenpunkt. 

Die Genauigkeit gibt einen allgemeinen Überblick über die Leistung eines Modells, sagt aber nicht aus, ob ein Modell bestimmte Klassen besser vorhersagen kann als andere. In Fällen, in denen die Datensätze stark unausgewogen sind, kann die Fokussierung auf die Genauigkeit dazu führen, dass ein Modell alle kleineren Datensätze ignoriert und alle Ergebnisse als Mehrheitsklasse vorhersagt. In dieser Situation wird die Gesamtgenauigkeit dennoch hoch sein. 

Ein Spam-Filter hätte eine hohe Genauigkeit, wenn die meisten seiner Vermutungen richtig sind, selbst wenn er die meisten der eigentlichen Spam-E-Mails übersieht. 

Präzision

Die Präzision oder der positive Vorhersagewert (PPV) ist der Anteil der positiven Klassenvorhersagen, die zur angegebenen Klasse gehören. Die Präzision gibt Aufschluss darüber, ob ein Modell die Zielklasse korrekt vorhersagt. Das macht es nützlich für unausgewogene Klassifizierungsaufgaben oder wenn die Kosten für falsch positive Ergebnisse hoch sind. 

In einem Spamfilter zeigt die Genauigkeit an, wie viele der erkannten Spam-E-Mails Spam sind. Modelle, die Daten fälschlicherweise als falsch positive Ergebnisse klassifizieren, weisen eine geringe Genauigkeit auf, während Modelle mit weniger falsch positiven Ergebnissen eine hohe Genauigkeit aufweisen.10

Präzisionsformel

Rückruf

Die Richtig-positiv-Rate (True positive rate, TPR), auch bezeichnet als Sensitivität oder Recall, umfasst den Prozentsatz der von einem Modell erkannten Klasseninstanzen. Der Recall zeigt an, wie oft ein Modell Mitglieder der Zielklasse im Datensatz erkennt. Bei einem Spamfilter zeigt der Recall die Anzahl der tatsächlichen Spam-E-Mails an, die das Modell als Spam identifiziert.11

F1-Score

Präzision und Recall teilen eine umgekehrte Beziehung. Wenn ein Klassifizierer mehr richtig positive Ergebnisse zurückgibt, die einen erhöhten Recall anzeigen, kann er Nichtinstanzen falsch klassifizieren, falsch positive Ergebnisse generieren und die Genauigkeit verringern. Die F1-Bewertung löst diesen Kompromiss auf, indem sie Genauigkeit und Recall kombiniert, um die gesamte klassenbezogene Genauigkeit eines Modells darzustellen.12

F-Score-Formel

Datenvisualisierung und Modellauswertung

Datenvisualisierungstools helfen dabei, Ergebnisse der Datenanalyse zu veranschaulichen. Data Scientists und Forscher im Bereich maschinelles Lernen verwenden zwei primäre Tools zur Visualisierung der Leistung: 

  • Die Konfusionsmatrix, eine Tabelle mit den vorhergesagten und den tatsächlichen Werten. 

  • Die ROC-Kurve, ein Diagramm, welches das Verhältnis von richtig Positiven zu richtig Negativen darstellt.

Konfusionsmatrix

Bei der Konfusionsmatrix handelt es sich um eine Tabelle, die sowohl die vorhergesagten als auch die tatsächlichen Werte einer Klasse darstellt. Die Kästchen der Matrix zeigen die Anzahl der richtig positiven Ergebnisse, falsch positiven Ergebnisse, falsch negativen Ergebnisse und richtig negativen Ergebnisse. Die Summe dieser Werte ist die Gesamtzahl der Vorhersagen des Modells.13

Beispiel einer binären Konfusionsmatrix

ROC-Kurve

Eine ROC-Kurve (Receiver Operating Characteristic) visualisiert das Verhältnis von richtig Positiven zu richtig Negativen. Das Diagramm stellt die Richtig-positiv-Rate gegenüber der Richtig-negative-Rate für jeden Schwellenwert dar, der bei der Modellklassifizierung verwendet wird. Die Statistik über die Fläche unter der Kurve (AUC) ergibt sich aus der ROC-Kurve. 

AUC misst, wie wahrscheinlich es ist, dass ein zufällig ausgewähltes positives Ergebnis einen höheren Konfidenzwert aufweist als ein zufälliges negatives. AUC-Werte liegen zwischen 0 und 1. Eine Punktzahl von 0 bedeutet, dass das Modell alle negativen Ergebnisse mit höheren Wahrscheinlichkeiten als positive bewertet, während 1 bedeutet, dass das Modell alle positiven Ergebnisse mit höherer Wahrscheinlichkeit bewertet.14

Weiterführende Lösungen
IBM watsonx.ai

Trainieren, validieren, optimieren und implementieren Sie generative KI, Foundation Models und maschinelle Lernfunktionen mit IBM watsonx.ai, einem Studio der nächsten Generation für AI Builder in Unternehmen. Erstellen Sie KI-Anwendungen mit einem Bruchteil der Zeit und Daten.

Entdecken sie watsonx.ai
Lösungen im Bereich künstlicher Intelligenz

Setzen Sie KI in Ihrem Unternehmen ein – mit branchenführendem Fachwissen im Bereich KI und dem Lösungsportfolio von IBM an Ihrer Seite.

Erkunden Sie KI-Lösungen
KI-Beratung und -Services

Erfinden Sie kritische Workflows und Abläufe neu, indem Sie KI einsetzen, um Erfahrungen, Entscheidungsfindung in Echtzeit und den geschäftlichen Nutzen zu maximieren.

KI-Services entdecken
Machen Sie den nächsten Schritt

Profitieren Sie von einem einheitlichen Zugriff auf Funktionen, die den gesamten Lebenszyklus der KI-Entwicklung abdecken. Erstellen Sie leistungsstarke KI-Lösungen mit benutzerfreundlichen Oberflächen, Workflows und Zugriff auf branchenübliche APIs und SDKs.

watsonx.ai erkunden Live-Demo buchen
Fußnoten

1 Chris Drummond, „Classification“, Encyclopedia of Machine Learning and Data Mining, Springer, 2017.

2. Jaiwei Han, Micheline Kamber, and Jian Pei, Data Mining: Concepts and Techniques, 3. Ausgabe, Morgan Kaufman, 2012.

3. Max Kuhn and Kjell Johnson, Applied Predictive Modeling, Springer, 2016.

4. Max Kuhn and Kjell Johnson, Applied Predictive Modeling, Springer, 2016. Gareth James, Daniela Witten, Trevor Hastie, Robert Tibshirani und Jonathan Taylor, An Introduction to Statistical Learning with Applications in Python, Springer, 2023.

5. Lisa X. Deng, Abigail May Khan, David Drajpuch, Stephanie Fuller, Jonathan Ludmir, Christopher E. Mascio, Sara L. Partington, Ayesha Qadeer, Lynda Tobin, Adrienne H. Kovacs und Yuli Y. Kim, „Prevalence and Correlates of Post-traumatic Stress Disorder in Adults With Congenital Heart Disease“, The American Journal of Cardiology, Band 117, Nr. 5, 2016, S. 853-857, https://www.sciencedirect.com/science/article/abs/pii/S0002914915023590

6. Max Kuhn und Kjell Johnson, Applied Predictive Modeling, Springer, 2016. Kevin Murphy, Machine Learning: A Probabilistic Perspective, MIT Press, 2012.

7. Ville Hyvönen, Elias Jääsaari, Teemu Roos, „A Multilabel Classification Framework for Approximate Nearest Neighbor Search,“ Journal of Machine Learning Research, Ausgabe 25, Nr. 46, 2024, S. 1−51, https://www.jmlr.org/papers/v25/23-0286.html .  

8. Max Kuhn und Kjell Johnson, Applied Predictive Modeling, Springer, 2016. William Bolstad and James Curran, Introduction to Bayesian Statistics, 3. Auflage, Wiley, 2016.

9. Daniel Jurafsky und James Martin, Speech and Language Processing: An Introduction to Natural Language Processing, Computational Linguistics, and Speech Recognition, 3. Auflage, 2023.

10. Ethan Zhang und Yi Zhang, „Precision“, Encyclopedia of Database Systems, Springer, 2018.

11. Ethan Zhang and Yi Zhang, „Recall,“ Encyclopedia of Database Systems, Springer, 2018.

12. Ben Carterette, „Precision and Recall,“ Encyclopedia of Database Systems, Springer, 2018.

13. Kai Ming Ting, „Confusion matrix,“ Encyclopedia of Machine Learning and Data Mining, Springer, 2017.

14. Peter Flach, „ROC Analysis,“ Encyclopedia of Machine Learning and Data Mining, Springer, 2017.