Was sind Klassifikationsmodelle?

Büroangestellte, die abends in einem großen Bürogebäude arbeiten

Autoren

Jacob Murel Ph.D.

Senior Technical Content Creator

Eda Kavlakoglu

Business Development + Partnerships

IBM Research

Klassifizierungsmodelle sind eine Art der prädiktiven Modellierung, bei der Daten anhand von Merkmalswerten in vordefinierte Klassen eingeteilt werden.

Klassifikationsmodelle sind eine Art maschinelles Lernmodell, das Datenpunkte in vordefinierte Gruppen unterteilt, die als Klassen bezeichnet werden. Klassifikatoren sind eine Art prädiktiver Modellierung, die Klassenmerkmale aus Eingabedaten übernimmt und lernt, neuen Daten anhand dieser erlernten Merkmale mögliche Klassen zuzuweisen.1 Klassifizierungsalgorithmen werden in der Data Science häufig zur Prognose von Mustern und zur Vorhersage von Ergebnissen verwendet. In der Tat haben sie eine Reihe von realen Anwendungsfällen, wie z. B. die Klassifizierung von Patienten nach potenziellen Gesundheitsrisiken und die Spamfilterung von E-Mails

.

Klassifizierungsaufgaben können binär oder mehrklassig sein. Bei binären Klassifizierungsproblemen trifft ein Modell eine Vorhersage zwischen zwei Klassen. Zum Beispiel klassifiziert ein Spamfilter E-Mails als Spam oder nicht Spam. Mehrklassige Klassifizierungsprobleme klassifizieren Daten in mehr als zwei Klassenbezeichnungen. Ein Bildklassifikator könnte beispielsweise Bilder von Tieren mithilfe einer Vielzahl von Klassenbezeichnungen als Hund, Katze, Lama, Schnabeltier und mehr klassifizieren.

In einigen Quellen, insbesondere im Internet, wird die Klassifizierung als eine Form des überwachten maschinellen Lernens bezeichnet. Aber Klassifikatoren fallen nicht ausschließlich in den Bereich des überwachten Lernens. Ansätze des unbeaufsichtigten Lernens zur Behandlung von Klassifizierungsproblemen gelten als Schwerpunkt der jüngsten Forschung

.
3D-Design aus Kugeln, die auf einer Schiene rollen

Die neuesten Erkenntnisse und Insights zu KI

Entdecken Sie von Experten kuratierte Erkenntnisse und Neuigkeiten zu KI, Cloud und mehr im wöchentlichen Newsletter Think. 

So funktionieren Klassifikationsmodelle

Natürlich unterscheidet sich jeder Algorithmus für maschinelles Lernen in seinen internen Abläufen. Dennoch folgen alle einem allgemeinen zweistufigen Datenklassifizierungsprozess:

Lernen. Beim überwachten Lernen weist ein menschlicher Kommentator jedem Datenpunkt im Trainingsdatensatz eine Bezeichnung zu. Diese Punkte sind als eine Anzahl von Eingabevariablen (oder unabhängigen Variablen) definiert, bei denen es sich um Zahlen, Textzeichenfolgen, Bildmerkmale usw. handeln kann. Mathematisch betrachtet das Modell jeden Datenpunkt als ein Tupel X. Ein Tupel ist lediglich eine geordnete numerische Folge, dargestellt als x = (x1, x2, x3... xn). Jeder Wert im Tupel ist ein bestimmtes Merkmal des Datenpunkts. Das Modell verwendet die Merkmale jedes Datenpunkts zusammen mit seiner Klassenbezeichnung, um zu dekodieren, welche Merkmale jede Klasse definieren. Indem es Trainingsdaten anhand dieser Gleichung abbildet, lernt ein Modell die allgemeinen Merkmale (oder Variablen), die mit jeder Klassenbezeichnung verknüpft sind.

Klassifizierung. Der zweite Schritt bei Klassifizierungsaufgaben ist die Klassifizierung selbst. In dieser Phase stellen Benutzer das Modell für einen Testsatz nicht sichtbarer Daten bereit. Bisher ungenutzte Daten eignen sich ideal für die Bewertung der Modellklassifizierung, um eine Überanpassung zu vermeiden. Das Modell verwendet seine erlernte vorhergesagte Funktion y=f(x), um die unsichtbaren Daten entsprechend den Merkmalen jeder Stichprobe in verschiedenen Klassen zu klassifizieren. Die Benutzer bewerten dann die Modellgenauigkeit anhand der Anzahl korrekt vorhergesagter Testdatenstichproben.2

Vorhersagen

Klassifizierungsmodelle geben zwei Arten von Vorhersagen aus: diskrete und kontinuierliche.

Diskret. Diskrete Vorhersagen sind die vorhergesagten Klassenbezeichnungen für jeden Datenpunkt. Zum Beispiel können wir einen Prädiktor verwenden, um Patienten auf der Grundlage von Gesundheitsdaten als Diabetiker oder Nichtdiabetiker zu klassifizieren. Die Klassen Diabetiker und Nichtdiabetiker sind die diskreten kategorialen Vorhersagen.

Kontinuierlich. Klassifikatoren weisen Klassenvorhersagen als kontinuierliche Wahrscheinlichkeiten zu, sogenannte Konfidenzwerte. Diese Wahrscheinlichkeiten sind Werte zwischen 0 und 1 und stellen Prozentsätze dar. Unser Modell könnte einen Patienten als Diabetiker klassifizieren, mit einem Wert von 0,82 Wahrscheinlichkeit. Dies bedeutet, dass das Modell davon ausgeht, dass der Patient mit einer Wahrscheinlichkeit von 82 % Diabetiker ist und mit einer Wahrscheinlichkeit von 18 % nicht an Diabetes leidet.

Forscher bewerten Modelle in der Regel mit diskreten Vorhersagen und kontinuierlichen Vorhersagen als Schwellenwerten. Ein Klassifikator ignoriert jede Vorhersage unter einem bestimmten Schwellenwert. Wenn zum Beispiel unser Diabetes-Prädiktor einen Schwellenwert von 0,4 hat (40 %) und einen Patienten mit einer Wahrscheinlichkeit von 0,35 als Diabetiker einstuft (35 %), dann ignoriert das Modell diese Kennzeichnung und ordnet den Patienten nicht der Diabetikerklasse zu.3

Mixture of Experts | 12. Dezember, Folge 85

KI entschlüsseln: Wöchentlicher Nachrichtenüberblick

Schließen Sie sich unserer erstklassigen Expertenrunde aus Ingenieuren, Forschern, Produktführern und anderen an, die sich durch das KI-Rauschen kämpfen, um Ihnen die neuesten KI-Nachrichten und Erkenntnisse zu liefern.

Bewertungsmetriken

Forscher und Entwickler verwenden eine breite Palette von Bewertungsmaßstäben für Klassifizierungsmodelle. Dabei hängt die gewählte Bewertungsmetrik von der jeweiligen Klassifizierungsaufgabe ab. Sie alle messen die Genauigkeit, mit der ein Lerner (d. h. ein Klassifikator) die Modellklassen korrekt vorhersagt.

Klassifizierungsmetriken verwenden eine gemeinsame Terminologie. Richtig positive Fälle (True Positives, TP) sind die Datenbeispiele, die das Modell korrekt in ihrer jeweiligen Klasse vorhersagt. Falsch positive Fälle (False Positives, FP) sind die Instanzen der negativen Klasse, die fälschlicherweise als positive Fälle identifiziert wurden. Falsch negative Fälle (False Negatives, FN) sind tatsächlich positive Fälle, die fälschlicherweise als negativ vorhergesagt wurden. Richtige negative Fälle (True Negative, TN) sind die tatsächlichen negativen Fälle, die das Modell korrekt als negativ klassifiziert.

Präzision. Dies wird als positiver Vorhersagewert (Positive Predicted Value, PPV) bezeichnet. Es ist der Anteil positiver Klassenvorhersagen, die tatsächlich zu der betreffenden Klasse gehören. In einem Spamfilter ist die Genauigkeit beispielsweise der Anteil der Nachrichten, die das Modell als Spam klassifiziert, bei denen es sich tatsächlich um Spam handelt. Es wird durch die folgende Gleichung dargestellt:4

Präzisionsformel

Recall. Der Recall, auch Sensitivität oder True Positive Rate (TPR) genannt, bezeichnet den Prozentsatz der Klasseninstanzen, die von einem Modell erkannt wurden. Zurück zum Spam-Filter: Der Recall gibt an, wie viele Spam-Nachrichten das Modell tatsächlich als Spam einstuft. Er wird durch die folgende Gleichung dargestellt:5

Rückrufformel

F1-Score. Präzision und Abruf können eine umgekehrte Beziehung teilen. Da ein Klassifikator mehr richtig positive Ergebnisse (erhöhter Recall) zurückgibt, klassifiziert der Klassifikator unweigerlich auch Nicht-Instanzen (d. h. falsch positive Ergebnisse), wodurch die Genauigkeit verringert wird. Der F1-Score zielt darauf ab, diesen Zielkonflikt aufzulösen. F1 (oder F-Score) kombiniert effektiv Präzision und Abruf, um die gesamte klassenweise Genauigkeit eines Modells darzustellen. Dies wird durch die folgende Gleichung dargestellt:6

F-Score-Formel

Datenvisualisierung

Tools zur Datenvisualisierung helfen dabei, Ergebnisse der Datenanalyse zu veranschaulichen. Data Scientists und Forscher im Bereich maschinelles Lernen verwenden zwei primäre Tools zur Visualisierung der Leistung:

Konfusionsmatrix. Die Konfusionsmatrix ist eine Tabelle, deren Spalten die vorhergesagten Werte einer bestimmten Klasse darstellen, während die Zeilen die tatsächlichen Werte repräsentieren, oder umgekehrt. Das Kästchen oben links steht für die Anzahl der richtigen positiven Werte, das Kästchen darunter für die falschen positiven Werte, das Kästchen oben rechts für die Anzahl der falschen negativen Werte und das Kästchen unten rechts für die Anzahl der richtigen negativen Werte. Die Summe all dieser Werte ergibt die Gesamtzahl der Vorhersagen des Modells.7 Eine Konfusionsmatrix für einen binären Klassifikator kann wie folgt aussehen:

Beispiel einer binären Konfusionsmatrix

ROC-Kurve. Eine ROC-Kurve (Receiver Operating Characteristic) veranschaulicht das Verhältnis von richtig Positiven zu richtig Negativen. Das Diagramm stellt die Rate der richtig Positiven gegen die Rate der richtig Negativen für jeden bei der Modellklassifizierung verwendeten Schwellenwert dar. Die Statistik der Fläche unter der Kurve (Area under Curve, AUC) ergibt sich aus der ROC-Kurve. Die AUC misst, wie wahrscheinlich es ist, dass ein zufällig ausgewähltes positives Ergebnis einen höheren Konfidenzwert hat als ein zufällig ausgewähltes negatives Ergebnis. Die AUC-Werte reichen von 0 bis 1. Ersteres bedeutet, dass das Modell alle Negative mit höherer Wahrscheinlichkeit bewertet als Positive, während 1 bedeutet, dass das Modell jedes Positive mit höherer Wahrscheinlichkeit bewertet.8

Arten von Klassifizierungsalgorithmen

Es gibt viele verschiedene Arten von Klassifizierungsalgorithmen. Obwohl sich ihre Anwendungsfälle überschneiden, sind einige für bestimmte Anwendungen besser geeignet als andere. Hier finden Sie einen Überblick über drei beliebte Algorithmen für maschinelles Lernen zur Klassifizierung. Alle drei lassen sich mithilfe verschiedener scikit-Learn-Bibliotheken problemlos in Python implementieren.

Logistische Regression

Online-Quellen stellen oft maschinelle Lernaufgaben zur Klassifizierung und Regression gegenüber. Das ist jedoch eine übertriebene Vereinfachung. Die logistische Regression ist ein Wahrscheinlichkeitsklassifikator, der aus linearen Regressionsmodellen abgeleitet wird. Die lineare Regression verwendet eine oder mehrere unabhängige Variablen, um den Wert einer unabhängigen Variablen vorherzusagen, deren Wert eine beliebige fortlaufende rationale Zahl sein kann. Die logistische Regression ist eine Modifikation der linearen Regression, bei der der Ausgabewert (oder die unabhängige Variable) auf einen beliebigen Wert zwischen 0 und 1 begrenzt wird. Dies geschieht durch eine Logit-Transformation – oder Log-Odds – auf die Standardformel der linearen Regression:9

Logit-Gleichung für die logistische Regression

Regressionmodelle sind nützlich für die binäre Klassifizierung von multivariaten Regressionproblemen. Häufige Beispiele für Anwendungen sind Betrugserkennung und biomedizinische Vorhersagen. Zum Beispiel wurde eine logistische Regression eingeführt, um die Patientensterblichkeit aufgrund von Trauma und koronaren Herzerkrankungen vorherzusagen.10

Naïve Bayes

Naïve-Bayes-Klassifikatoren (auch Naive Bayes genannt) sind beliebte Klassifikatortypen, die auf dem Bayes-Theorem basieren. Einer der Hauptunterschiede zu anderen Klassifikatoren besteht darin, dass sie die Posterior-Wahrscheinlichkeit für Klassenvorhersagen berechnen. Dies bedeutet, dass Naïve Bayes die anfänglichen Klassenvorhersagen (sogenannte A-priori-Wahrscheinlichkeiten) mit jedem neuen Datenelement aktualisieren. Nehmen wir beispielsweise an, wir versuchen, die Wahrscheinlichkeit eines Patienten, an Diabetes zu erkranken, einzuschätzen. Die medizinischen Daten dieses Patienten – wie Blutdruck, Alter, Blutzuckerspiegel und mehr – dienen als unabhängige Variablen. Zur Vorhersage berechnet ein Bayes-Klassifikator die aktuell angenommene Prävalenz von Diabetes in der Bevölkerung (vorherige Wahrscheinlichkeit) mit der Wahrscheinlichkeit, dass die medizinischen Datenwerte unseres Patienten bei jemandem mit Diabetes auftreten (bedingte Wahrscheinlichkeit). Naive Bayes-Klassifikatoren folgen der Gleichung der Bayes-Regel:11

Gleichung der Bayes-Regel

Naïve Bayes ist als generativer Klassifikator bekannt. Das bedeutet, dass der Bayes'sche Klassifikator anhand der Variablenwerte einer gegebenen Beobachtung berechnet, welche Klasse die Beobachtung am wahrscheinlichsten erzeugt hat. Forscher im Bereich der Verarbeitung natürlicher Sprache (NLP) setzen Naïve Bayes häufig für Textklassifizierungsaufgaben, wie z.B. die Stimmungsanalyse, ein. Unter Verwendung eines Bag-of-Words-Modells, bei dem jedes Wort eine Variable darstellt, sagt der Naïve Bayes-Klassifikator für die Stimmungsanalyse voraus, ob eine positive oder negative Klasse den entsprechenden Text erzeugt hat.12

K-Nearest-Neighbors

K-Nearest Neighbors (KNN) ordnet Datenpunkte einem multidimensionalen Raum zu. Dann gruppiert es diese Datenpunkte mit ähnlichen Merkmalswerten in separate Gruppen oder Klassen. Um neue Datenstichproben zu klassifizieren, betrachtet der Klassifikator einfach die k-Anzahl von Punkten, die einer neuen gegebenen Datenstichproben-Testeingabe x am nächsten sind, zählt, wie viele Mitglieder jeder Klasse die benachbarte Teilmenge bilden, und gibt diesen Anteil als Klassenschätzung für den neuen Datenpunkt zurück. Das Modell weist mit anderen Worten einen neuen Datenpunkt der Klasse zu, die die Mehrheit der Nachbarn dieses Punkts umfasst. KNN-Modelle vergleichen in der Regel die Entfernung zwischen Datenpunkten mit der euklidischen Entfernung:13

Euklidische Distanzgleichung

Approximate-Nearest-Neighbor (ANN) ist eine Variante von KNN. In hochdimensionalen Datenräumen kann die Ermittlung der exakten Nachbarn eines bestimmten Datenpunkts sehr rechenintensiv sein. Die Reduzierung der Dimensionalität ist eine Möglichkeit zur Lösung dieses Problems, ebenso wie ANN. Anstatt den exakten nächsten Nachbarn eines bestimmten Datenpunkts zu finden, ermittelt ANN einen ungefähren nächsten Nachbarn innerhalb einer bestimmten Entfernung. Jüngste Forschungen haben vielversprechende Ergebnisse für ANN im Zusammenhang mit der Multilabel-Klassifizierung gezeigt.14

Viele dieser Techniken können durch Ausreißer negativ beeinflusst werden. Glücklicherweise kann eine Reihe von Regularisierungstechniken dabei helfen, solche negativen Einflussfaktoren zu berücksichtigen. Es gibt auch viele andere Algorithmen für die Klassifizierung im Bereich des maschinellen Lernens. Zu diesen Algorithmen gehören Decision Trees, Random Forests, Gradient Boosting und Support Vector Machines (SVM).

Weiterführende Lösungen
IBM watsonx.ai

Trainieren, validieren, optimieren und implementieren Sie generative KI, Foundation Models und maschinelle Lernfunktionen mit IBM watsonx.ai, einem Studio der nächsten Generation für AI Builder in Unternehmen. Erstellen Sie KI-Anwendungen mit einem Bruchteil der Zeit und Daten.

Entdecken sie watsonx.ai
Lösungen im Bereich künstlicher Intelligenz

Setzen Sie KI in Ihrem Unternehmen ein – mit branchenführendem Fachwissen im Bereich KI und dem Lösungsportfolio von IBM an Ihrer Seite.

Erkunden Sie KI-Lösungen
KI-Beratung und -Services

Erfinden Sie kritische Workflows und Abläufe neu, indem Sie KI einsetzen, um Erfahrungen, Entscheidungsfindung in Echtzeit und den geschäftlichen Nutzen zu maximieren.

KI-Services entdecken
Machen Sie den nächsten Schritt

Profitieren Sie von einem einheitlichen Zugriff auf Funktionen, die den gesamten Lebenszyklus der KI-Entwicklung abdecken. Erstellen Sie leistungsstarke KI-Lösungen mit benutzerfreundlichen Oberflächen, Workflows und Zugriff auf branchenübliche APIs und SDKs.

watsonx.ai erkunden Live-Demo buchen
Fußnoten

1 Chris Drummond, „Classification“, Encyclopedia of Machine Learning and Data Mining, Springer, 2017.

2 Jaiwei Han, Micheline Kamber und Jian Pei, Data Mining: Concepts and Techniques, 3. Auflage, Morgan Kaufman, 2012.

3 Max Kuhn und Kjell Johnson, Applied Predictive Modeling, Springer, 2016.

4 Ethan Zhang und Yi Zhang, „Precision“, Encyclopedia of Database Systems, Springer, 2018.

5 Ethan Zhang und Yi Zhang, „Recall“, Encyclopedia of Database Systems, Springer, 2018.

6 Ben Carterette, „Precision and Recall“, Encyclopedia of Database Systems, Springer, 2018.

7 Kai Ming Ting, „Confusion matrix“, Encyclopedia of Machine Learning and Data Mining, Springer, 2017.

8 Peter Flach, „ROC Analysis“, Encyclopedia of Machine Learning and Data Mining, Springer, 2017.

9 Max Kuhn und Kjell Johnson, Applied Predictive Modeling, Springer, 2016. Gareth James, Daniela Witten, Trevor Hastie, Robert Tibshirani und Jonathan Taylor, An Introduction to Statistical Learning with Applications in Python, Springer, 2023

10 Lisa X. Deng, Abigail May Khan, David Drajpuch, Stephanie Fuller, Jonathan Ludmir, Christopher E. Mascio, Sara L. Partington, Ayesha Qadeer, Lynda Tobin, Adrienne H. Kovacs und Yuli Y. Kim, „Prevalence and Correlates of Post-traumatic Stress Disorder in Adults With Congenital Heart Disease,“ The American Journal of Cardiology, Vol. 117, No. 5, 2016, pp. 853-857, https://www.sciencedirect.com/science/article/abs/pii/S0002914915023590 .

11 Max Kuhn und Kjell Johnson, Applied Predictive Modeling, Springer, 2016. William Bolstad und James Curran, Introduction to Bayesian Statistics, 3. Auflage, Wiley, 2016.

12 Daniel Jurafsky und James Martin, Speech and Language Processing: An Introduction to Natural Language Processing, Computational Linguistics, and Speech Recognition, 3. Auflage, 2023.

13 Max Kuhn und Kjell Johnson, Applied Predictive Modeling, Springer, 2016. Kevin Murphy, Machine Learning: A Probabilistic Perspective, MIT Press, 2012.

14 Ville Hyvönen, Elias Jääsaari, Teemu Roos, „A Multilabel Classification Framework for Approximate Nearest Neighbor Search,“ Journal of Machine Learning Research, Vol. 25, No. 46, 2024, pp. 1−51, https://www.jmlr.org/papers/v25/23-0286.html .