Die Konfusionsmatrix hilft bei der Bewertung der Leistung von Klassifizierungsmodellen beim maschinellen Lernen, indem sie die vorhergesagten Werte mit den tatsächlichen Werten für einen Datensatz vergleicht.
Eine Konfusionsmatrix (oder Fehlermatrix) ist eine Visualisierungsmethode für die Ergebnisse von Klassifizierungsalgorithmen. Genauer gesagt handelt es sich um eine Tabelle, die die Anzahl der Instanzen einer bestimmten Klasse mit der Anzahl der vorhergesagten Klasseninstanzen vergleicht. Konfusionsmatrizen sind eine von mehreren Bewertungsmetriken, mit denen die Leistung eines Klassifizierungsmodells gemessen wird. Sie können zur Berechnung einer Reihe anderer Modellleistungskennzahlen verwendet werden, wie z. B. Präzision und Rückruf.
Konfusionsmatrizen können mit jedem Klassifizierungsalgorithmus verwendet werden, wie z. B. Naïve Bayes, logistische Regressionsmodelle, Decision Trees usw. Aufgrund ihrer breiten Anwendbarkeit in Data Science-Modellen und Modellen des maschinellen Lernens sind viele Pakete und Bibliotheken mit Funktionen zum Erstellen von Konfusionsmatrizen vorinstalliert, wie z. B. das sklearn.metrics-Modul von scikit-learn für Python.
In einer Konfusionsmatrix stellen die Spalten die vorhergesagten Werte einer bestimmten Klasse dar, während die Zeilen die tatsächlichen Werte (d. h.„Ground Truth“) einer bestimmten Klasse darstellen, oder umgekehrt. Beachten Sie, dass auch das Gegenteil in der Forschung vorkommt. Diese Rasterstruktur ist ein praktisches Hilfsmittel zur Visualisierung der Genauigkeit der Modellklassifizierung, indem die Anzahl der korrekten und falschen Vorhersagen für alle Klassen nebeneinander angezeigt wird.
Eine Standardvorlage für eine Konfusionsmatrix für einen binären Klassifikator kann wie folgt aussehen:
Das Feld oben links gibt die Anzahl der echten positiven Ergebnisse (True Positives, TP) an, d. h. die Anzahl der korrekten Vorhersagen für die positive Klasse. Das Feld darunter ist falsch positiv (False Positives, FP), d. h. die Instanzen der negativen Klasse, die fälschlicherweise als positive Fälle identifiziert wurden. Diese werden in der Statistik auch als Typ-I-Fehler bezeichnet. Das Feld oben rechts gibt die Anzahl der falsch negativen Ergebnisse (False Negatives, FN) an, also die tatsächlichen positiven Fälle, die fälschlicherweise als negativ eingestuft wurden. Schließlich wird im Feld unten rechts die Anzahl der echten Negative (True Negatives, TN) angezeigt, d. h. die tatsächlichen negativen Klasseninstanzen, die korrekt als negativ vorhergesagt wurden. Die Summe dieser Werte ergibt die Gesamtzahl der Vorhersagen des Modells.1
Natürlich ist diese Vorlage für ein grundlegendes binäres Klassifizierungsproblem gedacht. Die Konfusionsmatrix kann auch Ergebnisse für Klassifizierungsprobleme mit mehreren Klassen visualisieren. Stellen Sie sich zum Beispiel vor, wir entwickeln ein Modell zur Klassifizierung von Arten im Rahmen eines Programms zur Erhaltung der Meeresfauna. Das Modell sagt Fischarten voraus. Eine Konfusionsmatrix für ein solches Klassifizierungsproblem mit mehreren Klassen könnte wie folgt aussehen:
Die diagonalen Kästchen zeigen alle tatsächlich vorhergesagten positiven Ergebnisse an. Die anderen Felder enthalten die Anzahl der falsch-positiven, falsch-negativen und richtig-negativen Ergebnisse, je nachdem, auf welche Klasse Sie sich konzentrieren möchten.
Aufgrund der leicht zugänglichen Visualisierung der prädiktiven Ergebnisse des Klassifikators ist die Konfusionsmatrix nützlich für die Berechnung anderer Modellbewertungsmetriken. Werte können einfach aus der Matrix entnommen und in eine Reihe von Gleichungen zur Messung der Modellleistung eingesetzt werden.
Die Modellgenauigkeit ist keine vollständig informative Bewertungsmetrik für Klassifikatoren. Stellen Sie sich zum Beispiel vor, wir führen einen Klassifikator auf einen Datensatz mit 100 Instanzen aus. Die Konfusionsmatrix des Modells zeigt nur ein falsches Negativ und keine falschen Positiven; das Modell klassifiziert alle anderen Dateninstanzen korrekt. Somit hat das Modell eine Genauigkeit von 99 %. Obwohl eine hohe Genauigkeit wünschenswert erscheint, ist sie an sich kein Indikator für eine hervorragende Modellleistung. Nehmen wir zum Beispiel an, unser Modell zielt darauf ab, hochansteckende Krankheiten zu klassifizieren. Diese Fehlklassifizierung von 1 % stellt ein enormes Risiko dar. Daher können andere Bewertungsmetriken verwendet werden, um ein besseres Bild der Leistung des Klassifizierungsalgorithmus zu erhalten.
Präzision ist der Anteil der positiven Klassenvorhersagen, die tatsächlich zur fraglichen Klasse gehören.2 Eine andere Möglichkeit, Präzision zu verstehen, besteht darin, dass sie die Wahrscheinlichkeit misst, mit der ein zufällig ausgewählter Fall zu einer bestimmten Klasse gehört.3 Die Präzision kann auch als positiver Vorhersagewert (Positive Predicted Value, PPV) bezeichnet werden. Sie wird durch die folgende Gleichung dargestellt:
Rückruf bezeichnet den Prozentsatz der Klasseninstanzen, die von einem Modell erkannt werden.4 Mit anderen Worten gibt sie den Anteil der positiven Vorhersagen für eine bestimmte Klasse an allen tatsächlichen Instanzen dieser Klasse an.5 Die Rückrufrate wird auch als Sensitivität oder True Positive Rate (TPR) bezeichnet und durch die folgende Gleichung dargestellt:
Präzision und Rückruf können manchmal in umgekehrter Beziehung zueinander stehen. Da ein Modell die Rückrufrate erhöht, indem es mehr tatsächliche Klasseninstanzen (d. h. echte Positive) zurückgibt, wird das Modell zwangsläufig auch Nicht-Instanzen (d. h. falsche Positive) falsch klassifizieren, wodurch die Genauigkeit abnimmt.6 Der F1-Score versucht, Präzision und Rückruf zu kombinieren, um diesen Kompromiss auszugleichen.
Der F1-Score – auch F-Score, F-Maß oder harmonisches Mittel aus Präzision und Rückruf genannt – kombiniert Präzision und Rückruf, um die Gesamtgenauigkeit eines Modells in Bezug auf die Klassen darzustellen. Mit diesen beiden Werten kann man den F1-Score mit der folgenden Gleichung berechnen, wobei P die Präzision (PPV) und R den Rückruf (Sensitivität) bezeichnet:
Der F1-Score ist besonders nützlich für unausgewogene Datensätze, bei denen der Kompromiss zwischen Präzision und Rückruf am deutlichsten zutage treten kann. Angenommen, wir haben einen Klassifikator, der die Wahrscheinlichkeit einer seltenen Krankheit vorhersagt. Ein Modell, das vorhersagt, dass niemand in unserem Testdatensatz die Krankheit hat, kann eine perfekte Präzisions-, aber eine Rückrufquote von null aufweisen. Ein Modell, das vorhersagt, dass jeder in unserem Datensatz die Krankheit hat, würde zwar einen perfekten Rückruf liefern, aber eine Genauigkeit, die dem Prozentsatz der Menschen entspricht, die tatsächlich die Krankheit haben (z. B.0,00001 %, wenn nur einer von zehn Millionen Menschen die Krankheit hat). Der F1-Score ist ein Mittel, um diese beiden Werte auszugleichen und einen ganzheitlicheren Überblick über die Leistung eines Klassifikators zu erhalten.7
Einige Forscher kritisieren die Verwendung des F1-Scores als Leistungsmetrik. Solche Argumente behaupten in der Regel, dass der F1-Score Präzision und Rückruf gleich gewichtet, was möglicherweise nicht für alle Datensätze gleichermaßen wichtige Leistungsmetriken sind.8 Als Reaktion darauf haben Forscher modifizierte Varianten des F1-Scores vorgeschlagen.9
Bedingte Maßnahmen geben die Genauigkeitsrate eines Modells für die Erkennung einer bestimmten Klasse oder Nicht-Klasse an. Die Rückruf-Rate, auch bekannt als True Positive Rate (TPR) oder Sensitivity, ist eine solche Kennzahl, die das Verhältnis der positiven Klassenvorhersagen zu allen tatsächlichen Klasseninstanzen angibt. Die Spezifität – oder echte Negativrate (TNR) – ist die andere bedingte Messgröße. Sie misst den Anteil der korrekten negativen Vorhersagen an den tatsächlichen Nicht-Fällen einer bestimmten Klasse. Die Spezifität kann mit der folgenden Gleichung berechnet werden:10
Die Spezifität hilft bei der Berechnung der Fehlalarmrate (Falsch-Positiv-Rate, FPR) eines Modells. Andere Visualisierungen zur Klassifikatorbewertung, insbesondere ROC-Kurve und AUC, verwenden FPR. FPR ist die Wahrscheinlichkeit, dass ein Modell eine Nicht-Instanz einer bestimmten Klasse fälschlicherweise als Teil dieser Klasse klassifiziert. Wie der Name schon sagt, gibt dies die Rate an, mit der ein Modell falsch-positive Ergebnisse liefert, die in der Statistik als Fehler vom Typ I bekannt sind.
Während sich Typ-I-Fehler auf falsch positive Ergebnisse beziehen, bezeichnen Typ-II-Fehler die falsch negativen Ergebnisse, d. h. tatsächliche Instanzen einer bestimmten Klasse, die fälschlicherweise als nicht zu dieser Klasse gehörig klassifiziert wurden. Die Falsch-Negativ-Rate (FNR) gibt die Wahrscheinlichkeit an, mit der ein Modell eine tatsächliche Klasseninstanz fälschlicherweise als nicht zu dieser Klasse gehörend klassifiziert. So wie FPR der Spezifität entspricht, entspricht FNR der Sensitivität:
Beachten Sie, dass FNR in der Literatur oft nicht verwendet wird, da es die Kenntnis der Gesamtzahl der tatsächlichen Instanzen für eine bestimmte Klasse erfordert, die in ungesehenen Testdatensätzen unbekannt bleiben kann.11
Unbedingte Metriken sind solche, die die Wahrscheinlichkeit darstellen, dass eine bestimmte Klasse gemäß dem Modell auftritt oder nicht auftritt. Präzision – oder positiver Vorhersagewert (Positive Predicted Value, PPV) – ist eine unbedingte Metrik. Wie bereits erwähnt, misst der PPV die Wahrscheinlichkeit, dass ein ausgewähltes Beispiel zu einer bestimmten Klasse gehört. Die andere bedingungslose Metrik, der negative prädiktive Wert (NPV), ist die Wahrscheinlichkeit, dass ein ausgewählter Fall nicht zu dieser Klasse gehört. Im Wesentlichen versuchen beide bedingungslosen Metriken zu beantworten, ob ein zufällig ausgewählter Fall zu einer bestimmten Klasse gehört oder nicht. Der NPV kann mit der folgenden Gleichung berechnet werden:12
Wir haben 2.000 Unternehmen zu ihren KI-Initiativen befragt, um herauszufinden, was funktioniert, was nicht und wie Sie vorankommen können.
IBM® Granite ist unsere Familie offener, leistungsfähiger und vertrauenswürdiger KI-Modelle, die auf Unternehmen zugeschnitten und für die Skalierung Ihrer KI-Anwendungen optimiert sind. Entdecken Sie die Optionen zu Sprache, Code, Zeitreihen und Guardrails.
Greifen Sie auf unseren vollständigen Katalog mit über 100 Online-Kursen zu, indem Sie noch heute ein Abonnement für Einzel- oder Mehrbenutzer erwerben, mit dem Sie Ihre Fähigkeiten in einer Reihe unserer Produkte zu einem günstigen Preis erweitern können.
Das Programm, das von führenden IBM Experten geleitet wird, soll Führungskräften dabei helfen, das nötige Wissen zu erwerben, um die Prioritäten für KI-Investitionen zu setzen, die zu mehr Wachstum führen.
Möchten Sie eine bessere Rendite für Ihre KI-Investitionen erzielen? Erfahren Sie, wie die Skalierung generativer KI in Schlüsselbereichen Veränderungen vorantreibt, indem Sie Ihre besten Köpfe dabei unterstützen, innovative neue Lösungen zu entwickeln und bereitzustellen.
Erfahren Sie, wie Sie generative KI und maschinelles Lernen sicher in Ihr Unternehmen integrieren können.
Erfahren Sie mehr über die drei entscheidenden Elemente einer starken KI-Strategie: die Schaffung eines Wettbewerbsvorteils, die Skalierung von KI im gesamten Unternehmen und die Förderung vertrauenswürdiger KI.
1 Kai Ming Ting, „Confusion matrix“, Encyclopedia of Machine Learning and Data Mining, Springer, 2018.
2 Ethan Zhang und Yi Zhang, „Precision“, Encyclopedia of Database Systems, Springer, 2018.
3 Max Kuhn und Kjell Johnson, Applied Predictive Modeling, Springer, 2016.
5 Ethan Zhang und Yi Zhang, „Recall“, Encyclopedia of Database Systems, Springer, 2018.
5 Max Kuhn und Kjell Johnson, Applied Predictive Modeling, Springer, 2016.
6 Ben Carterette, „Precision and Recall“, Encyclopedia of Database Systems, Springer, 2018.
7 Ian Goodfellow, Yoshua Bengio und Aaron Courville, Deep Learning, MIT Press, 2016, https://www.deeplearningbook.org/. Kevin Murphy, Machine Learning: A Probabilistic Perspective, MIT Press, 2012.
8 David Hand und Peter Christen, „A note on using the F-measure for evaluating record linkage algorithms“, Statistics and Computing, Band 28, 2018, S. 539–547,https://link.springer.com/article/10.1007/s11222-017-9746-6 .
9 David Hand, Peter Christen und Nishadi Kirielle, „F*: an interpretable transformation of the F-measure“, Machine Learning, Band 110, 2021, S. 451 456, https://link.springer.com/article/10.1007/s10994-021-05964-1 . Davide Chicco und Giuseppe Jurman, „The advantages of the Matthews correlation coefficient (MCC) over F1 score and accuracy in binary classification evaluation“, BMC Genomics, Band 21, 2020,https://bmcgenomics.biomedcentral.com/articles/10.1186/s12864-019-6413-7.
10 Max Kuhn und Kjell Johnson, Applied Predictive Modeling, Springer, 2016.
11 Allen Downey, Think Stats, 2. Auflage, O’Reilly, 2014.
12 Max Kuhn und Kjell Johnson, Applied Predictive Modeling, Springer, 2016.