Was ist eine Konfusionsmatrix?

Junge Geschäftsfrau steht mit Mobiltelefon am Fenster im Startup-Büro

Autoren

Jacob Murel Ph.D.

Senior Technical Content Creator

Business Development + Partnerships

IBM Research

Die Konfusionsmatrix hilft bei der Bewertung der Leistung von Klassifizierungsmodellen beim maschinellen Lernen, indem sie die vorhergesagten Werte mit den tatsächlichen Werten für einen Datensatz vergleicht.

Eine Konfusionsmatrix (oder Fehlermatrix) ist eine Visualisierungsmethode für die Ergebnisse von Klassifizierungsalgorithmen. Genauer gesagt handelt es sich um eine Tabelle, die die Anzahl der Instanzen einer bestimmten Klasse mit der Anzahl der vorhergesagten Klasseninstanzen vergleicht. Konfusionsmatrizen sind eine von mehreren Bewertungsmetriken, mit denen die Leistung eines Klassifizierungsmodells gemessen wird. Sie können zur Berechnung einer Reihe anderer Modellleistungskennzahlen verwendet werden, wie z. B. Präzision und Rückruf.

Konfusionsmatrizen können mit jedem Klassifizierungsalgorithmus verwendet werden, wie z. B. Naïve Bayes, logistische Regressionsmodelle, Decision Trees usw. Aufgrund ihrer breiten Anwendbarkeit in Data Science-Modellen und Modellen des maschinellen Lernens sind viele Pakete und Bibliotheken mit Funktionen zum Erstellen von Konfusionsmatrizen vorinstalliert, wie z. B. das sklearn.metrics-Modul von scikit-learn für Python.

3D-Design aus Kugeln, die auf einer Schiene rollen

Die neuesten Erkenntnisse und Insights zu KI

Entdecken Sie von Experten kuratierte Erkenntnisse und Neuigkeiten zu KI, Cloud und mehr im wöchentlichen Newsletter Think.

Das Layout der Konfusionsmatrix

In einer Konfusionsmatrix stellen die Spalten die vorhergesagten Werte einer bestimmten Klasse dar, während die Zeilen die tatsächlichen Werte (d. h.„Ground Truth“) einer bestimmten Klasse darstellen, oder umgekehrt. Beachten Sie, dass auch das Gegenteil in der Forschung vorkommt. Diese Rasterstruktur ist ein praktisches Hilfsmittel zur Visualisierung der Genauigkeit der Modellklassifizierung, indem die Anzahl der korrekten und falschen Vorhersagen für alle Klassen nebeneinander angezeigt wird.

Eine Standardvorlage für eine Konfusionsmatrix für einen binären Klassifikator kann wie folgt aussehen:

Das Feld oben links gibt die Anzahl der echten positiven Ergebnisse (True Positives, TP) an, d. h. die Anzahl der korrekten Vorhersagen für die positive Klasse. Das Feld darunter ist falsch positiv (False Positives, FP), d. h. die Instanzen der negativen Klasse, die fälschlicherweise als positive Fälle identifiziert wurden. Diese werden in der Statistik auch als Typ-I-Fehler bezeichnet. Das Feld oben rechts gibt die Anzahl der falsch negativen Ergebnisse (False Negatives, FN) an, also die tatsächlichen positiven Fälle, die fälschlicherweise als negativ eingestuft wurden. Schließlich wird im Feld unten rechts die Anzahl der echten Negative (True Negatives, TN) angezeigt, d. h. die tatsächlichen negativen Klasseninstanzen, die korrekt als negativ vorhergesagt wurden. Die Summe dieser Werte ergibt die Gesamtzahl der Vorhersagen des Modells.¹

Natürlich ist diese Vorlage für ein grundlegendes binäres Klassifizierungsproblem gedacht. Die Konfusionsmatrix kann auch Ergebnisse für Klassifizierungsprobleme mit mehreren Klassen visualisieren. Stellen Sie sich zum Beispiel vor, wir entwickeln ein Modell zur Klassifizierung von Arten im Rahmen eines Programms zur Erhaltung der Meeresfauna. Das Modell sagt Fischarten voraus. Eine Konfusionsmatrix für ein solches Klassifizierungsproblem mit mehreren Klassen könnte wie folgt aussehen:

Die diagonalen Kästchen zeigen alle tatsächlich vorhergesagten positiven Ergebnisse an. Die anderen Felder enthalten die Anzahl der falsch-positiven, falsch-negativen und richtig-negativen Ergebnisse, je nachdem, auf welche Klasse Sie sich konzentrieren möchten.

Verwendung der Konfusionsmatrix zur Modellbewertung

Aufgrund der leicht zugänglichen Visualisierung der prädiktiven Ergebnisse des Klassifikators ist die Konfusionsmatrix nützlich für die Berechnung anderer Modellbewertungsmetriken. Werte können einfach aus der Matrix entnommen und in eine Reihe von Gleichungen zur Messung der Modellleistung eingesetzt werden.

Genauigkeit

Die Modellgenauigkeit ist keine vollständig informative Bewertungsmetrik für Klassifikatoren. Stellen Sie sich zum Beispiel vor, wir führen einen Klassifikator auf einen Datensatz mit 100 Instanzen aus. Die Konfusionsmatrix des Modells zeigt nur ein falsches Negativ und keine falschen Positiven; das Modell klassifiziert alle anderen Dateninstanzen korrekt. Somit hat das Modell eine Genauigkeit von 99 %. Obwohl eine hohe Genauigkeit wünschenswert erscheint, ist sie an sich kein Indikator für eine hervorragende Modellleistung. Nehmen wir zum Beispiel an, unser Modell zielt darauf ab, hochansteckende Krankheiten zu klassifizieren. Diese Fehlklassifizierung von 1 % stellt ein enormes Risiko dar. Daher können andere Bewertungsmetriken verwendet werden, um ein besseres Bild der Leistung des Klassifizierungsalgorithmus zu erhalten.

Präzision und Rückruf

Präzision ist der Anteil der positiven Klassenvorhersagen, die tatsächlich zur fraglichen Klasse gehören.² Eine andere Möglichkeit, Präzision zu verstehen, besteht darin, dass sie die Wahrscheinlichkeit misst, mit der ein zufällig ausgewählter Fall zu einer bestimmten Klasse gehört.³ Die Präzision kann auch als positiver Vorhersagewert (Positive Predicted Value, PPV) bezeichnet werden. Sie wird durch die folgende Gleichung dargestellt:

Rückruf bezeichnet den Prozentsatz der Klasseninstanzen, die von einem Modell erkannt werden.⁴ Mit anderen Worten gibt sie den Anteil der positiven Vorhersagen für eine bestimmte Klasse an allen tatsächlichen Instanzen dieser Klasse an.⁵ Die Rückrufrate wird auch als Sensitivität oder True Positive Rate (TPR) bezeichnet und durch die folgende Gleichung dargestellt:

F1-Score

Präzision und Rückruf können manchmal in umgekehrter Beziehung zueinander stehen. Da ein Modell die Rückrufrate erhöht, indem es mehr tatsächliche Klasseninstanzen (d. h. echte Positive) zurückgibt, wird das Modell zwangsläufig auch Nicht-Instanzen (d. h. falsche Positive) falsch klassifizieren, wodurch die Genauigkeit abnimmt.⁶ Der F1-Score versucht, Präzision und Rückruf zu kombinieren, um diesen Kompromiss auszugleichen.

Der F1-Score – auch F-Score, F-Maß oder harmonisches Mittel aus Präzision und Rückruf genannt – kombiniert Präzision und Rückruf, um die Gesamtgenauigkeit eines Modells in Bezug auf die Klassen darzustellen. Mit diesen beiden Werten kann man den F1-Score mit der folgenden Gleichung berechnen, wobei P die Präzision (PPV) und R den Rückruf (Sensitivität) bezeichnet:

Der F1-Score ist besonders nützlich für unausgewogene Datensätze, bei denen der Kompromiss zwischen Präzision und Rückruf am deutlichsten zutage treten kann. Angenommen, wir haben einen Klassifikator, der die Wahrscheinlichkeit einer seltenen Krankheit vorhersagt. Ein Modell, das vorhersagt, dass niemand in unserem Testdatensatz die Krankheit hat, kann eine perfekte Präzisions-, aber eine Rückrufquote von null aufweisen. Ein Modell, das vorhersagt, dass jeder in unserem Datensatz die Krankheit hat, würde zwar einen perfekten Rückruf liefern, aber eine Genauigkeit, die dem Prozentsatz der Menschen entspricht, die tatsächlich die Krankheit haben (z. B.0,00001 %, wenn nur einer von zehn Millionen Menschen die Krankheit hat). Der F1-Score ist ein Mittel, um diese beiden Werte auszugleichen und einen ganzheitlicheren Überblick über die Leistung eines Klassifikators zu erhalten.⁷

Einige Forscher kritisieren die Verwendung des F1-Scores als Leistungsmetrik. Solche Argumente behaupten in der Regel, dass der F1-Score Präzision und Rückruf gleich gewichtet, was möglicherweise nicht für alle Datensätze gleichermaßen wichtige Leistungsmetriken sind.⁸ Als Reaktion darauf haben Forscher modifizierte Varianten des F1-Scores vorgeschlagen.⁹

Bedingte Maßnahmen

Bedingte Maßnahmen geben die Genauigkeitsrate eines Modells für die Erkennung einer bestimmten Klasse oder Nicht-Klasse an. Die Rückruf-Rate, auch bekannt als True Positive Rate (TPR) oder Sensitivity, ist eine solche Kennzahl, die das Verhältnis der positiven Klassenvorhersagen zu allen tatsächlichen Klasseninstanzen angibt. Die Spezifität – oder echte Negativrate (TNR) – ist die andere bedingte Messgröße. Sie misst den Anteil der korrekten negativen Vorhersagen an den tatsächlichen Nicht-Fällen einer bestimmten Klasse. Die Spezifität kann mit der folgenden Gleichung berechnet werden:¹⁰

Falsch-Positiv-Rate

Die Spezifität hilft bei der Berechnung der Fehlalarmrate (Falsch-Positiv-Rate, FPR) eines Modells. Andere Visualisierungen zur Klassifikatorbewertung, insbesondere ROC-Kurve und AUC, verwenden FPR. FPR ist die Wahrscheinlichkeit, dass ein Modell eine Nicht-Instanz einer bestimmten Klasse fälschlicherweise als Teil dieser Klasse klassifiziert. Wie der Name schon sagt, gibt dies die Rate an, mit der ein Modell falsch-positive Ergebnisse liefert, die in der Statistik als Fehler vom Typ I bekannt sind.

Während sich Typ-I-Fehler auf falsch positive Ergebnisse beziehen, bezeichnen Typ-II-Fehler die falsch negativen Ergebnisse, d. h. tatsächliche Instanzen einer bestimmten Klasse, die fälschlicherweise als nicht zu dieser Klasse gehörig klassifiziert wurden. Die Falsch-Negativ-Rate (FNR) gibt die Wahrscheinlichkeit an, mit der ein Modell eine tatsächliche Klasseninstanz fälschlicherweise als nicht zu dieser Klasse gehörend klassifiziert. So wie FPR der Spezifität entspricht, entspricht FNR der Sensitivität:

Beachten Sie, dass FNR in der Literatur oft nicht verwendet wird, da es die Kenntnis der Gesamtzahl der tatsächlichen Instanzen für eine bestimmte Klasse erfordert, die in ungesehenen Testdatensätzen unbekannt bleiben kann.¹¹

Unbedingte Metriken

Unbedingte Metriken sind solche, die die Wahrscheinlichkeit darstellen, dass eine bestimmte Klasse gemäß dem Modell auftritt oder nicht auftritt. Präzision – oder positiver Vorhersagewert (Positive Predicted Value, PPV) – ist eine unbedingte Metrik. Wie bereits erwähnt, misst der PPV die Wahrscheinlichkeit, dass ein ausgewähltes Beispiel zu einer bestimmten Klasse gehört. Die andere bedingungslose Metrik, der negative prädiktive Wert (NPV), ist die Wahrscheinlichkeit, dass ein ausgewählter Fall nicht zu dieser Klasse gehört. Im Wesentlichen versuchen beide bedingungslosen Metriken zu beantworten, ob ein zufällig ausgewählter Fall zu einer bestimmten Klasse gehört oder nicht. Der NPV kann mit der folgenden Gleichung berechnet werden:¹²

Mixture of Experts | 12. Dezember, Folge 85

KI entschlüsseln: Wöchentlicher Nachrichtenüberblick

Schließen Sie sich unserer erstklassigen Expertenrunde aus Ingenieuren, Forschern, Produktführern und anderen an, die sich durch das KI-Rauschen kämpfen, um Ihnen die neuesten KI-Nachrichten und Erkenntnisse zu liefern.

Alle Episoden von Mixture of Experts ansehen

So entscheiden Sie sich für das richtige Foundation Model

Erfahren Sie, wie Sie bei der Vorbereitung von Datensätzen und dem Einsatz von Foundation Models den richtigen Ansatz wählen.

Ressourcen

ROI erzielen: KI-Agenten in Ihrem Unternehmen

Nehmen Sie an einem Webinar von IBM teil, in dem wir Ihnen anhand von Beispielen aus verschiedenen Branchen, Anwendungsfällen und sogar IBMs eigenen Erfolgsgeschichten zeigen, wie Sie durch agentische KI einen echten ROI erzielen können.

IBM wird als führend im Bereich Data Science und maschinelles Lernen ausgezeichnet

Erfahren Sie, warum IBM im Gartner Magic Quadrant™ for Data Science and Machine Learning Platforms 2025 als führend eingestuft wurde.

Von KI-Projekten zu Gewinnen: Wie agentische KI finanzielle Erträge sichern kann

Erfahren Sie, wie Unternehmen von der KI-Einführung in verteilten Pilotprojekten zu ihrer Nutzung übergehen, um die Transformation im Kern voranzutreiben.

Zu mehr KI-Know-how

Greifen Sie auf unseren vollständigen Katalog mit über 100 Online-Kursen zu, indem Sie noch heute ein Abonnement für Einzel- oder Mehrbenutzer erwerben, mit dem Sie Ihre Fähigkeiten in einer Reihe unserer Produkte zu einem günstigen Preis erweitern können.

IBM Granite erkunden

IBM Granite ist eine Familie offener, leistungsfähiger und vertrauenswürdiger KI-Modelle, die auf Unternehmen zugeschnitten und für die Skalierung Ihrer KI-Anwendungen optimiert sind. Entdecken Sie die Optionen zu Sprache, Code, Zeitreihen und Guardrails.

IBM AI Academy

Das Programm, das von führenden IBM Experten geleitet wird, soll Führungskräften dabei helfen, das nötige Wissen zu erwerben, um die Prioritäten für KI-Investitionen zu setzen, die zu mehr Wachstum führen.

KI in Aktion 2024

Wir haben 2.000 Unternehmen zu ihren KI-Initiativen befragt, um herauszufinden, was funktioniert, was nicht und wie Sie vorankommen können.

CEO-Leitfaden 2025: 5 Denkanstöße zur Steigerung des Unternehmenswachstums

Nutzen Sie diese fünf Denkanstöße, um mit agentischer KI Unsicherheit zu durchbrechen, die geschäftliche Neuerfindung voranzutreiben und das Wachstum zu beflügeln.

Nutzen Sie die Leistungsfähigkeit generativer KI und ML

Erfahren Sie, wie Sie generative KI und maschinelles Lernen sicher in Ihr Unternehmen integrieren können.

Wie Sie im neuen KI-Zeitalter vertrauensvoll und zuversichtlich in eine erfolgreiche Zukunft blicken

Erfahren Sie mehr über die drei entscheidenden Elemente einer starken KI-Strategie: die Schaffung eines Wettbewerbsvorteils, die Skalierung von KI im gesamten Unternehmen und die Förderung vertrauenswürdiger KI.

Weiterführende Lösungen

IBM watsonx.ai

Trainieren, validieren, optimieren und implementieren Sie generative KI, Foundation Models und maschinelle Lernfunktionen mit IBM watsonx.ai, einem Studio der nächsten Generation für AI Builder in Unternehmen. Erstellen Sie KI-Anwendungen mit einem Bruchteil der Zeit und Daten.

watsonx.ai erkunden

Lösungen im Bereich künstlicher Intelligenz

Setzen Sie KI in Ihrem Unternehmen ein
– mit branchenführendem Fachwissen im Bereich KI und dem umfassenden Lösungsportfolio von IBM an Ihrer Seite.

Erkunden Sie KI-Lösungen

Beratung und Services zu künstlicher Intelligenz (KI)

Die KI-Services von IBM Consulting unterstützen Sie dabei, die Art und Weise, wie Unternehmen mit KI arbeiten, neu zu denken.

KI-Services entdecken

Machen Sie den nächsten Schritt

Profitieren Sie von einem einheitlichen Zugriff auf Funktionen, die den gesamten Lebenszyklus der KI-Entwicklung abdecken. Erstellen Sie leistungsstarke KI-Lösungen mit benutzerfreundlichen Oberflächen, Workflows und Zugriff auf branchenübliche APIs und SDKs.

watsonx.ai erkunden

Buchen Sie eine Live-Demo

Fußnoten

¹ Kai Ming Ting, „Confusion matrix“, Encyclopedia of Machine Learning and Data Mining, Springer, 2018.

² Ethan Zhang und Yi Zhang, „Precision“, Encyclopedia of Database Systems, Springer, 2018.

³ Max Kuhn und Kjell Johnson, Applied Predictive Modeling, Springer, 2016.

⁵ Ethan Zhang und Yi Zhang, „Recall“, Encyclopedia of Database Systems, Springer, 2018.

⁵ Max Kuhn und Kjell Johnson, Applied Predictive Modeling, Springer, 2016.

⁶ Ben Carterette, „Precision and Recall“, Encyclopedia of Database Systems, Springer, 2018.

⁷ Ian Goodfellow, Yoshua Bengio und Aaron Courville, Deep Learning, MIT Press, 2016, https://www.deeplearningbook.org/. Kevin Murphy, Machine Learning: A Probabilistic Perspective, MIT Press, 2012.

⁸ David Hand und Peter Christen, „A note on using the F-measure for evaluating record linkage algorithms“, Statistics and Computing, Band 28, 2018, S. 539–547,https://link.springer.com/article/10.1007/s11222-017-9746-6 .

⁹ David Hand, Peter Christen und Nishadi Kirielle, „F*: an interpretable transformation of the F-measure“, Machine Learning, Band 110, 2021, S. 451 456, https://link.springer.com/article/10.1007/s10994-021-05964-1 . Davide Chicco und Giuseppe Jurman, „The advantages of the Matthews correlation coefficient (MCC) over F1 score and accuracy in binary classification evaluation“, BMC Genomics, Band 21, 2020,https://bmcgenomics.biomedcentral.com/articles/10.1186/s12864-019-6413-7.

¹⁰ Max Kuhn und Kjell Johnson, Applied Predictive Modeling, Springer, 2016.

¹¹ Allen Downey, Think Stats, 2. Auflage, O’Reilly, 2014.

¹² Max Kuhn und Kjell Johnson, Applied Predictive Modeling, Springer, 2016.