Was ist die Quantifizierung von Unsicherheiten im maschinellen Lernen?

Joshua Noble

Data Scientist

Was ist die Quantifizierung von Unsicherheiten?

Der Statistiker George Box schrieb: „Alle Modelle sind falsch, aber einige sind nützlich“.1 Modelle, seien es qualitative, KI-, dynamisch-mathematische oder statistische Modelle, werden der Komplexität der Realität nie gerecht.

Es gibt mehrere Arten von Unsicherheiten, die sich auf Modelle aller Art auswirken. Zu den Unsicherheitsquellen zählen Zufallsprozesse oder stochastische Eigenschaften eines Systems (die als aleatorische Unsicherheit bezeichnet werden), unvollständiges Wissen (die als epistemische Unsicherheit bezeichnet werden) und Rechenbeschränkungen.

Die Modellunsicherheit hilft uns nicht nur abzuschätzen, wie genau ein Modell im Zeitverlauf ist, sondern kann auch dabei helfen, die Bandbreite möglicher Ergebnisse aufzuzeigen. Es hilft auch zu verstehen, wie die Unsicherheit sowohl bei der Messung als auch bei den Modellen reduziert werden kann.

Unsicherheit und Genauigkeit sind verschiedene Konzepte, die eng miteinander verwandt sind. Die Vorhersagegenauigkeit gibt an, wie nahe eine Vorhersage an einem bekannten Wert liegt. Unsicherheit ist, wie stark Vorhersagen und Zielwerte variieren können.

Ein Computer-Vision-System, das Bilder von Äpfeln nur in Rot oder Grün klassifiziert, hat eine viel geringere inhärente Unsicherheit als ein System, das Fotos von jeder bekannten Obstsorte der Welt klassifiziert. Die Quantifizierung von Unsicherheiten (UQ) ist eine Methode, um genau zu messen, um wie viel unsicherer diese beiden Probleme im Vergleich zueinander sind.

Wenn ein Modell Unsicherheiten enthält, können seine Ausgaben mit unterschiedlichen Wahrscheinlichkeiten variieren. Wir behandeln diese Ausgaben als Zufallsvariablen und verwenden Wahrscheinlichkeitsverteilungen, um die Unsicherheit zu messen. Je breiter die Verteilung, desto unsicherer ist das Ergebnis. Während die Varianz für Gaußsche Verteilungen gut funktioniert, erzeugen viele reale Systeme Nichtstandardverteilungen, die andere Messansätze erfordern.

Methoden zur Quantifizierung der Unsicherheit helfen dabei, herauszufinden, wie sicher Sie sich bei einer bestimmten Vorhersage sein sollten. Dabei kann es sich um eine Vorhersage handeln, die durch eine statistische Technik wie einen Verteilungstest getroffen wird, oder um eine Vorhersage oder Schlussfolgerung, die von einem Algorithmus des maschinellen Lernens getroffen wird. Die UQ hilft uns auch, die Bandbreite der möglichen Ergebnisse für Modelle zu verstehen.

Wenn ein Wettermodell z. B. eine Regenwahrscheinlichkeit von 70 % vorhersagt, hilft UQ bei der Bestimmung, ob diese 70 % auf soliden Trainingsdaten basieren oder ob die Unsicherheit so groß ist, dass die tatsächliche Wahrscheinlichkeit zwischen 50 % und 90 % liegen könnte.

UQ-Methoden sind wichtig, da sie zeigen, wie sich Fehler und Unbekannte auf die Ergebnisse auswirken. Dies verhindert, dass Modelle zu selbstbewusst werden, und hilft dabei, sich darauf zu konzentrieren, wie die Genauigkeit eines maschinellen Lernmodells verbessert werden kann.

Die Berechnung der UQ hilft dabei, die wichtigsten Unsicherheiten zu identifizieren und das Modelltraining zu optimieren. UQ hilft Entscheidungsträgern auch, die Zuverlässigkeit von Vorhersagen zu verstehen. UQ hilft Ihnen dabei, eine Aussage wie „Dieses Modell könnte falsch sein“ in konkrete, messbare Informationen darüber umzuwandeln, wie falsch es sein könnte und in welcher Hinsicht es falsch sein könnte. Dies ist von unschätzbarem Wert bei der Arbeit in Bereichen wie der Medizin, der fehlertoleranten Technik oder anderen Szenarien, in denen Zuverlässigkeit von größter Bedeutung ist.

Die neuesten KI-Trends, präsentiert von Experten

Erhalten Sie kuratierte Einblicke in die wichtigsten – und faszinierendsten – KI-Neuheiten. Abonnieren Sie unseren wöchentlichen Think-Newsletter. Weitere Informationen in der IBM Datenschutzerklärung.

Vielen Dank! Sie haben ein Abonnement abgeschlossen.

Ihr Abonnement wird auf Englisch geliefert. In jedem Newsletter finden Sie einen Abmeldelink. Hier können Sie Ihre Abonnements verwalten oder sich abmelden. Weitere Informationen finden Sie in unserer IBM Datenschutzerklärung.

Methoden für UQ

Es gibt zwei Hauptarten von Unsicherheit: datengestützte Unsicherheit und modellgesteuerte Unsicherheit. In beiden Fällen kann es hilfreich sein, zu wissen, wie zuverlässig eine Vorhersage ist, sowohl bevor als auch nachdem sie getroffen wurde.

Man kann sich das wie ein Modell vorstellen, das vorhersagt, wie oft ein Türscharnier geöffnet und geschlossen werden kann, bevor es versagt, und zwar auf ungefähr etwa 1.000 Betätigungen. Es kann auch zeigen, wie wahrscheinlich es ist, dass dieses Mal das Türscharnier bricht.

Sampling-basiert Methoden

Stichprobenbasierte Ansätze gehören zu den am häufigsten verwendeten Techniken zur Quantifizierung von Unsicherheiten, da sie jede Art von Modellkomplexität bewältigen können und eine intuitive, umfassende Charakterisierung der Unsicherheit ermöglichen. Durch die Generierung vieler möglicher Szenarien kann die Stichprobe ein statistisches Bild davon erstellen, welche Ergebnisse wahrscheinlich sind und wie unsicher unsere Vorhersagen sind, wenn sie auf reale Daten angewendet werden. Anstatt die Unsicherheit analytisch zu berechnen, verwenden diese Methoden eine statistische Analyse vieler Stichproben, um Unsicherheitsverteilungen zu charakterisieren.

Die Monte-Carlo-Simulation ist einer der gängigsten Ansätze. Dabei werden Tausende von Modellsimulationen mit zufällig unterschiedlichen Eingaben durchgeführt, um die Bandbreite der möglichen Outputs zu ermitteln. Dies ist besonders häufig bei parametrischen Modellen der Fall, bei denen die Zuverlässigkeitsintervalle und Modellausgaben verschiedener Modelle verglichen werden, um die Bandbreite aller möglichen Werte zu ermitteln.

Eine Variante der Monte-Carlo-Simulation, die Latin Hypercube Sampling genannt wird, ist eine effizientere Version, die weniger Durchläufe erfordert und dennoch den Eingaberaum gut abdeckt.

Monte-Carlo Dropout ist eine weitere Technik, bei der der Dropout während der Vorhersage aktiv bleibt und mehrere Vorwärtsdurchläufe durchgeführt werden, um eine Verteilung der Ausgaben zu erhalten.2 Dropout wird in erster Linie als Regularisierungstechnik verwendet, eine Methode, die zur Feinabstimmung von Modellen für maschinelles Lernen eingesetzt wird. Ziel ist es, die angepasste Verlustfunktion zu optimieren und gleichzeitig die Probleme der Über- oder Unteranpassung zu vermeiden.

Monte-Carlo Dropout wendet ein Dropout zur Testzeit an und führt mehrere Vorwärtsdurchläufe mit unterschiedlichen Dropout-Masken durch. Dadurch erzeugt das Modell eine Verteilung von Vorhersagen und keine Einzelpunktschätzung. Die Verteilung gibt Erkenntnis über die Unsicherheit des Modells bei Vorhersagen. Es handelt sich um eine rechnerisch effiziente Technik, um neuronale Netze Ausgaben zu bringen, ohne dass die Netze mehrfach trainiert werden müssen.

Wenn das aktuelle Modell oft zu teuer ist, erstellen Statistiker vereinfachte „Ersatzmodelle“, indem sie Techniken wie die Gauß-Prozess-Regression verwenden.5 Die Gauß-Prozess-Regression ist ein Bayes'scher Ansatz zur Modellierung der Sicherheit von Vorhersagen, der es zu einem wertvollen Werkzeug für die Optimierung, die Zeitreihen-Prognose und andere Anwendungen macht. GPR basiert auf dem Konzept eines „Gaußschen Prozesses“, bei dem es sich um eine Sammlung von Zufallsvariablen handelt, die eine gemeinsame Gaußsche Verteilung haben.

Sie können sich einen Gaußschen Prozess als eine Verteilung von Funktionen vorstellen. GPR platziert eine A-priori-Verteilung über Funktionen und verwendet dann beobachtete Daten, um eine A-posteriori-Verteilung zu erstellen. Die Verwendung von GPR zur Berechnung von Unsicherheiten erfordert kein zusätzliches Training oder Modellläufe, da die Ausgabe durch die Verteilung von Natur aus ausdrückt, wie sicher oder unsicher das Modell bezüglich der Schätzung ist. Bibliotheken wie Scikit-learn bieten Implementierungen von GPR für die Unsicherheitsanalyse.

Die Wahl der Stichprobenmethode hängt davon ab, welche Funktionen für Ihr Modell und Szenario am wichtigsten sind. Die meisten realen Anwendungen kombinieren mehrere Ansätze.

Bayes-Methoden

Die Bayes'sche Statistik ist ein Ansatz zur statistischen Inferenz, bei dem der Satz von Bayes verwendet wird, um frühere Annahmen mit beobachteten Daten zu kombinieren und die Wahrscheinlichkeit einer Hypothese zu aktualisieren. Die Bayes'sche Statistik befasst sich explizit mit der Unsicherheit, indem sie eine Wahrscheinlichkeitsverteilung anstelle eines einzelnen festen Werts zuweist. Anstatt eine einzige „beste“ Schätzung für einen Modellparameter zu geben, liefern Bayes-Methoden eine Verteilung der Wahrscheinlichkeit möglicher Schätzungen.

Die Bayes'sche Inferenz aktualisiert die Vorhersagen, sobald neue Daten verfügbar werden, wodurch natürlich Unsicherheiten während des gesamten Prozesses der Schätzung von Kovariaten berücksichtigt werden. Markow-Chain-Monte-Carlo-Verfahren (MCMC-Methode) helfen bei der Implementierung von Bayes'schen Ansätzen, wenn die mathematischen Lösungen komplex sind. Der MCMC-Ansatz wählt Stichproben aus komplexen, hochdimensionalen Wahrscheinlichkeitsverteilungen, die nicht direkt erprobt werden können, insbesondere A-posteriori-Verteilungen bei der Bayes'schen Inferenz.

Bayessche neuronale Netze (BNNs) sind eine Abkehr von den herkömmlichen neuronalen Netzen, die Netzgewichte als Wahrscheinlichkeitsverteilungen und nicht als Festpunktschätzungen behandeln. Dieser probabilistische Ansatz ermöglicht eine prinzipielle und strikte Quantifizierung von Unsicherheiten. Anstelle von Einzelpunktschätzungen für die Gewichtungen werden dabei Wahrscheinlichkeitsverteilungen über alle Netzwerkparameter hinweg beibehalten. Zu den Vorhersagen gehören in der Regel:

  • Mittelwert- und Abweichungsschätzungen für die Vorhersageverteilung vornehmen
  • Stichproben aus der Vorhersageverteilung
  • glaubwürdige Intervalle, die aus der Verteilung abgeleitet werden

Es gibt mehrere beliebte Open-Source-Bibliotheken zur Implementierung von BNNs wie PyMC oder Tensorflow-Probability.

Ensemble-Methoden

Die Kernidee hinter der Unsicherheitsquantifizierung auf Basis von Ensembles ist, dass wenn mehrere unabhängig voneinander trainierte Modelle bei einer Vorhersage zu unterschiedlichen Ergebnissen kommen, diese Diskrepanz auf Unsicherheit hinsichtlich der richtigen Antwort hindeutet..4 Wenn hingegen alle Modelle im Ensemble übereinstimmen, deutet dies auf eine höhere Zuverlässigkeit der Vorhersage hin. Diese Intuition führt zu konkreten Unsicherheitsmaßen durch die Varianz oder Streuung von Ensemble-Vorhersagen.

Wenn f₁, f₂, ..., fₙ die Schätzer von N Ensemblemitgliedern für die Eingabe x darstellen, kann die Unsicherheit wie folgt quantifiziert werden:

 Var[f(x)]=1Ni=1N(fi(x)-f¯(x))2

mit f̄(x) als Mittelwert des Ensembles. Das Trainieren mehrerer unterschiedlicher Modelle (unterschiedliche Architekturen, Trainingsdatensätze oder Initialisierungen) und das Kombinieren ihrer Vorhersagen. Der größte Nachteil dieses Ansatzes sind die Rechenkosten: Er erfordert das Training und die Ausführung mehrerer Modelle.

Konforme Vorhersage

 

Die konforme Vorhersage ist eine Technik zur Quantifizierung von Unsicherheiten. Sie bietet ein verteilungsfreies, modellunabhängiges Framework für die Erstellung von Vorhersageintervallen (für Regressionsszenarien) oder Vorhersagesätzen (für Anwendungen).3 So werden valide Abdeckungsgarantien mit minimalen Annahmen über das Modell oder die Daten ermöglicht. Dies macht die konforme Vorhersage besonders hilfreich, wenn Sie mit vortrainierten Blackbox-Modellen arbeiten.

Die konforme Vorhersage weist mehrere Merkmale auf, die sie breit anwendbar machen. Beispielsweise wird nur verlangt, dass Datenpunkte austauschbar sind, nicht dass sie unabhängig und identisch verteilt sind. Die konforme Vorhersage kann auch auf jedes Vorhersagemodell angewendet werden und ermöglicht es Ihnen, die zulässige Vorhersageunsicherheit eines Modells festzulegen.

Bei einer Regression möchten Sie beispielsweise vielleicht eine Abdeckung von 95 % erreichen, was bedeuten würde, dass das Modell einen Bereich ausgeben sollte, in dem der wahre Wert in 95 % der Fälle in das Ausgabeintervall fällt. Dieser Ansatz ist modellunabhängig und funktioniert gut mit Klassifizierung, linearen Regression, neuronalen Netzen und einer Vielzahl von Zeitreihenmodellen.

Um die konforme Vorhersage zu nutzen, teilen Sie Ihre Daten in drei Sätze auf: einen Trainingssatz, einen Referenztestsatz und einen Kalibrierungssatz. Der Kalibrierungssatz wird verwendet, um die Nichtkonformitätswerte zu berechnen, die oft als si bezeichnet werden. Dieser Wert misst, wie ungewöhnlich eine Vorhersage ist. Bilden Sie bei einer neuen Eingabe ein Vorhersageintervall auf der Grundlage dieser Werte, um die Abdeckung zu gewährleisten.

In einer Klassifizierungsaufgabe ist die konforme Vorhersage der Nichtkonformitätsbewertung ein Maß dafür, wie stark eine neue Instanz von den vorhandenen Instanzen im Trainingssatz abweicht. Dadurch wird festgelegt, ob eine neue Instanz zu einer bestimmten Klasse gehört oder nicht. Bei einer Mehrklassen-Klassifizierung ist dies typischerweise 1 – die vorhergesagte Klassenwahrscheinlichkeit für das jeweilige Label.

 si=1-f(xi)[yi]

Wenn also die vorhergesagte Wahrscheinlichkeit, dass eine neue Instanz zu einer bestimmten Klasse gehört, hoch ist, ist der Nichtkonformitätswert niedrig, und umgekehrt. Ein gängiger Ansatz besteht darin, die si-Werte für jede Instanz im Kalibrierungssatz zu berechnen und die Werte von niedrig (sicher) bis hoch (unsicher) zu sortieren.

Um eine konforme Abdeckung von 95 % zu erreichen, berechnen Sie den Schwellenwert q, bei dem 95 % der si-Werte niedriger sind. Bei neuen Testbeispielen fügen Sie eine Kennzeichnung in den Vorhersagesatz ein, wenn si kleiner als der Schwellenwert q ist.

Wenn Sie eine Garantie für eine konforme Abdeckung Ihres Modells von 95 % benötigen, erhalten Sie für alle Klassen durchschnittliche si-Werte . Dann finden Sie einen Schwellenwert von si-Werten, die 95 % der Daten enthalten. Sie können dann sicher sein, dass Ihr Klassifikator 95 % der neuen Instanzen in allen Klassen korrekt identifiziert.

Dies unterscheidet sich geringfügig von der Genauigkeit des Klassifizierers, da bei der konformen Vorhersage mehrere Klassen identifiziert werden können. In einem Klassifizierer mit mehreren Klassen zeigt die konforme Vorhersage auch die Abdeckung für alle Klassen an. Anstatt für den gesamten Trainingssatz können Sie eine Abdeckungsrate auch für einzelne Klassen zuweisen.

Mixture of Experts | 12. Dezember, Folge 85

KI entschlüsseln: Wöchentlicher Nachrichtenüberblick

Schließen Sie sich unserer erstklassigen Expertenrunde aus Ingenieuren, Forschern, Produktführern und anderen an, die sich durch das KI-Rauschen kämpfen, um Ihnen die neuesten KI-Nachrichten und Erkenntnisse zu liefern.

Anwendungen der Quantifizierung von Unsicherheiten

Die Quantifizierung von Unsicherheiten ist in vielen Bereichen des maschinellen Lernens, der Entwicklung künstlicher Intelligenz und der Informatik wichtig. Hier sind nur einige der gängigsten Anwendungen.

Unsicherheit bei Zeitreihenprognosen

Die Verwaltung und Quantifizierung von Unsicherheiten bei der Zeitreihenprognose ist für die Entscheidungsfindung in den Bereichen Finanzen, Wirtschaft, Wettervorhersagen und Lieferkette von entscheidender Bedeutung. Probabilistische Modelle werden aufgrund ihrer Fähigkeit, Verteilungen anstelle von Einzelpunktschätzungen auszugeben, bevorzugt. Diese Modelle stehen im Gegensatz zu deterministischen Modellen, die nur einen einzigen Wert statt einer Verteilung möglicher Werte ausgeben. Für die Zeitreihenprognose gibt es zahlreiche Wahrscheinlichkeitsmodelle, z. B. ARIMA-Modelle oder Bayessche neuronale Netze.

Die Anpassung eines ARIMA-Modells beginnt mit der Erfassung der autoregressiven (AR) und gleitenden Durchschnitts- (MA) Komponenten und der Sicherstellung der Stationarität durch Differenzierung. Nach der Erstellung von Punktprognosen bewertet das Modell die Restwerte, die die Unterschiede zwischen den beobachteten und den vorhergesagten Werten darstellen. ARIMA verwendet die Standardabweichung der normalverteilten Restwerte, um Vorhersageintervalle um die Punktprognosen herumzukonstruieren.

Grundsätzlich gilt: Je größer das Vorhersageintervall, desto größer die mit der Prognose verbundene Unsicherheit. Diese technische Methe verbessert nicht nur die Genauigkeit von Punktprognosen, sondern liefert auch ein statistisch solides Maß für den Bereich, in den zukünftige Beobachtungen wahrscheinlich fallen werden.

Deep Learning und Unsicherheit

Deep Learning stellt mehrere Herausforderungen für die Quantifizierung von Unsicherheiten dar, da Deep-Learning-Modelle oft eine so hohe Dimensionalität und nicht lineare Beziehungen zwischen den Ebenen des Netzwerks aufweisen. Außerdem gibt es oft erhebliche Rechenbeschränkungen sowohl beim Training als auch beim Bereitstellen dieser Modelle, was die Quantifizierung des Grads der Unsicherheit in jeder Inferenz erschwert.

Mehrere gängige Techniken wurden speziell für tiefe neural networks entwickelt. Zum Beispiel stichprobenbasierte Methoden wie tiefe Ensembles, bei denen mehrere unabhängig trainierte Netzwerke unterschiedliche Initialisierungen oder Datenteilmengen aufweisen. Die Varianz zwischen Ensemble-Vorhersagen kann auf eine Unsicherheit bei der Vorhersage der Architektur selbst hinweisen. Dies ist eine einfache, aber rechenintensive Technik, da das Training mehrerer vollständiger Modelle erforderlich ist.

Eine weitere häufig verwendete Technik ist der Monte-Carlo Dropout, bei dem die Dropout-Schichten während der Inferenz aktiv bleiben.6 Dieser Ansatz führt mehrere Vorwärtsdurchläufe durch, um sich der Bayes'sche Inferenz anzunähern. Jede Dropout-Maske erstellt ein anderes Teilnetz, und die Vorhersagevarianz schätzt die Unsicherheit. Dies lässt sich leicht mit bestehenden Modellen implementieren, da keine Änderungen in der Modellarchitektur erforderlich sind. Anstatt Dropout während des Rückschlusses zu deaktivieren, würden Sie es aktiviert lassen und mehrere Vorwärtsdurchläufe ausführen. Ein ähnlicher Ansatz ist die Batch-Normalisierung von Unsicherheiten, bei der zur Inferenzzeit zufällige Stichproben aus den erlernten Batch-Statistiken verwendet werden, um Vorhersageverteilungen zu erstellen.

Aktives Lernen

Aktives Lernen ist ein skalierbares ML-Paradigma, bei dem der Algorithmus auswählen kann, von welchen Datenpunkten er lernt, anstatt anhand eines festen Datensatzes trainiert zu werden. Ein Lernalgorithmus kann mit weniger gekennzeichneten Beispielen eine bessere Leistung erzielen, wenn er die Daten selbst auswählen darf, aus denen er lernt. Beim traditionellen überwachten Lernen wird davon ausgegangen, dass zu Beginn des Modellentwicklungsprozesses ein großer gekennzeichneter Datensatz zur Verfügung steht. In vielen realen Szenarien sind nicht gekennzeichnete Daten reichlich vorhanden, während gekennzeichnete Daten teuer oder zeitaufwändig sind oder Expertenwissen erfordern. Nach dem Training eines Modells mit dem kleineren gekennzeichneten Datensatz würden Sie das Modell verwenden, um einen großen Pool gekennzeichneter Beispiele zu bewerten. Beim aktiven Lernen werden die „informativsten“ nicht gekennzeichneten Beispiele gemäß einer Akquisitionsstrategie ausgewählt.

Aktive Lernstrategien können Schätzungen der Unsicherheitsquantifizierung verwenden, um zu ermitteln, welche unbeschrifteten Beispiele für die nächste Beschriftung am wertvollsten wären. Die Grundprämisse ist, dass das Modell Labels für Datenpunkte anfordern sollte, an denen es am unsichersten ist, da diese Beispiele wahrscheinlich den größten Informationsgewinn liefern.

Metriken für UQ

Metriken zur Quantifizierung von Unsicherheiten werden häufig zum Vergleich verschiedener Modelle verwendet, die dieselbe Architektur verwenden, und nicht zum Vergleich verschiedener Architekturen oder als absoluter Wert. Einige Arten von Messungen, wie z. B. der erwartete Kalibrierungsfehler, ermöglichen es Ihnen, die Kalibrierung eines bestimmten Modells zu messen.

Wenn Sie jedoch die Kalibrierung des Modells anhand der Testdaten nicht messen, können Sie mehrere komplementäre Metriken verwenden, anstatt sich auf eine einzige Kennzahl zu verlassen, da unterschiedliche Metriken unterschiedliche Aspekte der Unsicherheit erfassen.

Im Allgemeinen lassen sich Metriken für Unsicherheiten in zwei große Kategorien einteilen: richtige Bewertungsregeln und Kalibrierungsmetriken.

Geeignete Bewertungsregeln

Geeignete Bewertungsregeln funktionieren am besten mit probabilistischen Modellen mit natürlichen Unsicherheitsschätzungen, da sie die Abweichung von der wahren Wahrscheinlichkeitsverteilung schätzen. Ein hoher Wert gibt an, dass die vorhergesagte Wahrscheinlichkeit weit von der wahren Wahrscheinlichkeit entfernt ist. Dies liefert eine Metrik zur Bewertung einer probabilistischen Vorhersage oder Forecasting, bei der es sich oft um eine Reihe möglicher Ausgaben und nicht um einen Einzelwert handelt.

Typische Verlustfunktionen wie der mittlere quadratische Fehler weisen einem vorhergesagten Wert und einem beobachteten Wert eine Güte der Anpassung zu. Bewertungsregeln weisen jedoch einer vorhergesagten Wahrscheinlichkeitsverteilung und einem beobachteten Wert eine Bewertung zu.

Negative Log-Likelihood (NLL) ist eine häufig verwendete Methode zur Optimierung von Neural Networks für Klassifizierungsaufgaben. Diese Verlustfunktion kann jedoch auch als Unsicherheitsmetrik verwendet werden. Da NLL direkt misst, wie gut die von einem Modell vorhergesagten Wahrscheinlichkeitsverteilungen mit den beobachteten Ergebnissen übereinstimmen, erfasst es inhärent sowohl die Genauigkeit als auch die Vertrauensqualität von probabilistischen Vorhersagen.

Im Fall eines Klassifikationsmodells, das [0,9, 0,1] für ein binäres Problem vorhersagt, bei dem die wahre Klassenverteilung 60–40 ist, weist dieses Modell im Durchschnitt eine höhere NLL auf. Dies liegt daran, dass NLL das überschätzte zweite Modell stark bestraft, wenn seine zuverlässigen Vorhersagen falsch sind.

Der Brier-Score ist eine weitere richtige Bewertungsregel, die typischerweise für Klassifizierungsaufgaben verwendet wird. Sie wird manchmal gegenüber NLL bevorzugt, da sie streng innerhalb eines Bereichs von 0 bis 1 begrenzt ist und daher numerisch beständiger ist. Es handelt sich um eine umfassende Unsicherheitsmetrik, da sie sowohl bewertet, wie gut die vorhergesagten Wahrscheinlichkeiten mit den beobachteten Häufigkeiten übereinstimmen, als auch, wie sicher die Vorhersagen sind.

Der Continuous Ranked Probability Score (CRPS) ist eine in Bereichen wie Meteorologie, Hydrologie und Klimawissenschaft weit verbreitete Metrik. Der CRPS misst die Diskrepanz zwischen der vorhergesagten kumulativen Verteilungsfunktion (CDF) einer Prognose und einer Schrittfunktion, die das wahre Ergebnis darstellt. Der CRPS quantifiziert die Streuung der Prognoseverteilung um den beobachteten Wert.

Kalibrierungs-Metriken

Kalibrierungsmetriken funktionieren am besten mit vortrainierten Modellen wie Foundation Models oder Large Language Models (LLMs) oder mit Klassifizierungsaufgaben, die eine Softmax-Ausgabe verwenden. Sie helfen, den Unterschied zwischen „wahrer Konfidenz“ und „vorhergesagter Konfidenz“ zu messen. Während eine geeignete Bewertungsregel Verteilungen vergleicht, vergleicht die Kalibrierung die Sicherheit selbst. Wenn die Kalibrierungsmetrik mit 0,6 berechnet wird, sollte dies bedeuten, dass das neuronale Netzwerk bei einer bestimmten Vorhersage zu 60 % sicher ist.7

Ein Modell gilt als kalibriert, wenn seine vorhergesagten Vertrauenswerte die tatsächliche Wahrscheinlichkeit der Korrektur genau widerspiegeln. Formaler bedeutet Kalibrierung, dass von allen Vorhersagen, bei denen das Modell die Konfidenz p ausdrückt, ungefähr der Anteil p korrekt sein sollte. Metriken werden für den gesamten Datensatz berechnet, um verschiedene Wahrscheinlichkeiten zu gruppieren. Im Gegensatz dazu werden bei richtigen Bewertungsregeln individuelle Wahrscheinlichkeiten verglichen.8

Der Expected Calibration Error (ECE) ist eine der am häufigsten verwendeten Metriken. Er unterteilt Vorhersagen anhand von Konfidenzniveaus in Klassen und misst die durchschnittliche Differenz zwischen Konfidenz und Genauigkeit innerhalb jeder Klasse. Ein typischer Ansatz verwendet 10–15 gleichmäßig verteilte Klassen, die zur Berechnung des Mittelwerts der vorhergesagten Wahrscheinlichkeiten in dieser Klasse und des Anteils der Vorhersagen verwendet werden, die in dieser Klasse tatsächlich korrekt waren.

Ein perfekt kalibriertes Modell sollte in 90 % der Fälle korrekt sein, wenn es eine Konfidenz von 90 % aufweist. Der ECE misst dies, indem sie einen Wert von 0 (perfekte Kalibrierung) bis 1 (schlechteste mögliche Kalibrierung) zurückgibt. Die Metrik behandelt Über- und Unterkonfidenz gleichermaßen, da die Metrik einen absoluten Wert hat. Diese Methode ist am hilfreichsten, wenn Sie Modelle miteinander vergleichen möchten, anstatt eine Metrik isoliert auf ein bestimmtes Modell anzuwenden.

Der maximale Kalibrierungsfehler (Maximum Calibration Error, MCE) misst den Worst-Case-Kalibrierungsfehler, indem die maximale Differenz zwischen Konfidenz und Genauigkeit über alle Bins hinweg und nicht der Durchschnitt verwendet wird. Dies bietet Erkenntnis in die am schlechtesten kalibrierten Bereichen.

Der Adaptive Calibration Error (ACE) berücksichtigt die Einschränkungen des festen Binnings durch adaptive Binning-Strategien, die sicherstellen, dass jeder Bin ungefähr die gleiche Anzahl von Proben enthält, und so insbesondere bei begrenzten Daten zuverlässigere Schätzungen liefern.

Weitere Lösungen
IBM watsonx.ai

Trainieren, validieren, optimieren und implementieren Sie generative KI, Foundation Models und maschinelle Lernfunktionen mit IBM watsonx.ai, einem Studio der nächsten Generation für AI Builder in Unternehmen. Erstellen Sie KI-Anwendungen mit einem Bruchteil der Zeit und Daten.

Entdecken sie watsonx.ai
Lösungen im Bereich künstlicher Intelligenz

Setzen Sie KI in Ihrem Unternehmen ein – mit branchenführendem Fachwissen im Bereich KI und dem Lösungsportfolio von IBM an Ihrer Seite.

Erkunden Sie KI-Lösungen
KI-Beratung und -Services

Erfinden Sie kritische Workflows und Abläufe neu, indem Sie KI einsetzen, um Erfahrungen, Entscheidungsfindung in Echtzeit und den geschäftlichen Nutzen zu maximieren.

KI-Services entdecken
Machen Sie den nächsten Schritt

Profitieren Sie von einem einheitlichen Zugriff auf Funktionen, die den gesamten Lebenszyklus der KI-Entwicklung abdecken. Erstellen Sie leistungsstarke KI-Lösungen mit benutzerfreundlichen Oberflächen, Workflows und Zugriff auf branchenübliche APIs und SDKs.

watsonx.ai erkunden Live-Demo buchen
Fußnoten

1. Box, G. E. P. (1976). Science and statistics. Journal of the American Statistical Association, 71(356), 791–799. https://doi.org/10.1080/01621459.1976.10480949

2. Gal, Y., Ghahramani, Z. und University of Cambridge. (2016). Dropout as a Bayesian approximation: representing model uncertainty in deep learning. In: Proceedings of the 33rd International Conference on Machine Learning.

3. Angelopoulos, AN, & Bates, S. (2021, 15. Juli). Eine sanfte Einführung in die konforme Vorhersage und die Quantifizierung der verteilungsfreien Unsicherheit. arXiv.org. https://arxiv.org/abs/2107.07511

4. Lakshminarayanan, B., Pritzel, A. und Blundell, C. (5. Dezember 2016). Simple and Scalable Predictive Uncertainty Estimation using Deep Ensembles. arXiv.org. https://arxiv.org/abs/1612.01474

5. Williams, CKI, Neural Computing Research Group, Rasmussen, CE, Department of Computer Science, & University of Toronto. (1996). Gaußsche Prozesse für Regression. https://proceedings.neuips.cc/paper_files/paper/1995/file/7cce53cf90577442771720a370c3c723-Paper.pdf

6. Wang, C. (2. August 2023). Calibration in Deep Learning: A Survey of the State-of-the-Art. arXiv.org. https://arxiv.org/abs/2308.01222

7. Guo, C., Pleiss, G., Sun, Y. und Weinberger, K. Q. (2017). On calibration of modern neural networks. International Conference on Machine Learning, 1321–1330. https://proceedings.mlr.press/v70/guo17a/guo17a.pdf

8. Nixon, J., Dusenberry, M. W., Zhang, L., Jerfel, G. und Tran, D. (2019). Measuring calibration in deep learning. Computer Vision and Pattern Recognition, 38–41. https://openaccess.thecvf.com/content_CVPRW_2019/papers/Uncertainty and Robustness in Deep Visual Learning/Nixon_Measuring_Calibration_in_Deep_Learning_CVPRW_2019_paper.pdf