Es gibt zwei Hauptarten von Unsicherheit: datengestützte Unsicherheit und modellgesteuerte Unsicherheit. In beiden Fällen kann es hilfreich sein, zu wissen, wie zuverlässig eine Vorhersage ist, sowohl bevor als auch nachdem sie getroffen wurde.
Man kann sich das wie ein Modell vorstellen, das vorhersagt, wie oft ein Türscharnier geöffnet und geschlossen werden kann, bevor es versagt, und zwar auf ungefähr etwa 1.000 Betätigungen. Es kann auch zeigen, wie wahrscheinlich es ist, dass dieses Mal das Türscharnier bricht.
Sampling-basiert Methoden
Stichprobenbasierte Ansätze gehören zu den am häufigsten verwendeten Techniken zur Quantifizierung von Unsicherheiten, da sie jede Art von Modellkomplexität bewältigen können und eine intuitive, umfassende Charakterisierung der Unsicherheit ermöglichen. Durch die Generierung vieler möglicher Szenarien kann die Stichprobe ein statistisches Bild davon erstellen, welche Ergebnisse wahrscheinlich sind und wie unsicher unsere Vorhersagen sind, wenn sie auf reale Daten angewendet werden. Anstatt die Unsicherheit analytisch zu berechnen, verwenden diese Methoden eine statistische Analyse vieler Stichproben, um Unsicherheitsverteilungen zu charakterisieren.
Die Monte-Carlo-Simulation ist einer der gängigsten Ansätze. Dabei werden Tausende von Modellsimulationen mit zufällig unterschiedlichen Eingaben durchgeführt, um die Bandbreite der möglichen Outputs zu ermitteln. Dies ist besonders häufig bei parametrischen Modellen der Fall, bei denen die Zuverlässigkeitsintervalle und Modellausgaben verschiedener Modelle verglichen werden, um die Bandbreite aller möglichen Werte zu ermitteln.
Eine Variante der Monte-Carlo-Simulation, die Latin Hypercube Sampling genannt wird, ist eine effizientere Version, die weniger Durchläufe erfordert und dennoch den Eingaberaum gut abdeckt.
Monte-Carlo Dropout ist eine weitere Technik, bei der der Dropout während der Vorhersage aktiv bleibt und mehrere Vorwärtsdurchläufe durchgeführt werden, um eine Verteilung der Ausgaben zu erhalten.2 Dropout wird in erster Linie als Regularisierungstechnik verwendet, eine Methode, die zur Feinabstimmung von Modellen für maschinelles Lernen eingesetzt wird. Ziel ist es, die angepasste Verlustfunktion zu optimieren und gleichzeitig die Probleme der Über- oder Unteranpassung zu vermeiden.
Monte-Carlo Dropout wendet ein Dropout zur Testzeit an und führt mehrere Vorwärtsdurchläufe mit unterschiedlichen Dropout-Masken durch. Dadurch erzeugt das Modell eine Verteilung von Vorhersagen und keine Einzelpunktschätzung. Die Verteilung gibt Erkenntnis über die Unsicherheit des Modells bei Vorhersagen. Es handelt sich um eine rechnerisch effiziente Technik, um neuronale Netze Ausgaben zu bringen, ohne dass die Netze mehrfach trainiert werden müssen.
Wenn das aktuelle Modell oft zu teuer ist, erstellen Statistiker vereinfachte „Ersatzmodelle“, indem sie Techniken wie die Gauß-Prozess-Regression verwenden.5 Die Gauß-Prozess-Regression ist ein Bayes'scher Ansatz zur Modellierung der Sicherheit von Vorhersagen, der es zu einem wertvollen Werkzeug für die Optimierung, die Zeitreihen-Prognose und andere Anwendungen macht. GPR basiert auf dem Konzept eines „Gaußschen Prozesses“, bei dem es sich um eine Sammlung von Zufallsvariablen handelt, die eine gemeinsame Gaußsche Verteilung haben.
Sie können sich einen Gaußschen Prozess als eine Verteilung von Funktionen vorstellen. GPR platziert eine A-priori-Verteilung über Funktionen und verwendet dann beobachtete Daten, um eine A-posteriori-Verteilung zu erstellen. Die Verwendung von GPR zur Berechnung von Unsicherheiten erfordert kein zusätzliches Training oder Modellläufe, da die Ausgabe durch die Verteilung von Natur aus ausdrückt, wie sicher oder unsicher das Modell bezüglich der Schätzung ist. Bibliotheken wie Scikit-learn bieten Implementierungen von GPR für die Unsicherheitsanalyse.
Die Wahl der Stichprobenmethode hängt davon ab, welche Funktionen für Ihr Modell und Szenario am wichtigsten sind. Die meisten realen Anwendungen kombinieren mehrere Ansätze.
Bayes-Methoden
Die Bayes'sche Statistik ist ein Ansatz zur statistischen Inferenz, bei dem der Satz von Bayes verwendet wird, um frühere Annahmen mit beobachteten Daten zu kombinieren und die Wahrscheinlichkeit einer Hypothese zu aktualisieren. Die Bayes'sche Statistik befasst sich explizit mit der Unsicherheit, indem sie eine Wahrscheinlichkeitsverteilung anstelle eines einzelnen festen Werts zuweist. Anstatt eine einzige „beste“ Schätzung für einen Modellparameter zu geben, liefern Bayes-Methoden eine Verteilung der Wahrscheinlichkeit möglicher Schätzungen.
Die Bayes'sche Inferenz aktualisiert die Vorhersagen, sobald neue Daten verfügbar werden, wodurch natürlich Unsicherheiten während des gesamten Prozesses der Schätzung von Kovariaten berücksichtigt werden. Markow-Chain-Monte-Carlo-Verfahren (MCMC-Methode) helfen bei der Implementierung von Bayes'schen Ansätzen, wenn die mathematischen Lösungen komplex sind. Der MCMC-Ansatz wählt Stichproben aus komplexen, hochdimensionalen Wahrscheinlichkeitsverteilungen, die nicht direkt erprobt werden können, insbesondere A-posteriori-Verteilungen bei der Bayes'schen Inferenz.
Bayessche neuronale Netze (BNNs) sind eine Abkehr von den herkömmlichen neuronalen Netzen, die Netzgewichte als Wahrscheinlichkeitsverteilungen und nicht als Festpunktschätzungen behandeln. Dieser probabilistische Ansatz ermöglicht eine prinzipielle und strikte Quantifizierung von Unsicherheiten. Anstelle von Einzelpunktschätzungen für die Gewichtungen werden dabei Wahrscheinlichkeitsverteilungen über alle Netzwerkparameter hinweg beibehalten. Zu den Vorhersagen gehören in der Regel:
- Mittelwert- und Abweichungsschätzungen für die Vorhersageverteilung vornehmen
- Stichproben aus der Vorhersageverteilung
- glaubwürdige Intervalle, die aus der Verteilung abgeleitet werden
Es gibt mehrere beliebte Open-Source-Bibliotheken zur Implementierung von BNNs wie PyMC oder Tensorflow-Probability.
Ensemble-Methoden
Die Kernidee hinter der Unsicherheitsquantifizierung auf Basis von Ensembles ist, dass wenn mehrere unabhängig voneinander trainierte Modelle bei einer Vorhersage zu unterschiedlichen Ergebnissen kommen, diese Diskrepanz auf Unsicherheit hinsichtlich der richtigen Antwort hindeutet..4 Wenn hingegen alle Modelle im Ensemble übereinstimmen, deutet dies auf eine höhere Zuverlässigkeit der Vorhersage hin. Diese Intuition führt zu konkreten Unsicherheitsmaßen durch die Varianz oder Streuung von Ensemble-Vorhersagen.
Wenn f₁, f₂, ..., fₙ die Schätzer von N Ensemblemitgliedern für die Eingabe x darstellen, kann die Unsicherheit wie folgt quantifiziert werden:
mit f̄(x) als Mittelwert des Ensembles. Das Trainieren mehrerer unterschiedlicher Modelle (unterschiedliche Architekturen, Trainingsdatensätze oder Initialisierungen) und das Kombinieren ihrer Vorhersagen. Der größte Nachteil dieses Ansatzes sind die Rechenkosten: Er erfordert das Training und die Ausführung mehrerer Modelle.
Konforme Vorhersage
Die konforme Vorhersage ist eine Technik zur Quantifizierung von Unsicherheiten. Sie bietet ein verteilungsfreies, modellunabhängiges Framework für die Erstellung von Vorhersageintervallen (für Regressionsszenarien) oder Vorhersagesätzen (für Anwendungen).3 So werden valide Abdeckungsgarantien mit minimalen Annahmen über das Modell oder die Daten ermöglicht. Dies macht die konforme Vorhersage besonders hilfreich, wenn Sie mit vortrainierten Blackbox-Modellen arbeiten.
Die konforme Vorhersage weist mehrere Merkmale auf, die sie breit anwendbar machen. Beispielsweise wird nur verlangt, dass Datenpunkte austauschbar sind, nicht dass sie unabhängig und identisch verteilt sind. Die konforme Vorhersage kann auch auf jedes Vorhersagemodell angewendet werden und ermöglicht es Ihnen, die zulässige Vorhersageunsicherheit eines Modells festzulegen.
Bei einer Regression möchten Sie beispielsweise vielleicht eine Abdeckung von 95 % erreichen, was bedeuten würde, dass das Modell einen Bereich ausgeben sollte, in dem der wahre Wert in 95 % der Fälle in das Ausgabeintervall fällt. Dieser Ansatz ist modellunabhängig und funktioniert gut mit Klassifizierung, linearen Regression, neuronalen Netzen und einer Vielzahl von Zeitreihenmodellen.
Um die konforme Vorhersage zu nutzen, teilen Sie Ihre Daten in drei Sätze auf: einen Trainingssatz, einen Referenztestsatz und einen Kalibrierungssatz. Der Kalibrierungssatz wird verwendet, um die Nichtkonformitätswerte zu berechnen, die oft als si bezeichnet werden. Dieser Wert misst, wie ungewöhnlich eine Vorhersage ist. Bilden Sie bei einer neuen Eingabe ein Vorhersageintervall auf der Grundlage dieser Werte, um die Abdeckung zu gewährleisten.
In einer Klassifizierungsaufgabe ist die konforme Vorhersage der Nichtkonformitätsbewertung ein Maß dafür, wie stark eine neue Instanz von den vorhandenen Instanzen im Trainingssatz abweicht. Dadurch wird festgelegt, ob eine neue Instanz zu einer bestimmten Klasse gehört oder nicht. Bei einer Mehrklassen-Klassifizierung ist dies typischerweise 1 – die vorhergesagte Klassenwahrscheinlichkeit für das jeweilige Label.
Wenn also die vorhergesagte Wahrscheinlichkeit, dass eine neue Instanz zu einer bestimmten Klasse gehört, hoch ist, ist der Nichtkonformitätswert niedrig, und umgekehrt. Ein gängiger Ansatz besteht darin, die si-Werte für jede Instanz im Kalibrierungssatz zu berechnen und die Werte von niedrig (sicher) bis hoch (unsicher) zu sortieren.
Um eine konforme Abdeckung von 95 % zu erreichen, berechnen Sie den Schwellenwert q, bei dem 95 % der si-Werte niedriger sind. Bei neuen Testbeispielen fügen Sie eine Kennzeichnung in den Vorhersagesatz ein, wenn si kleiner als der Schwellenwert q ist.
Wenn Sie eine Garantie für eine konforme Abdeckung Ihres Modells von 95 % benötigen, erhalten Sie für alle Klassen durchschnittliche si-Werte . Dann finden Sie einen Schwellenwert von si-Werten, die 95 % der Daten enthalten. Sie können dann sicher sein, dass Ihr Klassifikator 95 % der neuen Instanzen in allen Klassen korrekt identifiziert.
Dies unterscheidet sich geringfügig von der Genauigkeit des Klassifizierers, da bei der konformen Vorhersage mehrere Klassen identifiziert werden können. In einem Klassifizierer mit mehreren Klassen zeigt die konforme Vorhersage auch die Abdeckung für alle Klassen an. Anstatt für den gesamten Trainingssatz können Sie eine Abdeckungsrate auch für einzelne Klassen zuweisen.