Vogelperspektive auf Äpfel, die durch eine Verarbeitungsanlage transportiert werden, im Vordergrund eine Hand, die einen einzelnen Apfel hält

Was ist Modellevaluierung?

By David Zax

Veröffentlicht 10. März 2026

Modellevaluierung, definiert

Modellevaluierung bezeichnet den Prozess, bei dem die Leistung eines Modells für maschinelles Lernen überprüft wird. Dieser Prozess wirft folgende Frage auf: Wenn Ihr Modell eine Einschätzung der realen Welt vornimmt, wie oft liegt es damit richtig? Oder, bei Fällen, die in einem Spektrum liegen: Wie nah war es an der richtigen Antwort?

Die Kosten einer falschen Entscheidung

Da Unternehmen zunehmend auf KI-Modelle setzen, stehen immer mehr echte finanzielle Interessen auf dem Spiel. Im Februar 2021 gingen Führungskräfte bei Zillow ein großes Risiko ein, das auf ihren Machine-Learning-Modellen beruhte, welche den Wert von Immobilien prognostizierten. Zillow erstellte nicht nur diese Schätzungen, sondern kaufte die von seinem Modell bewerteten Immobilien oft selbst über ein verbundenes Unternehmen namens „Zillow Offers“ auf.

Nur acht Monate später stellte Zillow Zillow Offers ein und nahm eine Wertberichtigung auf den Bestand in Höhe von 304 Millionen US-Dollar vor. Als Grund nannte das Unternehmen, dass es viele Immobilien zu Preisen gekauft habe, die über dem lagen, was es für deren Verkaufspreis veranschlagt hatte. Die Aktien des Unternehmens brachen ein, und Zillow entließ etwa 25 % seiner Belegschaft.

Wer hatte die Schuld? Das KI-Modell war nicht präzise genug, um die bevorstehende Marktentwicklung zu bewältigen. Seine Vorhersagen und Prognosen stimmten nicht mit den tatsächlichen Werten der Häuser überein.¹

Da sich ML-Modelle zunehmend in den Bereichen Gesundheitswesen, Personalbeschaffung und Strafrecht durchsetzen, können die Folgen einer mangelhaften Bewertung echten Menschen echten Schaden zufügen. Sowohl in der Datenwissenschaft als auch in der Industrie ist die richtige Wahl der Metriken für Modelle zu einem wichtigen Bestandteil der verantwortungsvollen Bereitstellung von KI geworden.

Die neuesten KI-Trends, präsentiert von Experten

Erhalten Sie kuratierte Einblicke in die wichtigsten – und faszinierendsten – KI-Neuheiten. Abonnieren Sie unseren wöchentlichen Think-Newsletter. Weitere Informationen in der IBM Datenschutzerklärung.

Arten von Modellen und Metriken

Verschiedene Modelle sind für unterschiedliche Zwecke konzipiert.

Klassifikationsmodelle ordnen eingehende Daten einer von mehreren Kategorien zu. (Ein Modell, das einen Patienten als an Sepsis erkrankt oder nicht erkrankt kennzeichnet, ist ein Klassifikationsmodell.)

Regressionsmodelle geben hingegen einen Wert auf einem Kontinuum aus. (Das Immobilienpreismodell von Zillow war ein Regressionsmodell.)

Die verschiedenen Modelltypen erfordern unterschiedliche Arten von Tests. Häufig ist eine Triangulation der Leistung anhand mehrerer Metriken ideal, da keine einzelne Metrik völlig frei von Unsicherheiten ist.

Klassifikationsmodelle und -metriken

Einige Modelle befassen sich mit „Klassifizierungsproblemen“, das heißt, sie unterteilen die Welt in Kategorien. Klassifizierungsmetriken sind ähnlich pauschal.Die Modellgenauigkeit ist recht intuitiv: Man nimmt die Anzahl der korrekten Vorhersagen und dividiert diese durch die Gesamtzahl. (Im maschinellen Lernen bezieht sich der Begriff „Vorhersage“ auf die fundierten Vermutungen, die Modelle anstellen – auch wenn sich diese Vermutung auf etwas bezieht, das gerade jetzt geschieht, und nicht auf die Zukunft.)

Das Problem bei der Modellgenauigkeit besteht darin, dass ein hoher Wert bei den Stakeholdern ein falsches Gefühl der Sicherheit hervorrufen kann. Ein Modell, das dazu dient, ein seltenes, aber katastrophales Ereignis (z. B. eine bestimmte Krebsart) zu erkennen, könnte reflexartig jeden Befund als negativ einstufen. Es würde eine hohe Modellgenauigkeit erzielen, da 99,99 % dieser negativen Befunde korrekt wären. Doch diese hohe Genauigkeit wäre ein schwacher Trost für den armen Patienten, der das seltene falsch-negative Ergebnis erhalten hat. Das Modell war im technischen Sinne genau, hat aber seine Aufgabe nicht erfüllt.

Es ist sinnvoll, die Leistung eines Klassifikationsmodells nach den Typen von Vorhersagen oder fundierten Schätzungen zu unterteilen, die es liefert. Bei einer binären Klassifizierungsaufgabe – wie beispielsweise der Krebserkennung – gibt es vier mögliche Ergebnisse (wenn diese in einem 2×2-Raster angeordnet sind, wird dieses Framework oft als „Verwechslungsmatrix“ bezeichnet):

Echte Positive (Krebs wurde korrekt erkannt)
Echte Negative (Krebs wurde korrekt ausgeschlossen)
Falsch-Positive (Krebs wurde erkannt, dies war jedoch ein Fehler)
Falsch-Negative (Krebs wurde nicht erkannt, dies war jedoch falsch)

Man erkennt bereits, warum es sich lohnt, diese Kategorien zu unterscheiden. Eine falsch-positive Krebsdiagnose wäre zweifellos traumatisch, bis weitere Untersuchungen zeigen würden, dass es sich lediglich um einen medizinischen Fehlalarm handelt. Ein falsch-negatives Ergebnis kann jedoch tödlich sein.

Datenwissenschaftler haben eine Reihe von Teilkennzahlen entwickelt, um die Leistung von Klassifikatoren zu untersuchen und die Beziehungen zwischen den Quadranten der Verwechslungsmatrix zu bewerten.

Die als Präzision bezeichnete Metrik fragt: Wie viele der positiven Vorhersagen, die ein Klassifikator getroffen hat, waren korrekt?

Ein im Fahrzeug installierter Bilderkennungsalgorithmus durchfährt 10 Kreuzungen auf einer Teststrecke, von denen sechs mit Stoppschildern ausgestattet sind. Zu behaupten, ein Modell habe „alle sechs Stoppschilder erkannt“, würde jedoch wesentliche potenzielle Unterschiede in der Genauigkeit außer Acht lassen. Hätte es alle sechs korrekt erkannt und keine Fehlalarme ausgelöst, so hätte es eine Präzision von 6/6 bzw. 100 % aufgewiesen. Wenn es jedoch diese sechs erkannt, aber zusätzlich vier Stoppschilder „gesehen“ hat, die gar nicht vorhanden waren, betrug seine Genauigkeit nur 6/10 oder lediglich 60 %.

Die als Recall bezeichnete Metrik (auch als „True Positive Rate“ bekannt) misst etwas, das sich subtil davon unterscheidet. Recall fragt: Wie viele der tatsächlich vorhandenen Stoppschilder hat das Modell erkannt?

Stellen Sie sich eine weitere Teststrecke mit 100 Kreuzungen vor, von denen 50 mit Stoppschildern ausgestattet sind. Ein Modell, das 30 dieser Stoppschilder erkennt, hätte einen Recall von 60 %; bei 40 Stoppschildern wären es 80 % und so weiter. (Der Recall berücksichtigt keine Fehlalarme, sodass man theoretisch einen Recall von 100 % „erzielen“ könnte, indem man einem Modell beibringt, überall Stoppschilder zu erkennen.)

Diese beiden Metriken, Präzision und Recall, stehen in einem Spannungsverhältnis zueinander. Ein Entwickler, der den Recall verbessern möchte, könnte dabei über das Ziel hinausschießen und ein Modell erstellen, das zu häufig falsche-positive Ergebnisse liefert. Häufig läuft die Feinabstimmung eines Modells darauf hinaus, einen Kompromiss zwischen einem höheren Recall (Erfassung aller zu erkennenden Phänomene) und einer geringeren Präzision (Verfehlen des Ziels und Erfassung falscher positiver Ergebnisse) zu finden.

Um diesen Konflikt zu bewältigen, verwenden Fachleute im Bereich des maschinellen Lernens häufig eine Metrik namens F1-Score, bei der es sich um einen „harmonischen Mittelwert“ aus Präzision und Recall handelt. (Ein harmonischer Mittelwert unterscheidet sich vom herkömmlichen Durchschnitt dadurch, dass er überproportional stark von niedrigen Werten beeinflusst wird. Ein F1-Score sinkt daher schnell, wenn entweder die Präzision oder der Recall niedrig ist.)

Ein perfekter F1-Wert wäre 1,0, doch leider gibt es keine allgemeingültige Richtlinie dafür, was als ausreichend hoher F1-Wert gilt, da der Kontext eine große Rolle spielt.² Klar ist jedoch, dass ein höherer F1-Wert besser ist. Je näher der Wert an 1,0 liegt, desto besser kann dieses Modell das, was es erkennen soll, effektiv erkennen und gleichzeitig Fehlalarme und Fehlentscheidungen minimieren.³

Klassifizierungsmetriken in Bezug auf Konfidenz und Schwellenwerte

Im Bereich der Klassifikationsmetriken beziehen sich zwei Metriken auf die miteinander verbundenen Konzepte von Konfidenz und Schwellenwerten.

Ein Modell gibt nicht einfach nur „Stoppschild“ oder „Kein Stoppschild“ aus. Vielmehr sagt es etwa: „Die Wahrscheinlichkeit, dass es sich um ein Stoppschild handelt, liegt bei 98 %“ (eine Vorhersage mit sehr hoher Sicherheit). Oder es heißt: „Es besteht eine Wahrscheinlichkeit von 51%, dass dies ein Stoppschild ist“ (eine nicht sehr sichere Vorhersage).

Die als Log-Loss bezeichnete Metrik dient dazu, die Zuverlässigkeit eines Modells zu bewerten. Fehler mit hoher Konfidenz werden stark bestraft. Eine geringe Konfidenz bei korrekten Vorhersagen wird ebenfalls bestraft, wenn auch in geringerem Maße. Ein perfektes Modell würde beim Log-Loss einen Wert von 0 erzielen, was jedoch nur selten erreicht wird. Was als „gutes“ Ergebnis gilt, hängt wiederum von Ihrem Modell und der Art der Aufgabe ab.

Unabhängig davon, wie hoch der Konfidenzwert eines Modells ist, müssen die menschlichen Nutzer von ML-Modellen letztendlich einen Schwellenwert festlegen, um die Vermutungen des Modells in endgültige Ja-oder-Nein-Entscheidungen umzuwandeln. Ein solcher Schwellenwert könnte die Regel festlegen: „Wenn die Konfidenz >75 % beträgt, dann geben Sie ‚Ja, ein Stoppschild‘ aus.“ Ein menschlicher Nutzer könnte aber genauso gut einen Schwellenwert von 51 % oder 98 % Konfidenz wählen. Die daraus resultierenden Ausgaben des Modells können natürlich stark variieren, je nachdem, welcher Schwellenwert gewählt wird.

Eine ROC-Kurve (nach dem Fachbegriff „Receiver Operating Characteristic“) und die damit verbundene Metrik ROC-AUC (oder „Fläche unter der Kurve“) dienen dazu, die Leistungsfähigkeit des Modells bei vielen verschiedenen Schwellenwerten zu untersuchen. Technisch gesehen stellt eine ROC-Kurve die True-Positive-Rate (TPR) in Abhängigkeit von der False-Positive-Rate (FPR) dar, während der Schwellenwert variiert. Konzeptionell lässt die ROC-AUC Ermessensentscheidungen bei einem bestimmten Schwellenwert außer Acht und beobachtet stattdessen insgesamt, ob ein Modell gut sortieren kann: „Unabhängig davon, wo wir den Schwellenwert festlegen: Gibt das Modell zumindest konsistent höhere Konfidenzwerte aus, wenn tatsächlich Stoppschilder vorhanden sind?“ Die ROC-AUC fasst diese allgemeine Fähigkeit zusammen, positive von negativen Ergebnissen zu unterscheiden.

AI Academy

Warum Foundation Models einen Paradigmenwechsel für die KI bedeuten

Erfahren Sie mehr über eine neue Klasse flexibler, wiederverwendbarer KI-Modelle, die neue Einnahmen erschließen, Kosten senken und die Produktivität steigern können. Dann nutzen Sie unseren Leitfaden, um mehr zu erfahren.

Zur Episode wechseln

Regressionsmodelle und -metriken

Im vorangegangenen Abschnitt wurden „Klassifizierungsprobleme“ behandelt, bei denen ein Phänomen (sei es ein Stoppschild oder Krebs) eindeutig vorhanden ist oder nicht. Viele Phänomene (Immobilienwerte, der Blutzuckerspiegel eines Patienten) treten jedoch in einem Spektrum auf, was unterschiedliche Modelle und unterschiedliche Leistungskennzahlen erfordert. Modelle, die diese Phänomene behandeln, liefern Zahlen statt Kategorien als Ergebnis. Sie werden als Regressionsmodelle bezeichnet und anhand von Regressions-Metriken bewertet, die auf verschiedene Weise die Frage stellen: „Wie weit liegt diese Zahl vom Zielwert entfernt?“

Der mittlere absolute Fehler (MAE) besagt: „Wie groß war im Durchschnitt die Abweichung?“ Wenn ein Modell in dieser Woche davon ausgeht, dass ein Haus für 500.000 USD verkauft wird, es sich jedoch für 525.000 USD verkauft, und wenn es in der nächsten Woche davon ausgeht, dass ein Haus für 400.000 USD verkauft wird, es sich jedoch für 390.000 USD verkauft, beträgt sein MAE 17.500 USD (25.000 + 10.000, geteilt durch 2). Der MAE berücksichtigt nicht, ob ein Modell in seinen Vorhersagen durchweg zu hoch oder zu niedrig liegt. Er betrachtet lediglich die durchschnittliche Abweichung vom tatsächlichen Wert.

Der quadratische Mittelwertfehler (RMSE) ist ähnlich, bewertet jedoch Zahlen, die weit vom Zielwert entfernt sind, strenger. Dies wird erreicht, indem die Fehler quadriert werden – wodurch große Fehler noch größer werden –, bevor die Quadratwurzel des daraus resultierenden Durchschnittswerts gebildet wird. Der RMSE im vorigen Beispiel beträgt 19.039 USD. (Der damit verbundene MSE, also der mittlere quadratische Fehler, funktioniert ähnlich, jedoch ohne die Quadratwurzel, was ihn weniger interpretierbar, aber manchmal mathematisch nützlich macht.) Der RMSE ist nützlich, wenn große Fehler besonders kostspielig sind.

Eine weniger intuitive Metrik ist R-Quadrat. Es misst nicht, wie weit die Vorhersagen eines Modells von der Realität abgewichen sind, sondern vielmehr, wie viel von der Gesamtvariation der Zielvariablen das Modell erklären konnte.

Um ein Gefühl für den R-Quadrat-Wert zu bekommen, stellen Sie sich zunächst ein vereinfachtes Modell für Immobilienpreise vor, das für jedes einzelne Haus denselben Wert ausgibt: den Durchschnittspreis für die Region. Der R-Quadrat-Wert fragt: Um wie viel besser ist unser Modell als die reine Durchschnittsschätzung? Je besser das Modell die Streuung der tatsächlichen Preise erfasst, desto höher ist sein R-Quadrat-Wert. (Ein R-Quadrat von 0,85 bedeutet, dass das Modell etwa 85 % der Streuung im Ergebnis erklärt; ein R-Quadrat von 0 bedeutet, dass es nicht besser ist als das Modell, das nur Durchschnittswerte ausgibt.)

Wie alle Metriken ist auch das R-Quadrat nicht perfekt. Es ist besonders schwach bei Daten, die Ausreißer enthalten.

Herausforderungen und Probleme bei der Modellbewertung

Nicht jeder Schüler, der eine Prüfung besteht, hat den Stoff auch wirklich verstanden. Möglicherweise hat der Schüler zwar Lernkarten auswendig gelernt, die Konzepte jedoch nicht verinnerlicht. Möglicherweise hat der Schüler geschummelt, indem er die Prüfungsfragen irgendwie im Voraus gesehen hat. Vielleicht hatte der Schüler auch einfach nur Glück. Das Gleiche gilt für Modelle des maschinellen Lernens.

Wenn die Daten begrenzt sind

Ein grundlegender Fehler bei der Bewertung von Modellen des maschinellen Lernens wäre es, das Modell anhand derselben Daten zu testen, die für das Modelltraining verwendet wurden. Das Modell könnte zwar sehr gute Ergebnisse liefern, jedoch lediglich, weil es sich die Daten im Grunde genommen eingeprägt hat. Es ist ihm nicht gelungen, Erkenntnisse über das zugrunde liegende Phänomen, das es erkennen soll, zu verallgemeinern, und es wird wahrscheinlich versagen, wenn es in der realen Welt auf neue Daten trifft. Der Fachbegriff für dieses auswendiglernähnliche Verhalten lautet Überanpassung.

Die übliche Vorsichtsmaßnahme wird als „Train-Test-Split“ bezeichnet: Man unterteilt die verfügbaren Daten in einen Teil, aus dem das Modell lernen darf (Trainingsdaten), und einen anderen Teil, den es erst bei der Prüfung einsehen darf (den Testdatensatz). Doch auch diese Sicherheitsmaßnahme kann zu unvollkommenen Ergebnissen führen, da eine ungünstige Aufteilung die Testergebnisse des Modells verfälschen kann. Darüber hinaus besteht bei begrenzten Datenmengen ein schwieriger Kompromiss zwischen der Verwendung der Daten für das Training und ihrer Aufbewahrung für den Test.

ML-Praktiker gehen diese Probleme mit Kreuzvalidierung an. Bei der Kreuzvalidierung wird ein Datensatz in sogenannte Folds unterteilt. Die meisten Folds werden zum Trainieren des Modells verwendet, während einer für dessen Testung reserviert ist. Anschließend wird der Vorgang mit einer neuen Kopie des Modells wiederholt, wobei die Folds rotiert werden; nun dient ein anderer Fold als Testdatensatz. Die Testergebnisse aus diesen verschiedenen Durchläufen werden gemittelt. Dieser Ansatz liefert eine stabilere Schätzung darüber, wie gut das Modell bei neuen Daten voraussichtlich abschneiden wird, und ermöglicht gleichzeitig eine effizientere Nutzung eines begrenzten Datensatzes (da jeder Datenpunkt in einem Kontext zum Trainieren und in einem anderen zum Testen verwendet werden kann).

Sollte letztendlich keines der in Frage kommenden Modelle eine zufriedenstellende Leistung erbringen, könnten Praktiker versuchen, die Hyperparameter anzupassen – also integrierte Einstellungen wie die Modelltiefe oder die Lernrate zu ändern –, um zu prüfen, ob sich die Leistung dadurch verbessert.

In Python lassen sich Bibliotheken wie scikit-learn zur einfachen Implementierung der Kreuzvalidierung nutzen, was ein Grund dafür ist, dass diese Methode zum Standard geworden ist.

Wenn die „richtige Antwort“ nicht klar ist

Manchmal ist die sogenannte „Ground Truth“ eindeutig: Der Patient hat Krebs oder eben nicht; das Haus wurde für diesen oder jenen Betrag verkauft. Mit dem Aufkommen von Large Language Models (LLMs) ist die Modellleistung jedoch oft weniger eindeutig oder schwer zu messen.

Ein auf einem LLM basierender Chatbot könnte mit binären Aufgaben konfrontiert werden, beispielsweise ob er Fakten richtig oder falsch wiedergibt. Sein Nutzer kann ihn jedoch auch anhand vieler verschiedener, schwer zu definierender Aspekte bewerten, wie Freundlichkeit oder Hilfsbereitschaft. In solchen Fällen gibt es keine einzige richtige Antwort, keine „wahren Werte“, an denen man sich orientieren könnte. Die manuelle Bewertung durch Menschen gilt als Goldstandard für die Beurteilung von LLM-Ausgaben, doch diese Methode ist nicht skalierbar.

Letztendlich lässt sich die endgültige Bewertung des Modells in solchen Fällen dadurch ermitteln, dass man das Modell in der Praxis einsetzt und beobachtet, ob die Nutzer einen Nutzen daraus ziehen oder nicht.

Autor

David Zax

Staff Writer

IBM Think

So entscheiden Sie sich für das richtige Foundation Model

Erfahren Sie, wie Sie bei der Vorbereitung von Datensätzen und dem Einsatz von Foundation Models den richtigen Ansatz wählen.

Ressourcen

Enterprise 2030: Entwickelt für kontinuierliche Innovation.

Entdecken Sie unsere fünf Prognosen über die erfolgreichsten Unternehmen im Jahr 2030 und die Schritte, die Führungskräfte unternehmen können, um sich KI-Vorteile zu verschaffen.

IBM Granite erkunden

Entdecken Sie IBM Granite, eine Familie offener, leistungsfähiger und vertrauenswürdiger KI-Modelle, die auf Unternehmen zugeschnitten und optimiert sind, um Ihre KI-Anwendungen zu skalieren. Entdecken Sie die Optionen zu Sprache, Code, Zeitreihen und Guardrails.

Große Sprachmodelle erklärt

„Techsplainers“ von IBM schlüsselt die Grundlagen von LLMs auf, von Schlüsselkonzepten bis hin zu realen Anwendungsfällen. Klare, kurze Episoden helfen Ihnen, die Grundlagen schnell zu erlernen.

So entscheiden Sie sich für das richtige Foundation Model

Erfahren Sie, wie Sie das für Ihren Anwendungsfall am besten geeignete KI Foundation Model auswählen.

Entdecken Sie die Power von LLMs

Lesen Sie Artikel, Blogs und Tutorials von IBM Developer, um Ihr Wissen über LLMs zu vertiefen.

Der Leitfaden des CEOs zur Modelloptimierung

Erfahren Sie, wie Sie Teams durch den Einsatz neuester KI- Technologien und -Infrastrukturen zur kontinuierlichen Verbesserung der Modell-Leistung und Steigerung des Wettbewerbsvorsprungs motivieren können.

Ein differenzierter Ansatz für KI Foundation Models

Erkunden Sie den Wert von Foundation Models der Unternehmensklasse, die Vertrauen, Leistung und kosteneffiziente Vorteile in allen Branchen bieten.

Nutzen Sie die Leistungsfähigkeit generativer KI und ML

Erfahren Sie, wie Sie generative KI, maschinelles Lernen und Foundation Models zur Verbesserung der Leistung in Ihre Geschäftsabläufe integrieren können.

Verwandte Lösungen

IBM Bob

Beschleunigen Sie die Softwarebereitstellung mit Bob, Ihrem KI-Partner für sichere, absichtsorientierte Entwicklung.

IBM Bob erkunden

IBM watsonx Orchestrate

Mit IBM watsonx Orchestrate können Sie ganz einfach skalierbare KI-Assistenten und -Agenten entwickeln, sich wiederholende Aufgaben automatisieren und komplexe Prozesse vereinfachen.

Entdecken Sie watsonx Orchestrate

Lösungen im Bereich künstlicher Intelligenz

Setzen Sie KI in Ihrem Unternehmen ein
– mit branchenführendem Fachwissen im Bereich KI und dem umfassenden Lösungsportfolio von IBM an Ihrer Seite.

Erkunden Sie KI-Lösungen

Machen Sie den nächsten Schritt

Wo auch immer Sie sich im Entwicklungszyklus befinden, Bob hat die passende Lösung für Sie – mit absichtsorientierten, sicherheitsorientierten, agentenbasierten Reviews, die die Bereitstellung hochwertiger Software beschleunigen.

Fußnoten

1. „Zillow iBuying Home Zestimates,”CNN, 2021.

2. „What is a good F1 score?” OneModel

3. „Calculating F1 Score,” Telnyx.com