Auswertungsmetriken

Evaluierungsmetriken können Ihnen dabei helfen, die Leistung Ihrer KI-Modelle kontinuierlich zu überwachen, um während des gesamten KI-Lebenszyklus Erkenntnisse zu gewinnen. Mit watsonx.governance können Sie diese Kennzahlen nutzen, um die Einhaltung gesetzlicher Vorschriften sicherzustellen und zu ermitteln, wie Sie Verbesserungen vornehmen können, um Risiken zu minimieren.

Sie können Auswertungen in Watsonx.governance durchführen, um Kennzahlen mit automatisierter Überwachung zu generieren, die umsetzbare Erkenntnisse liefern, die Ihnen helfen, Ihre KI-Governance-Ziele zu erreichen. Sie können diese Kennzahlen verwenden, um die folgenden Ziele zu erreichen:

Einhaltung sicherstellen : Automatische Überwachung der Einhaltung sich ändernder Vorschriften und Organisationsrichtlinien mit Warnmeldungen bei Überschreitung von Grenzwerten.
Förderung der Transparenz : Erstellen Sie detaillierte Dokumentationen, um klare Einblicke in das Modellverhalten, die Leistung und die Erklärbarkeit der Ergebnisse zu geben.
Risiken mindern : Erkennen und beheben Sie Probleme wie Verzerrungen oder Genauigkeitsabweichungen durch kontinuierliche Evaluierung und proaktive Risikobewertungen.
Schutz der Privatsphäre und Sicherheit : Überwachung auf Sicherheitslücken wie die Offenlegung personenbezogener Daten (PII) und Durchsetzung von Schutzmaßnahmen, um den Missbrauch sensibler Daten zu verhindern.

Die Kennzahlen, die Sie verwenden können, um Einblicke in die Leistung Ihres Modells zu erhalten, werden durch die Art der von Ihnen aktivierten Bewertungen bestimmt. Jede Art von Auswertung generiert unterschiedliche Metriken, die Sie analysieren können, um Erkenntnisse zu gewinnen.

Sie können auch die ibm-watsonx-gov Python SDK zum Berechnen von Metriken in einer Notebook-Laufzeitumgebung oder zum Auslagern als Spark-Jobs gegen IBM Analytics Engine für Auswertungen. Das Python SDK ist eine Python -Bibliothek, mit der Sie maschinelle Lernmodelle programmgesteuert überwachen, verwalten und steuern können. Einige Metriken sind möglicherweise nur mit dem Python SDK verfügbar. Weitere Informationen finden Sie unter "Metrikberechnung mit dem Python SDK ".

Drift v2 Bewertungsmetriken

Drift v2 Bewertungsmetriken können Ihnen dabei helfen, Veränderungen in Ihren Daten im Laufe der Zeit zu messen, um konsistente Ergebnisse für Ihr Modell sicherzustellen. Sie können diese Metriken verwenden, um Änderungen in der Ausgabe Ihres Modells, die Genauigkeit Ihrer Vorhersagen und die Verteilung Ihrer Eingabedaten zu ermitteln. Watsonx.governance unterstützt die folgenden Drift-Metriken von v2 :

Tabelle 2. Drift v2 Beschreibungen der Bewertungsmetriken
Metrik	Beschreibung
Einbettungsdrift	Erkennt den Prozentsatz der Datensätze, die im Vergleich zu den Basisdaten Ausreißer sind
Feature-Drift	Misst die Veränderung der Werteverteilung für wichtige Merkmale
Abweichung der Eingabemetadaten	Misst die Veränderung in der Verteilung der LLM-Eingabetext-Metadaten
Modellqualitätsdrift	Vergleicht die geschätzte Laufzeitgenauigkeit mit der Trainingsgenauigkeit, um den Genauigkeitsverlust zu messen.
Ausgabedrift	Misst die Veränderung der Konfidenzverteilung des Modells
Abweichung der Ausgabemetadaten	Misst die Veränderung in der Verteilung der LLM-Ausgabetext-Metadaten.
Vorhersageabweichung	Misst die Veränderung in der Verteilung der LLM-vorhergesagten Klassen.

Metriken zur Bewertung der Fairness

Mit Messgrößen zur Fairnessbewertung können Sie feststellen, ob Ihr Modell verzerrte Ergebnisse liefert. Anhand dieser Kennzahlen können Sie erkennen, ob Ihr Modell dazu neigt, für eine Gruppe häufiger positive Ergebnisse zu liefern als für eine andere. Watsonx.governance unterstützt die folgenden Messgrößen für die Fairnessbewertung:

Tabelle 3. Beschreibungen der Messgrößen für die Fairnessbewertung
Metrik	Beschreibung
Durchschnittliche absolute Odds-Differenz	Vergleicht den Durchschnitt der absoluten Differenz der Falsch-Positiv-Raten und der Wahr-Positiv-Raten zwischen überwachten Gruppen und Referenzgruppen
Durchschnittliche Odds-Differenz	Misst den Unterschied zwischen falsch-positiven und falsch-negativen Raten zwischen überwachten und Referenzgruppen
Ungleiche Auswirkungen	Vergleicht den Prozentsatz der positiven Ergebnisse für eine überwachte Gruppe mit dem Prozentsatz der positiven Ergebnisse für eine Referenzgruppe
Differenz bei Fehlerrate	Der Prozentsatz der Transaktionen, die von Ihrem Modell falsch bewertet werden
Differenz der False Discovery Rate	Die Anzahl der falsch-positiven Transaktionen als Prozentsatz aller Transaktionen mit positivem Ergebnis
Differenz der Falsch-Negativ-Rate	Der Prozentsatz der positiven Transaktionen, die von Ihrem Modell fälschlicherweise als negativ bewertet wurden
Differenz der Falschauslassungsquote	Die Anzahl der falsch-negativen Transaktionen als Prozentsatz aller Transaktionen mit negativem Ergebnis
Differenz der Falsch-Positiv-Rate	Der Prozentsatz der negativen Transaktionen, die von Ihrem Modell fälschlicherweise als positiv eingestuft wurden.
Auswirkungsbewertung	Vergleicht die Rate, mit der überwachte Gruppen ausgewählt werden, um positive Ergebnisse zu erzielen, mit der Rate, mit der Referenzgruppen ausgewählt werden, um positive Ergebnisse zu erzielen.
Statistische Paritätsdifferenz	Vergleicht den Prozentsatz der positiven Ergebnisse für überwachte Gruppen mit Referenzgruppen.

Metriken zur Qualitätsbewertung generativer KI

Generative KI-Qualitätsbewertungsmetriken können Ihnen dabei helfen, zu messen, wie gut Ihr Grundmodell Aufgaben erfüllt. Watsonx.governance unterstützt die folgenden generativen KI-Qualitätsbewertungsmetriken:

Tabelle 4. Beschreibungen der Metriken zur Qualitätsbewertung generativer KI
Metrik	Beschreibung
BLEU (Bilingual Evaluation Understudy)	Vergleicht übersetzte Sätze aus maschinellen Übersetzungen mit Sätzen aus Referenzübersetzungen, um die Ähnlichkeit zwischen Referenztexten und Vorhersagen zu messen
Exakte Übereinstimmung	Vergleicht Modellvorhersagestrings mit Referenzstrings, um zu messen, wie oft die Strings übereinstimmen.
METEOR (Metrik zur Evaluierung von Übersetzungen mit expliziter Reihenfolge)	Misst, wie gut der mit maschinellen Übersetzungen erstellte Text mit der Struktur des Textes aus Referenzübersetzungen übereinstimmt
Lesbarkeit	Ermittelt, wie schwer die Ausgabe des Modells zu lesen ist, indem Merkmale wie Satzlänge und Wortkomplexität gemessen werden
ROUGE (Rückruforientierte Zweitbewertung für die Inhaltsanalyse)	Messen Sie, wie gut generierte Zusammenfassungen oder Übersetzungen im Vergleich zu Referenzausgaben sind.
SARI (Systemausgabe gegen Referenzen und gegen den Eingabesatz)	Vergleicht die vorhergesagte Satzausgabe mit der Referenzsatzausgabe, um die Qualität der Wörter zu messen, die das Modell zur Satzgenerierung verwendet
Satzähnlichkeit	Erfasst semantische Informationen aus Satzeinbettungen, um die Ähnlichkeit zwischen Texten zu messen
Textqualität	Bewertet die Ausgabe eines Modells anhand von SuperGLUE -Datensätzen, indem der F1 -Score, die Genauigkeit und der Rückruf anhand der Modellvorhersagen und der zugrunde liegenden Daten gemessen werden

Watsonx.governance unterstützt auch die folgenden verschiedenen Kategorien von Qualitätsmetriken für generative KI:

Antwortqualitätsmetriken

Sie können Antwortqualitätsmetriken verwenden, um die Qualität von Modellantworten zu bewerten. Antwortqualitätsmetriken werden mit LLM-as-a-judge-Modellen berechnet. Um die Metriken mit LLM-as-a-judge-Modellen zu berechnen, können Sie eine Bewertungsfunktion erstellen, die die Modelle aufruft. Weitere Informationen finden Sie in den Metriken für die Qualität der Antworten und die Qualität der Abfrage unter IBM watsonx.governance für das RAG-Aufgaben-Notizbuch.

Sie können die folgenden Antwortqualitätsmetriken berechnen:

Tabelle 5. Beschreibungen der Bewertungsmetriken für die Antwortqualität
Metrik	Beschreibung
Antwortrelevanz	Misst, wie relevant die Antwort in der Modellausgabe für die Frage in der Modellausgabe ist
Antwortähnlichkeit	Misst, wie ähnlich die Antwort oder der generierte Text der Grundwahrheit oder der Referenzantwort ist, um die Qualität der Leistung Ihres Modells zu bestimmen
Treue	Misst, wie fundiert die Modellausgabe im Modellkontext ist, und liefert Zuschreibungen aus dem Kontext, um die wichtigsten Sätze anzuzeigen, die zur Modellausgabe beitragen.
Nicht erfolgreiche Anforderungen	Misst das Verhältnis der erfolglos beantworteten Fragen zur Gesamtzahl der Fragen

Metriken für die Inhaltsanalyse

Sie können die folgenden Kennzahlen zur Inhaltsanalyse verwenden, um die Ergebnisse Ihres Modells mit den Eingabedaten oder dem Kontext zu vergleichen:

Tabelle 6. Beschreibungen der Bewertungsmetriken für die Inhaltsanalyse
Metrik	Beschreibung
Abstraktheit	Misst das Verhältnis von n-Grammen in der generierten Textausgabe, die nicht im Quellinhalt des Grundmodells vorkommen
Komprimierung	Misst, um wie viel kürzer die Zusammenfassung im Vergleich zum Eingabetext ist, indem das Verhältnis zwischen der Anzahl der Wörter im Originaltext und der Anzahl der Wörter in der Ausgabe des Grundmodells berechnet wird
Abdeckung	Misst das Ausmaß, in dem die Ausgabe des Fundamentmodells aus der Eingabe des Modells generiert wird, indem der Prozentsatz des Ausgabetextes berechnet wird, der auch in der Eingabe enthalten ist
Dichte	Misst, wie stark die Zusammenfassung in der Ausgabe des Grundmodells vom Modelleingang extrahiert wurde, indem der Durchschnitt der extrahierten Fragmente berechnet wird, die wörtlichen Extraktionen aus dem Originaltext sehr ähneln
Wiederholbarkeit	Misst den Prozentsatz der N-Gramme, die sich in der Ausgabe des Grundmodells wiederholen, indem die Anzahl der wiederholten N-Gramme und die Gesamtzahl der N-Gramme in der Modellausgabe berechnet werden

Datensicherheitsmetriken

Sie können die folgenden Datensicherheitsmetriken verwenden, um festzustellen, ob die Eingabe oder Ausgabe Ihres Modells schädliche oder sensible Informationen enthält:

Tabelle 7. Beschreibungen der Metriken zur Bewertung der Datensicherheit
Metrik	Beschreibung
HAP	Misst, ob die Modell-Eingabe- oder -Ausgabedaten toxische Inhalte enthalten, die Hass, Missbrauch oder Obszönitäten enthalten.
Personenbezogene Daten	Misst, ob Ihre Modell-Eingabe- oder -Ausgabedaten personenbezogene Daten enthalten, indem das Watson -Modell zur Extraktion natürlicher Sprache verwendet wird

Metriken für Mehrfachbezeichnung/Klasse

Sie können die folgenden Metriken für Mehrfachlabel/Mehrfachklassen verwenden, um die Modellleistung für Vorhersagen mit Mehrfachlabel/Mehrfachklassen zu messen:

Tabelle 8. Beschreibungen der Bewertungsmetrik für mehrere Labels/Klassen
Metrik	Beschreibung
Makro-F1-Score	Der Durchschnitt der F1 -Ergebnisse, die für jede Klasse separat berechnet wurden
Makro-Genauigkeit	Der Durchschnitt der Präzisionswerte, die für jede Klasse separat berechnet werden
Makro-Trefferquote	Der Durchschnitt der Rückrufwerte, die für jede Klasse separat berechnet wurden
Kompakt-F1-Score	Berechnet das harmonische Mittel der Präzision und des Rückrufs
Micro-Genauigkeit	Das Verhältnis der Anzahl richtiger Vorhersagen über alle Klassen zur Anzahl der Gesamtvorhersagen.
Micro-Trefferquote	Das Verhältnis der Anzahl der korrekten Vorhersagen über alle Klassen zur Anzahl der echten Proben.

Metriken zur Abrufqualität

Sie können die Abrufqualitätsmetriken verwenden, um die Qualität der Rangfolge relevanter Kontexte durch das Abrufsystem zu messen. Metriken zur Abrufqualität werden mit LLM-as-a-judge-Modellen berechnet. Um die Metriken mit LLM-as-a-judge-Modellen zu berechnen, können Sie eine Bewertungsfunktion erstellen, die die Modelle aufruft. Weitere Informationen finden Sie in den Metriken für die Qualität der Antworten und die Qualität der Abfrage unter IBM watsonx.governance für das RAG-Aufgaben-Notizbuch.

Sie können die folgenden Abrufqualitätsmetriken berechnen:

Tabelle 9. Beschreibungen der Metrik zur Bewertung der Abrufqualität
Metrik	Beschreibung
Durchschnittliche Genauigkeit	Bewertet, ob alle relevanten Kontexte höher eingestuft werden oder nicht, indem der Mittelwert der Präzisionswerte der relevanten Kontexte berechnet wird
Kontextrelevanz	Misst, wie relevant der Kontext ist, den Ihr Modell mit der in der Eingabeaufforderung angegebenen Frage abruft
Trefferrate	Misst, ob es unter den abgerufenen Kontexten mindestens einen relevanten Kontext gibt.
Normalisierter diskontierter kumulativer Gewinn	Misst die Ranking-Qualität der abgerufenen Kontexte
Reziproker Rang	Der gegenseitige Rang des ersten relevanten Kontextes
Abrufgenauigkeit	Misst die Menge relevanter Kontexte aus der Gesamtzahl der abgerufenen Kontexte

Modell für Bewertungsmetriken zur Gesundheitsüberwachung

Modell-Gesundheitsüberwachungs-Evaluierungsmetriken können Ihnen helfen, Ihr Modellverhalten und Ihre Leistung zu verstehen, indem sie ermitteln, wie effizient Ihr Modell bei der Bereitstellung Ihre Transaktionen verarbeitet. Standardmäßig sind Modellmetriken für die Gesundheitsbewertung für die Evaluierung von Modellen für maschinelles Lernen in der Produktion und für die Bereitstellung generativer KI-Ressourcen aktiviert. Watsonx.governance unterstützt die folgenden Bewertungsmetriken für das Modell des Gesundheitsmonitors:

Tabelle 10. Modellbeschreibungen der Bewertungsmetrik für Gesundheitsmonitore
Metrik	Beschreibung
Payload Size	Die gesamte, durchschnittliche, minimale, maximale und mittlere Nutzlastgröße der Transaktionsdatensätze, die Ihr Modell bei Bewertungsanfragen verarbeitet, in Kilobyte (KB)
Aufzeichnungen	Die Gesamtzahl, der Durchschnitt, das Minimum, das Maximum und der Median der Transaktionsdatensätze, die über Bewertungsanfragen verarbeitet werden
Scoring-Anforderungen	Die Anzahl der Bewertungsanfragen, die Ihr Modell erhält
Benutzer	Die Anzahl der Benutzer, die Bewertungsanfragen an Ihre Modelleinsätze senden

Watsonx.governance unterstützt auch die folgenden verschiedenen Kategorien von Bewertungsmetriken für Modell-Gesundheitsmonitore:

Token-Zählungen

Die folgenden Token-Zählmetriken berechnen die Anzahl der Token, die über Bewertungsanfragen für Ihre Modellbereitstellung verarbeitet werden:

Tabelle 11. Modell Gesundheitsmonitor Token-Zählung Bewertungsmetrik Beschreibungen
Metrik	Beschreibung
Anzahl der Eingabetoken	Berechnet die Gesamtzahl, den Durchschnitt, das Minimum, das Maximum und den Median der eingegebenen Token über mehrere Bewertungsanfragen während der Auswertungen
Anzahl der Ausgabetoken	Berechnet die Gesamt-, Durchschnitts-, Mindest-, Höchst- und Medianausgabe-Token-Anzahl über Bewertungsanfragen während der Bewertungen

Durchsatz und Latenz

Modellbewertungen von Gesundheitsmonitoren berechnen die Latenzzeit, indem sie die Zeit verfolgen, die für die Verarbeitung von Bewertungsanfragen und Transaktionsdatensätzen pro Millisekunde (ms) benötigt wird. Der Durchsatz wird durch die Verfolgung der Anzahl der Scoring-Anfragen und Transaktionsdatensätze berechnet, die pro Sekunde verarbeitet werden.

Die folgenden Metriken werden berechnet, um Durchsatz und Latenz während der Evaluierungen zu messen:

Tabelle 12. Modellbeschreibungen für Durchsatz- und Latenzmetriken von Gesundheitsmonitoren
Metrik	Beschreibung
API-Latenz	Zeit (in ms), die Ihr Modell für die Verarbeitung einer Bewertungsanfrage benötigt.
API-Durchsatz	Anzahl der von Ihrem Modell verarbeiteten Bewertungsanfragen pro Sekunde

Qualitätsbewertungsmetriken

Qualitätsbewertungen können Ihnen dabei helfen, die Fähigkeit Ihres Modells zu messen, korrekte Ergebnisse zu liefern, basierend auf der Leistung des Modells. Watsonx.governance unterstützt die folgenden Qualitätsbewertungsmetriken:

Tabelle 13. Beschreibungen der Qualitätsbewertungsmetriken
Metrik	Beschreibung
Genauigkeit	Misst, wie korrekt Ihre Modellvorhersagen sind, indem der Anteil der korrekten Ergebnisse an der Gesamtzahl der Ergebnisse berechnet wird.
Fläche unterhalb der PR-Kurve	Misst, wie gut Ihr Modell positive Klassen korrekt identifiziert und alle positiven Klassen findet
Fläche unterhalb der ROC-Kurve	Misst, wie gut Ihr Modell Unterschiede zwischen Klassen erkennt.
Brier-Score	Misst die mittlere quadratische Differenz zwischen der vorhergesagten Wahrscheinlichkeit und dem Zielwert.
F1-Measure	Maße Harmonic Mean of Precision und Recall
Gini-Koeffizient	Misst, wie gut Modelle zwischen zwei Klassen unterscheiden können
Beschriftungsabweichung	Misst die Asymmetrie der Etikettenverteilung
Logarithmischer Verlust	Mittelwert der Logarithmen der Wahrscheinlichkeiten der Zielklasse (Konfidenz)
Matthews-Korrelationskoeffizient	Die Qualität von binären und mehrklassigen Klassifizierungen durch Berücksichtigung von echten und falschen positiven und negativen Ergebnissen
Mittlerer absoluter Fehler	Mittelwert der absoluten Differenz zwischen Modellvorhersage und Zielwert
Mittlerer absoluter Fehler in Prozent	Misst die mittlere prozentuale Fehlerdifferenz zwischen den vorhergesagten und tatsächlichen Werten
Mittlerer quadratischer Fehler	Mittelwert der quadratischen Differenz zwischen Modellvorhersage und Zielwert
Pearson-Korrelationskoeffizient	Misst die lineare Beziehung zwischen Modellvorhersage und Zielwerten.
Genauigkeit	Anteil richtiger Vorhersagen bei Vorhersagen der positiven Klasse
Proportion der erklärten Varianz	Das Verhältnis von erklärter Varianz und Zielvarianz. Die erklärte Varianz ist die Differenz zwischen der Zielvarianz und der Varianz des Vorhersagefehlers.
Trefferquote	Anteil richtiger Vorhersagen in der positiven Klasse
Wurzel für mittleren quadratischen Fehler	Quadratwurzel des Mittelwerts der quadrierten Differenz zwischen der Modellvorhersage und dem Zielwert.
R-Quadrat	Verhältnis der Differenz zwischen Soll-Varianz und Varianz für den Vorhersagefehler zur Soll-Varianz
Korrelationskoeffizient nach Spearman	Misst die Monotonie der Beziehung zwischen Modellvorhersagen und Zielwerten.
Symmetrischer mittlerer absoluter Fehler in Prozent	Misst den symmetrischen Mittelwert des prozentualen Fehlers der Differenz zwischen den vorhergesagten und tatsächlichen Werten
Wahr-Positiv-Rate	Anteil richtiger Vorhersagen bei Vorhersagen der positiven Klasse
Gewichtete Rate der falsch positiven Ergebnisse	Anteil der falschen Vorhersagen in der positiven Klasse
Gewichtetes F1-Maß	Gewichteter Mittelwert von F1-measure mit Gewichten, die der Klassenwahrscheinlichkeit entsprechen
Gewichtete Genauigkeit	Gewichteter Mittelwert der Präzision mit Gewichten, die der Klassenwahrscheinlichkeit entsprechen
Gewichtete Trefferquote	Gewichteter Mittelwert der Erinnerung mit Gewichten, die der Klassenwahrscheinlichkeit entsprechen