Auswertungsmetriken
Evaluierungsmetriken können Ihnen dabei helfen, die Leistung Ihrer KI-Modelle kontinuierlich zu überwachen, um während des gesamten KI-Lebenszyklus Erkenntnisse zu gewinnen. Mit watsonx.governance können Sie diese Kennzahlen nutzen, um die Einhaltung gesetzlicher Vorschriften sicherzustellen und zu ermitteln, wie Sie Verbesserungen vornehmen können, um Risiken zu minimieren.
Sie können Auswertungen in Watsonx.governance durchführen, um Kennzahlen mit automatisierter Überwachung zu generieren, die umsetzbare Erkenntnisse liefern, die Ihnen helfen, Ihre KI-Governance-Ziele zu erreichen. Sie können diese Kennzahlen verwenden, um die folgenden Ziele zu erreichen:
- Einhaltung sicherstellen : Automatische Überwachung der Einhaltung sich ändernder Vorschriften und Organisationsrichtlinien mit Warnmeldungen bei Überschreitung von Grenzwerten.
- Förderung der Transparenz : Erstellen Sie detaillierte Dokumentationen, um klare Einblicke in das Modellverhalten, die Leistung und die Erklärbarkeit der Ergebnisse zu geben.
- Risiken mindern : Erkennen und beheben Sie Probleme wie Verzerrungen oder Genauigkeitsabweichungen durch kontinuierliche Evaluierung und proaktive Risikobewertungen.
- Schutz der Privatsphäre und Sicherheit : Überwachung auf Sicherheitslücken wie die Offenlegung personenbezogener Daten (PII) und Durchsetzung von Schutzmaßnahmen, um den Missbrauch sensibler Daten zu verhindern.
Die Kennzahlen, die Sie verwenden können, um Einblicke in die Leistung Ihres Modells zu erhalten, werden durch die Art der von Ihnen aktivierten Bewertungen bestimmt. Jede Art von Auswertung generiert unterschiedliche Metriken, die Sie analysieren können, um Erkenntnisse zu gewinnen.
Sie können auch die ibm-watsonx-gov Python SDK zum Berechnen von Metriken in einer Notebook-Laufzeitumgebung oder zum Auslagern als Spark-Jobs gegen IBM Analytics Engine für Auswertungen. Das Python SDK ist eine Python -Bibliothek, mit der Sie maschinelle Lernmodelle programmgesteuert überwachen, verwalten und steuern können. Einige Metriken sind möglicherweise nur mit dem Python SDK verfügbar. Weitere Informationen finden Sie unter "Metrikberechnung mit dem Python SDK ".
Drift v2 Bewertungsmetriken
Drift v2 Bewertungsmetriken können Ihnen dabei helfen, Veränderungen in Ihren Daten im Laufe der Zeit zu messen, um konsistente Ergebnisse für Ihr Modell sicherzustellen. Sie können diese Metriken verwenden, um Änderungen in der Ausgabe Ihres Modells, die Genauigkeit Ihrer Vorhersagen und die Verteilung Ihrer Eingabedaten zu ermitteln. Watsonx.governance unterstützt die folgenden Drift-Metriken von v2 :
| Metrik | Beschreibung |
|---|---|
| Einbettungsdrift | Erkennt den Prozentsatz der Datensätze, die im Vergleich zu den Basisdaten Ausreißer sind |
| Feature-Drift | Misst die Veränderung der Werteverteilung für wichtige Merkmale |
| Abweichung der Eingabemetadaten | Misst die Veränderung in der Verteilung der LLM-Eingabetext-Metadaten |
| Modellqualitätsdrift | Vergleicht die geschätzte Laufzeitgenauigkeit mit der Trainingsgenauigkeit, um den Genauigkeitsverlust zu messen. |
| Ausgabedrift | Misst die Veränderung der Konfidenzverteilung des Modells |
| Abweichung der Ausgabemetadaten | Misst die Veränderung in der Verteilung der LLM-Ausgabetext-Metadaten. |
| Vorhersageabweichung | Misst die Veränderung in der Verteilung der LLM-vorhergesagten Klassen. |
Metriken zur Bewertung der Fairness
Mit Messgrößen zur Fairnessbewertung können Sie feststellen, ob Ihr Modell verzerrte Ergebnisse liefert. Anhand dieser Kennzahlen können Sie erkennen, ob Ihr Modell dazu neigt, für eine Gruppe häufiger positive Ergebnisse zu liefern als für eine andere. Watsonx.governance unterstützt die folgenden Messgrößen für die Fairnessbewertung:
| Metrik | Beschreibung |
|---|---|
| Durchschnittliche absolute Odds-Differenz | Vergleicht den Durchschnitt der absoluten Differenz der Falsch-Positiv-Raten und der Wahr-Positiv-Raten zwischen überwachten Gruppen und Referenzgruppen |
| Durchschnittliche Odds-Differenz | Misst den Unterschied zwischen falsch-positiven und falsch-negativen Raten zwischen überwachten und Referenzgruppen |
| Ungleiche Auswirkungen | Vergleicht den Prozentsatz der positiven Ergebnisse für eine überwachte Gruppe mit dem Prozentsatz der positiven Ergebnisse für eine Referenzgruppe |
| Differenz bei Fehlerrate | Der Prozentsatz der Transaktionen, die von Ihrem Modell falsch bewertet werden |
| Differenz der False Discovery Rate | Die Anzahl der falsch-positiven Transaktionen als Prozentsatz aller Transaktionen mit positivem Ergebnis |
| Differenz der Falsch-Negativ-Rate | Der Prozentsatz der positiven Transaktionen, die von Ihrem Modell fälschlicherweise als negativ bewertet wurden |
| Differenz der Falschauslassungsquote | Die Anzahl der falsch-negativen Transaktionen als Prozentsatz aller Transaktionen mit negativem Ergebnis |
| Differenz der Falsch-Positiv-Rate | Der Prozentsatz der negativen Transaktionen, die von Ihrem Modell fälschlicherweise als positiv eingestuft wurden. |
| Auswirkungsbewertung | Vergleicht die Rate, mit der überwachte Gruppen ausgewählt werden, um positive Ergebnisse zu erzielen, mit der Rate, mit der Referenzgruppen ausgewählt werden, um positive Ergebnisse zu erzielen. |
| Statistische Paritätsdifferenz | Vergleicht den Prozentsatz der positiven Ergebnisse für überwachte Gruppen mit Referenzgruppen. |
Metriken zur Qualitätsbewertung generativer KI
Generative KI-Qualitätsbewertungsmetriken können Ihnen dabei helfen, zu messen, wie gut Ihr Grundmodell Aufgaben erfüllt. Watsonx.governance unterstützt die folgenden generativen KI-Qualitätsbewertungsmetriken:
| Metrik | Beschreibung |
|---|---|
| BLEU (Bilingual Evaluation Understudy) | Vergleicht übersetzte Sätze aus maschinellen Übersetzungen mit Sätzen aus Referenzübersetzungen, um die Ähnlichkeit zwischen Referenztexten und Vorhersagen zu messen |
| Exakte Übereinstimmung | Vergleicht Modellvorhersagestrings mit Referenzstrings, um zu messen, wie oft die Strings übereinstimmen. |
| METEOR (Metrik zur Evaluierung von Übersetzungen mit expliziter Reihenfolge) | Misst, wie gut der mit maschinellen Übersetzungen erstellte Text mit der Struktur des Textes aus Referenzübersetzungen übereinstimmt |
| Lesbarkeit | Ermittelt, wie schwer die Ausgabe des Modells zu lesen ist, indem Merkmale wie Satzlänge und Wortkomplexität gemessen werden |
| ROUGE (Rückruforientierte Zweitbewertung für die Inhaltsanalyse) | Messen Sie, wie gut generierte Zusammenfassungen oder Übersetzungen im Vergleich zu Referenzausgaben sind. |
| SARI (Systemausgabe gegen Referenzen und gegen den Eingabesatz) | Vergleicht die vorhergesagte Satzausgabe mit der Referenzsatzausgabe, um die Qualität der Wörter zu messen, die das Modell zur Satzgenerierung verwendet |
| Satzähnlichkeit | Erfasst semantische Informationen aus Satzeinbettungen, um die Ähnlichkeit zwischen Texten zu messen |
| Textqualität | Bewertet die Ausgabe eines Modells anhand von SuperGLUE -Datensätzen, indem der F1 -Score, die Genauigkeit und der Rückruf anhand der Modellvorhersagen und der zugrunde liegenden Daten gemessen werden |
Watsonx.governance unterstützt auch die folgenden verschiedenen Kategorien von Qualitätsmetriken für generative KI:
Antwortqualitätsmetriken
Sie können Antwortqualitätsmetriken verwenden, um die Qualität von Modellantworten zu bewerten. Antwortqualitätsmetriken werden mit LLM-as-a-judge-Modellen berechnet. Um die Metriken mit LLM-as-a-judge-Modellen zu berechnen, können Sie eine Bewertungsfunktion erstellen, die die Modelle aufruft. Weitere Informationen finden Sie in den Metriken für die Qualität der Antworten und die Qualität der Abfrage unter IBM watsonx.governance für das RAG-Aufgaben-Notizbuch.
Sie können die folgenden Antwortqualitätsmetriken berechnen:
| Metrik | Beschreibung |
|---|---|
| Antwortrelevanz | Misst, wie relevant die Antwort in der Modellausgabe für die Frage in der Modellausgabe ist |
| Antwortähnlichkeit | Misst, wie ähnlich die Antwort oder der generierte Text der Grundwahrheit oder der Referenzantwort ist, um die Qualität der Leistung Ihres Modells zu bestimmen |
| Treue | Misst, wie fundiert die Modellausgabe im Modellkontext ist, und liefert Zuschreibungen aus dem Kontext, um die wichtigsten Sätze anzuzeigen, die zur Modellausgabe beitragen. |
| Nicht erfolgreiche Anforderungen | Misst das Verhältnis der erfolglos beantworteten Fragen zur Gesamtzahl der Fragen |
Metriken für die Inhaltsanalyse
Sie können die folgenden Kennzahlen zur Inhaltsanalyse verwenden, um die Ergebnisse Ihres Modells mit den Eingabedaten oder dem Kontext zu vergleichen:
| Metrik | Beschreibung |
|---|---|
| Abstraktheit | Misst das Verhältnis von n-Grammen in der generierten Textausgabe, die nicht im Quellinhalt des Grundmodells vorkommen |
| Komprimierung | Misst, um wie viel kürzer die Zusammenfassung im Vergleich zum Eingabetext ist, indem das Verhältnis zwischen der Anzahl der Wörter im Originaltext und der Anzahl der Wörter in der Ausgabe des Grundmodells berechnet wird |
| Abdeckung | Misst das Ausmaß, in dem die Ausgabe des Fundamentmodells aus der Eingabe des Modells generiert wird, indem der Prozentsatz des Ausgabetextes berechnet wird, der auch in der Eingabe enthalten ist |
| Dichte | Misst, wie stark die Zusammenfassung in der Ausgabe des Grundmodells vom Modelleingang extrahiert wurde, indem der Durchschnitt der extrahierten Fragmente berechnet wird, die wörtlichen Extraktionen aus dem Originaltext sehr ähneln |
| Wiederholbarkeit | Misst den Prozentsatz der N-Gramme, die sich in der Ausgabe des Grundmodells wiederholen, indem die Anzahl der wiederholten N-Gramme und die Gesamtzahl der N-Gramme in der Modellausgabe berechnet werden |
Datensicherheitsmetriken
Sie können die folgenden Datensicherheitsmetriken verwenden, um festzustellen, ob die Eingabe oder Ausgabe Ihres Modells schädliche oder sensible Informationen enthält:
| Metrik | Beschreibung |
|---|---|
| HAP | Misst, ob die Modell-Eingabe- oder -Ausgabedaten toxische Inhalte enthalten, die Hass, Missbrauch oder Obszönitäten enthalten. |
| Personenbezogene Daten | Misst, ob Ihre Modell-Eingabe- oder -Ausgabedaten personenbezogene Daten enthalten, indem das Watson -Modell zur Extraktion natürlicher Sprache verwendet wird |
Metriken für Mehrfachbezeichnung/Klasse
Sie können die folgenden Metriken für Mehrfachlabel/Mehrfachklassen verwenden, um die Modellleistung für Vorhersagen mit Mehrfachlabel/Mehrfachklassen zu messen:
| Metrik | Beschreibung |
|---|---|
| Makro-F1-Score | Der Durchschnitt der F1 -Ergebnisse, die für jede Klasse separat berechnet wurden |
| Makro-Genauigkeit | Der Durchschnitt der Präzisionswerte, die für jede Klasse separat berechnet werden |
| Makro-Trefferquote | Der Durchschnitt der Rückrufwerte, die für jede Klasse separat berechnet wurden |
| Kompakt-F1-Score | Berechnet das harmonische Mittel der Präzision und des Rückrufs |
| Micro-Genauigkeit | Das Verhältnis der Anzahl richtiger Vorhersagen über alle Klassen zur Anzahl der Gesamtvorhersagen. |
| Micro-Trefferquote | Das Verhältnis der Anzahl der korrekten Vorhersagen über alle Klassen zur Anzahl der echten Proben. |
Metriken zur Abrufqualität
Sie können die Abrufqualitätsmetriken verwenden, um die Qualität der Rangfolge relevanter Kontexte durch das Abrufsystem zu messen. Metriken zur Abrufqualität werden mit LLM-as-a-judge-Modellen berechnet. Um die Metriken mit LLM-as-a-judge-Modellen zu berechnen, können Sie eine Bewertungsfunktion erstellen, die die Modelle aufruft. Weitere Informationen finden Sie in den Metriken für die Qualität der Antworten und die Qualität der Abfrage unter IBM watsonx.governance für das RAG-Aufgaben-Notizbuch.
Sie können die folgenden Abrufqualitätsmetriken berechnen:
| Metrik | Beschreibung |
|---|---|
| Durchschnittliche Genauigkeit | Bewertet, ob alle relevanten Kontexte höher eingestuft werden oder nicht, indem der Mittelwert der Präzisionswerte der relevanten Kontexte berechnet wird |
| Kontextrelevanz | Misst, wie relevant der Kontext ist, den Ihr Modell mit der in der Eingabeaufforderung angegebenen Frage abruft |
| Trefferrate | Misst, ob es unter den abgerufenen Kontexten mindestens einen relevanten Kontext gibt. |
| Normalisierter diskontierter kumulativer Gewinn | Misst die Ranking-Qualität der abgerufenen Kontexte |
| Reziproker Rang | Der gegenseitige Rang des ersten relevanten Kontextes |
| Abrufgenauigkeit | Misst die Menge relevanter Kontexte aus der Gesamtzahl der abgerufenen Kontexte |
Modell für Bewertungsmetriken zur Gesundheitsüberwachung
Modell-Gesundheitsüberwachungs-Evaluierungsmetriken können Ihnen helfen, Ihr Modellverhalten und Ihre Leistung zu verstehen, indem sie ermitteln, wie effizient Ihr Modell bei der Bereitstellung Ihre Transaktionen verarbeitet. Standardmäßig sind Modellmetriken für die Gesundheitsbewertung für die Evaluierung von Modellen für maschinelles Lernen in der Produktion und für die Bereitstellung generativer KI-Ressourcen aktiviert. Watsonx.governance unterstützt die folgenden Bewertungsmetriken für das Modell des Gesundheitsmonitors:
| Metrik | Beschreibung |
|---|---|
| Payload Size | Die gesamte, durchschnittliche, minimale, maximale und mittlere Nutzlastgröße der Transaktionsdatensätze, die Ihr Modell bei Bewertungsanfragen verarbeitet, in Kilobyte (KB) |
| Aufzeichnungen | Die Gesamtzahl, der Durchschnitt, das Minimum, das Maximum und der Median der Transaktionsdatensätze, die über Bewertungsanfragen verarbeitet werden |
| Scoring-Anforderungen | Die Anzahl der Bewertungsanfragen, die Ihr Modell erhält |
| Benutzer | Die Anzahl der Benutzer, die Bewertungsanfragen an Ihre Modelleinsätze senden |
Watsonx.governance unterstützt auch die folgenden verschiedenen Kategorien von Bewertungsmetriken für Modell-Gesundheitsmonitore:
Token-Zählungen
Die folgenden Token-Zählmetriken berechnen die Anzahl der Token, die über Bewertungsanfragen für Ihre Modellbereitstellung verarbeitet werden:
| Metrik | Beschreibung |
|---|---|
| Anzahl der Eingabetoken | Berechnet die Gesamtzahl, den Durchschnitt, das Minimum, das Maximum und den Median der eingegebenen Token über mehrere Bewertungsanfragen während der Auswertungen |
| Anzahl der Ausgabetoken | Berechnet die Gesamt-, Durchschnitts-, Mindest-, Höchst- und Medianausgabe-Token-Anzahl über Bewertungsanfragen während der Bewertungen |
Durchsatz und Latenz
Modellbewertungen von Gesundheitsmonitoren berechnen die Latenzzeit, indem sie die Zeit verfolgen, die für die Verarbeitung von Bewertungsanfragen und Transaktionsdatensätzen pro Millisekunde (ms) benötigt wird. Der Durchsatz wird durch die Verfolgung der Anzahl der Scoring-Anfragen und Transaktionsdatensätze berechnet, die pro Sekunde verarbeitet werden.
Die folgenden Metriken werden berechnet, um Durchsatz und Latenz während der Evaluierungen zu messen:
| Metrik | Beschreibung |
|---|---|
| API-Latenz | Zeit (in ms), die Ihr Modell für die Verarbeitung einer Bewertungsanfrage benötigt. |
| API-Durchsatz | Anzahl der von Ihrem Modell verarbeiteten Bewertungsanfragen pro Sekunde |
Qualitätsbewertungsmetriken
Qualitätsbewertungen können Ihnen dabei helfen, die Fähigkeit Ihres Modells zu messen, korrekte Ergebnisse zu liefern, basierend auf der Leistung des Modells. Watsonx.governance unterstützt die folgenden Qualitätsbewertungsmetriken:
| Metrik | Beschreibung |
|---|---|
| Genauigkeit | Misst, wie korrekt Ihre Modellvorhersagen sind, indem der Anteil der korrekten Ergebnisse an der Gesamtzahl der Ergebnisse berechnet wird. |
| Fläche unterhalb der PR-Kurve | Misst, wie gut Ihr Modell positive Klassen korrekt identifiziert und alle positiven Klassen findet |
| Fläche unterhalb der ROC-Kurve | Misst, wie gut Ihr Modell Unterschiede zwischen Klassen erkennt. |
| Brier-Score | Misst die mittlere quadratische Differenz zwischen der vorhergesagten Wahrscheinlichkeit und dem Zielwert. |
| F1-Measure | Maße Harmonic Mean of Precision und Recall |
| Gini-Koeffizient | Misst, wie gut Modelle zwischen zwei Klassen unterscheiden können |
| Beschriftungsabweichung | Misst die Asymmetrie der Etikettenverteilung |
| Logarithmischer Verlust | Mittelwert der Logarithmen der Wahrscheinlichkeiten der Zielklasse (Konfidenz) |
| Matthews-Korrelationskoeffizient | Die Qualität von binären und mehrklassigen Klassifizierungen durch Berücksichtigung von echten und falschen positiven und negativen Ergebnissen |
| Mittlerer absoluter Fehler | Mittelwert der absoluten Differenz zwischen Modellvorhersage und Zielwert |
| Mittlerer absoluter Fehler in Prozent | Misst die mittlere prozentuale Fehlerdifferenz zwischen den vorhergesagten und tatsächlichen Werten |
| Mittlerer quadratischer Fehler | Mittelwert der quadratischen Differenz zwischen Modellvorhersage und Zielwert |
| Pearson-Korrelationskoeffizient | Misst die lineare Beziehung zwischen Modellvorhersage und Zielwerten. |
| Genauigkeit | Anteil richtiger Vorhersagen bei Vorhersagen der positiven Klasse |
| Proportion der erklärten Varianz | Das Verhältnis von erklärter Varianz und Zielvarianz. Die erklärte Varianz ist die Differenz zwischen der Zielvarianz und der Varianz des Vorhersagefehlers. |
| Trefferquote | Anteil richtiger Vorhersagen in der positiven Klasse |
| Wurzel für mittleren quadratischen Fehler | Quadratwurzel des Mittelwerts der quadrierten Differenz zwischen der Modellvorhersage und dem Zielwert. |
| R-Quadrat | Verhältnis der Differenz zwischen Soll-Varianz und Varianz für den Vorhersagefehler zur Soll-Varianz |
| Korrelationskoeffizient nach Spearman | Misst die Monotonie der Beziehung zwischen Modellvorhersagen und Zielwerten. |
| Symmetrischer mittlerer absoluter Fehler in Prozent | Misst den symmetrischen Mittelwert des prozentualen Fehlers der Differenz zwischen den vorhergesagten und tatsächlichen Werten |
| Wahr-Positiv-Rate | Anteil richtiger Vorhersagen bei Vorhersagen der positiven Klasse |
| Gewichtete Rate der falsch positiven Ergebnisse | Anteil der falschen Vorhersagen in der positiven Klasse |
| Gewichtetes F1-Maß | Gewichteter Mittelwert von F1-measure mit Gewichten, die der Klassenwahrscheinlichkeit entsprechen |
| Gewichtete Genauigkeit | Gewichteter Mittelwert der Präzision mit Gewichten, die der Klassenwahrscheinlichkeit entsprechen |
| Gewichtete Trefferquote | Gewichteter Mittelwert der Erinnerung mit Gewichten, die der Klassenwahrscheinlichkeit entsprechen |