Bewertung der generativen KI-Ausgabe in mehreren Sprachen

Sie können die generative KI-Ausgabe in mehreren Sprachen bewerten, indem Sie den Qualitätsmonitor für generative KI in watsonx.governance verwenden. Bei der Konfiguration Ihrer Auswertung können Sie die Sprache auswählen, für die Sie die Qualitätskennzahlen berechnen möchten.

Um mehrsprachige Auswertungen durchzuführen:

Zur Laufzeit unter Verwendung der API oder des SDK, siehe das Notizbuch zur mehrsprachigen Unterstützung zur Laufzeit.
Zur Entwurfszeit mit dem SDK oder mit einem benutzerdefinierten Tokenizer, siehe das Notizbuch zur mehrsprachigen Unterstützung zur Entwurfszeit.

Unterstützte Sprachen

Arabisch (ar)
Dänisch (da)
Englisch (en)
Französisch (fr)
Deutsch (de)
Italienisch (it)
Japanisch (ja)
Koreanisch (ko)
Portugiesisch (pt)
Spanisch (es)

Hinweis: Die genauesten Ergebnisse erhalten Sie, wenn Sie für die Eingabeaufforderung, die Eingabedaten und die generierte Ausgabe dieselbe Sprache verwenden. Wenn verschiedene Sprachen verwendet werden, werden die Bewertungsmetriken zwar immer noch berechnet, aber die Ergebnisse sind möglicherweise weniger zuverlässig.

Unterstützte Metriken nach Aufgabentyp

Zusammenfassung
- ROUGE Ergebnis
- Kosinusähnlichkeit
- Jaccard-Ähnlichkeit
- Normalisierte Präzision
- Normalisierter Rückruf
- Normalisierter F1 Score
- SARI
- METEOR
- HAP-Punktzahl
- PII-Erkennung
Generierung
- ROUGE Ergebnis
- Normalisierte Präzision
- Normalisierter Rückruf
- Normalisierter F1 Score
- METEOR
- HAP-Punktzahl
- PII-Erkennung
Extraktion
- Exakte Übereinstimmung
- ROUGE Ergebnis
Beantwortung von Fragen (QA)
- Exakte Übereinstimmung
- ROUGE Ergebnis
- HAP-Punktzahl
- PII-Erkennung
Retrieval-Augmented Generation (RAG)
- ROUGE Ergebnis
- Exakte Übereinstimmung
- HAP-Punktzahl
- PII-Erkennung

Ausführen von Auswertungen über die Benutzeroberfläche

Erstellen Sie ein Projekt: Wählen Sie Neues Asset und erstellen Sie ein neues Prompt-Vorlagen-Asset im Projekt, wählen Sie dann Chat und erstellen Sie Prompts mit Basismodellen mit Prompt Lab.

Schritt 1

Erstellen und speichern Sie Ihr Prompt Template Asset mit den Daten in der Sprache, in der Sie den Prompt auswerten möchten. Fügen Sie Ihre Eingabevariablen und eine Beispieleingabe hinzu.
- Nachfolgend finden Sie ein Beispiel für eine japanische Kfz-Versicherung mit der Vorlage für die Zusammenfassung der Schadensmeldung.

Schritt 2

Schritt 2.2

Speichern Sie das Eingabeaufforderungsvorlagen-Asset mit dem richtigen Aufgabentyp.

Schritt 3.1

Schritt 3.2

Sie können eine Auswertung starten, indem Sie die Schaltfläche Auswerten auf der Prompt Lab seite.

Schritt 4

Wählen Sie die Sprache aus, für die Sie die Metriken auswerten möchten, und klicken Sie auf Weiter.
- Nachdem Sie eine Sprache ausgewählt haben, können Sie sie nicht mehr ändern. Sie müssen ein neues Eingabeaufforderungsvorlagen-Asset für eine andere Sprache erstellen.
- Die nicht unterstützten Metriken sind in der Benutzeroberfläche nicht auswertbar.

Schritt 5

Schritt 5.2

Laden Sie den Testdatensatz in der ausgewählten Sprache hoch und wählen Sie die Spaltenzuordnung aus. Wählen Sie dann Weiter, um zum Abschnitt Überprüfen und Bewerten zu gelangen, wo Sie die gewählte Sprache überprüfen können.

Hinweis: Das Sprachfeld kann noch geändert werden, indem Sie zum Abschnitt Abmessungen auswählen zurückkehren.

Schritt 6

Klicken Sie auf Auswerten, um die ausgewählten Metriken für die gewählte Sprache genauer zu bewerten. Sie können die ausgewählte Sprache auch in der Modellzusammenfassung sehen, sobald die Bewertung abgeschlossen ist.

Schritt 7

Bewertung der generativen KI-Ausgabe in mehreren Sprachen

Unterstützte Sprachen

Unterstützte Metriken nach Aufgabentyp

Ausführen von Auswertungen über die Benutzeroberfläche

Weitere Informationen