Auswerten mit „ CSV “-Dateien

Laden Sie „ CSV “-Dateien mit Testfällen hoch, um Ihren Agentenentwurf vor der Bereitstellung zu testen.

Wichtig:

Diese Evaluierungsfunktion wird in Kürze nicht mehr unterstützt. Nutzen Sie die neue Evaluierungsumgebung zum Erstellen und Verwalten von Testfällen.

Übersicht

Mit der Upload-Bewertungsfunktion von „ CSV “ können Sie Ihren Agenten testen, indem Sie Testfälle im Format „ CSV “ hochladen. Sie können gezielte oder umfassende Überprüfungen durchführen und detaillierte Ergebnisse einsehen, um Probleme vor der Bereitstellung zu erkennen.

Wichtigste Funktionen :

  • Laden Sie die Dateien „ CSV “ mit den Aufgabenstellungen und den erwarteten Antworten hoch

  • Gezielte oder vollständige Auswertungen durchführen

  • Überprüfen Sie den Status „Bestanden“ oder „Nicht bestanden“ sowie die Qualitätskennzahlen

  • Bewertungsberichte herunterladen

Vorbereitende Schritte

Stellen Sie die Tools, Mitarbeiter und das Fachwissen bereit, die Ihr Makler benötigt. Da bei den Auswertungen die aktuelle Konfiguration Ihres Agenten verwendet wird, gewährleistet die Vorbereitung dieser Eingaben realistische Tests.

Wichtig:
  • Die Agentenbewertung ist in isolierten Mandanten in „ IBM Cloud “ nicht verfügbar.

  • Wenn die vollständige Schwärzung aktiviert ist, ist die Entwurfsbewertung deaktiviert. Das Testergebnis hängt von den Trace-Daten ab, und ohne Zugriff auf die Trace-Details können Auswertungen nicht zuverlässig durchgeführt werden. Weitere Informationen zu den Trace-Details finden Sie unter „Überwachungsagenten “.

  • Die KI-generierten Antworten Ihres Agenten können variieren. Validieren Sie die Antworten vor der Verarbeitung.

Auf die Testoption zugreifen

So rufen Sie die Testoption auf :

  1. Rufen Sie die Seite zur Agentenkonfiguration auf.

  2. Klicken Sie auf „Testagent“ > „Alte Benutzeroberfläche “.

Die Seite „Testfälle und Auswertungen verwalten“ wird geöffnet.

Testfälle erstellen

Erstellen Sie eine Datei namens „ CSV “ (maximale Größe: 5 MB), die Testfälle für Ihren Agenten enthält.

So erstellen Sie Testfälle :

  1. Klicken Sie auf „Tests hochladen“ > „Herunterladen“. CSV Vorlage, um eine Beispieldatei herunterzuladen.

  2. Fügen Sie für jeden Testfall Folgendes hinzu:

    • Eine, Prompt die eine realistische Äußerung eines Benutzers darstellt

    • Eine, Answer die die erwartete Reaktion des Agenten definiert

Beispiel für das Format „ CSV “:

Prompt,Answer
"What is the capital of France?","Paris"
"List three healthcare providers.","Provider A, Provider B, Provider C"

Testfälle hochladen

So laden Sie Testfälle hoch :

  1. Klicken Sie auf der Seite „Testverwaltung“ auf „Tests hochladen “.

  2. Klicken Sie auf Ihre „ CSV “-Datei oder ziehen Sie sie in das Upload-Feld.

  3. Klicken Sie zur Bestätigung auf Hochladen.

Das System überprüft das Dateiformat und stellt sicher, dass die Dateigröße die Obergrenze von 5 MB nicht überschreitet. Wenn Sie zuvor Dateien hochgeladen haben, bleiben diese im System verfügbar, werden jedoch automatisch abgewählt. Nur die neu hochgeladenen Testfälle bleiben für die Bewertung ausgewählt.

Hinweis:

Laden Sie jeweils nur eine Datei hoch, damit jede Bewertung zielgerichtet und nachvollziehbar bleibt.

Verwaltung von Testfällen

Nachdem Sie Ihre „ CSV “-Datei hochgeladen haben, können Sie die Testfälle in der Tabelle „Testfälle“ anzeigen und verwalten.

Mögliche Aktionen :

Aktion

Beschreibung

Ausführen

Nur die ausgewählten Testfälle ausführen

Löschen

Die ausgewählten Testfälle entfernen

Abbrechen

Alle ausgewählten Eingabeaufforderungen abwählen

Alle ausführen

Alle verfügbaren Testfälle auswählen und ausführen

Merkmale des Tisches :

  • Suche : Bestimmte Testfälle schnell finden (nur verfügbar, wenn keine Testfälle ausgewählt sind)

  • Sortieren : Klicken Sie auf die Spaltenüberschriften, um nach „Prompt“, „Erstellungsdatum“ oder „Letzter Lauf“ zu sortieren

  • Paginierung : Bis zu 5 Eingabeaufforderungen pro Seite anzeigen

Bewertungen durchführen

Nachdem Sie Ihre Testfälle hochgeladen und ausgewählt haben, klicken Sie auf „Ausführen“, um die Auswertung zu starten.

Hinweis:
  • Solange eine Auswertung läuft, bleibt die Tabelle „Testfälle“ vorübergehend deaktiviert. Das System schaltet es nach Abschluss der Auswertung wieder frei.

  • Ihre Bewertung kann bis zu 10 Minuten dauern, abhängig von der Anzahl der Testfälle und der Gesamtbelastung des Systems.

Überprüfung der Bewertungsergebnisse

Jede Bewertung wird als Zeile in der Tabelle „Bewertungen“ angezeigt.

Eigenschaft

Beschreibung

Bewertungsdatum

Als Sie die Bewertung gestartet haben

Auswertungsstatus

In Bearbeitung, Abgeschlossen oder Fehler

Anzahl der Tests

Wie viele Fragen haben Sie in die Bewertung aufgenommen?

Ausführen am

Benutzer, der die Bewertung gestartet hat

Herunterladen

Exportieren Sie Ihren Auswertungsbericht im Format „ CSV “

Analyse von Bewertungskennzahlen

Um die Bewertungskennzahlen zu analysieren, wählen Sie eine Bewertung aus, indem Sie auf den Zeitstempel unter „Bewertungsdatum“ klicken. Dadurch wird ein detailliertes Dashboard geöffnet, das die einzelnen Testergebnisse nach Kategorien geordnet anzeigt:

Kategorie

Beschreibung

Bestanden

Der Agent hat die Eingabe erfolgreich verarbeitet und eine Ausgabe zurückgegeben

Fehlgeschlagen

Bei der Ausführung der Eingabeaufforderung ist ein Fehler aufgetreten

Hinweise, die beachtet werden müssen

Hinweise, die unter „Antwortqualität“, „Toolaufruf“ oder „Nachrichtenvervollständigung“ markiert sind, weisen auf Bereiche hin, in denen die Konfiguration des Agenten möglicherweise angepasst werden muss

Antwortqualität

Kennzahlen zur Antwortqualität messen, inwieweit die Antworten des Mitarbeiters den Erwartungen der Nutzer entsprechen:

  • Treue : Misst, wie genau die Ausgabe den vorgegebenen Kontext oder die Quellinformationen widerspiegelt und diesen bzw. diese einhält (Standardschwellenwert: 0.70 )

  • Relevanz : Bewertet, wie relevant die Antwort für die Frage des Nutzers ist (Standardschwellenwert: 0.70 )

  • Korrektheit : Misst, wie genau die generierte Ausgabe mit der Referenzantwort übereinstimmt, basierend auf den tatsächlichen Werten in Ihrer Datei „ CSV “ (Standardschwellenwert: 0.70 )

Werkzeugqualität

Kennzahlen zur Tool-Qualität bewerten sowohl die dem Agenten zur Verfügung stehenden Tools als auch die spezifischen Tool-Aufrufe, die er ausführt:

  • Genauigkeit : Überprüft die Syntax von Tool-Aufrufen, einschließlich der Parameterstruktur und der Korrektheit

  • Relevanz : Beurteilt anhand des Gesprächskontextes, ob das ausgewählte Tool der Anfrage des Nutzers entspricht (Standardschwellenwert: 0.80 )

Nachrichtenvervollständigung

Die Nachrichtenabschlussquote gibt an, wie zuverlässig der Agent Nachrichten zur Laufzeit abschließt:

  • Erfolg : Anzahl der Nachrichten, die ohne Ausnahmen erfolgreich abgeschlossen wurden

  • Fehlgeschlagen : Anzahl der Nachrichten, die während der Ausführung fehlschlagen und einen Fehler zurückgeben

Nächste Schritte

Nachdem Sie die Bewertungsergebnisse geprüft und Verbesserungsmöglichkeiten ermittelt haben, sollten Sie die Tools optimieren, Ihr Wissen auffrischen und die Konfigurationen anpassen. Regelmäßige Analysen helfen Ihnen dabei, einen Agenten zu entwickeln, der mit der Zeit immer präziser und zuverlässiger wird und sich immer besser an Ihren Geschäftszielen ausrichtet.

Erwägen Sie die Umstellung auf die neue Evaluierungsumgebung, um die Erstellung und Verwaltung von Testfällen zu optimieren.