Auswerten mit „ CSV “-Dateien
Laden Sie „ CSV “-Dateien mit Testfällen hoch, um Ihren Agentenentwurf vor der Bereitstellung zu testen.
Diese Evaluierungsfunktion wird in Kürze nicht mehr unterstützt. Nutzen Sie die neue Evaluierungsumgebung zum Erstellen und Verwalten von Testfällen.
Übersicht
Mit der Upload-Bewertungsfunktion von „ CSV “ können Sie Ihren Agenten testen, indem Sie Testfälle im Format „ CSV “ hochladen. Sie können gezielte oder umfassende Überprüfungen durchführen und detaillierte Ergebnisse einsehen, um Probleme vor der Bereitstellung zu erkennen.
Wichtigste Funktionen :
Laden Sie die Dateien „ CSV “ mit den Aufgabenstellungen und den erwarteten Antworten hoch
Gezielte oder vollständige Auswertungen durchführen
Überprüfen Sie den Status „Bestanden“ oder „Nicht bestanden“ sowie die Qualitätskennzahlen
Bewertungsberichte herunterladen
Vorbereitende Schritte
Stellen Sie die Tools, Mitarbeiter und das Fachwissen bereit, die Ihr Makler benötigt. Da bei den Auswertungen die aktuelle Konfiguration Ihres Agenten verwendet wird, gewährleistet die Vorbereitung dieser Eingaben realistische Tests.
Die Agentenbewertung ist in isolierten Mandanten in „ IBM Cloud “ nicht verfügbar.
Wenn die vollständige Schwärzung aktiviert ist, ist die Entwurfsbewertung deaktiviert. Das Testergebnis hängt von den Trace-Daten ab, und ohne Zugriff auf die Trace-Details können Auswertungen nicht zuverlässig durchgeführt werden. Weitere Informationen zu den Trace-Details finden Sie unter „Überwachungsagenten “.
Die KI-generierten Antworten Ihres Agenten können variieren. Validieren Sie die Antworten vor der Verarbeitung.
Auf die Testoption zugreifen
So rufen Sie die Testoption auf :
Rufen Sie die Seite zur Agentenkonfiguration auf.
Klicken Sie auf „Testagent“ > „Alte Benutzeroberfläche “.
Die Seite „Testfälle und Auswertungen verwalten“ wird geöffnet.
Testfälle erstellen
Erstellen Sie eine Datei namens „ CSV “ (maximale Größe: 5 MB), die Testfälle für Ihren Agenten enthält.
So erstellen Sie Testfälle :
Klicken Sie auf „Tests hochladen“ > „Herunterladen“. CSV Vorlage, um eine Beispieldatei herunterzuladen.
Fügen Sie für jeden Testfall Folgendes hinzu:
Eine,
Promptdie eine realistische Äußerung eines Benutzers darstelltEine,
Answerdie die erwartete Reaktion des Agenten definiert
Beispiel für das Format „ CSV “:
Prompt,Answer
"What is the capital of France?","Paris"
"List three healthcare providers.","Provider A, Provider B, Provider C"
Testfälle hochladen
So laden Sie Testfälle hoch :
Klicken Sie auf der Seite „Testverwaltung“ auf „Tests hochladen “.
Klicken Sie auf Ihre „ CSV “-Datei oder ziehen Sie sie in das Upload-Feld.
Klicken Sie zur Bestätigung auf Hochladen.
Das System überprüft das Dateiformat und stellt sicher, dass die Dateigröße die Obergrenze von 5 MB nicht überschreitet. Wenn Sie zuvor Dateien hochgeladen haben, bleiben diese im System verfügbar, werden jedoch automatisch abgewählt. Nur die neu hochgeladenen Testfälle bleiben für die Bewertung ausgewählt.
Laden Sie jeweils nur eine Datei hoch, damit jede Bewertung zielgerichtet und nachvollziehbar bleibt.
Verwaltung von Testfällen
Nachdem Sie Ihre „ CSV “-Datei hochgeladen haben, können Sie die Testfälle in der Tabelle „Testfälle“ anzeigen und verwalten.
Mögliche Aktionen :
Aktion |
Beschreibung |
|---|---|
Ausführen |
Nur die ausgewählten Testfälle ausführen |
Löschen |
Die ausgewählten Testfälle entfernen |
Abbrechen |
Alle ausgewählten Eingabeaufforderungen abwählen |
Alle ausführen |
Alle verfügbaren Testfälle auswählen und ausführen |
Merkmale des Tisches :
Suche : Bestimmte Testfälle schnell finden (nur verfügbar, wenn keine Testfälle ausgewählt sind)
Sortieren : Klicken Sie auf die Spaltenüberschriften, um nach „Prompt“, „Erstellungsdatum“ oder „Letzter Lauf“ zu sortieren
Paginierung : Bis zu 5 Eingabeaufforderungen pro Seite anzeigen
Bewertungen durchführen
Nachdem Sie Ihre Testfälle hochgeladen und ausgewählt haben, klicken Sie auf „Ausführen“, um die Auswertung zu starten.
Solange eine Auswertung läuft, bleibt die Tabelle „Testfälle“ vorübergehend deaktiviert. Das System schaltet es nach Abschluss der Auswertung wieder frei.
Ihre Bewertung kann bis zu 10 Minuten dauern, abhängig von der Anzahl der Testfälle und der Gesamtbelastung des Systems.
Überprüfung der Bewertungsergebnisse
Jede Bewertung wird als Zeile in der Tabelle „Bewertungen“ angezeigt.
Eigenschaft |
Beschreibung |
|---|---|
Bewertungsdatum |
Als Sie die Bewertung gestartet haben |
Auswertungsstatus |
In Bearbeitung, Abgeschlossen oder Fehler |
Anzahl der Tests |
Wie viele Fragen haben Sie in die Bewertung aufgenommen? |
Ausführen am |
Benutzer, der die Bewertung gestartet hat |
Herunterladen |
Exportieren Sie Ihren Auswertungsbericht im Format „ CSV “ |
Analyse von Bewertungskennzahlen
Um die Bewertungskennzahlen zu analysieren, wählen Sie eine Bewertung aus, indem Sie auf den Zeitstempel unter „Bewertungsdatum“ klicken. Dadurch wird ein detailliertes Dashboard geöffnet, das die einzelnen Testergebnisse nach Kategorien geordnet anzeigt:
Kategorie |
Beschreibung |
|---|---|
Bestanden |
Der Agent hat die Eingabe erfolgreich verarbeitet und eine Ausgabe zurückgegeben |
Fehlgeschlagen |
Bei der Ausführung der Eingabeaufforderung ist ein Fehler aufgetreten |
Hinweise, die beachtet werden müssen |
Hinweise, die unter „Antwortqualität“, „Toolaufruf“ oder „Nachrichtenvervollständigung“ markiert sind, weisen auf Bereiche hin, in denen die Konfiguration des Agenten möglicherweise angepasst werden muss |
Antwortqualität
Kennzahlen zur Antwortqualität messen, inwieweit die Antworten des Mitarbeiters den Erwartungen der Nutzer entsprechen:
Treue : Misst, wie genau die Ausgabe den vorgegebenen Kontext oder die Quellinformationen widerspiegelt und diesen bzw. diese einhält (Standardschwellenwert: 0.70 )
Relevanz : Bewertet, wie relevant die Antwort für die Frage des Nutzers ist (Standardschwellenwert: 0.70 )
Korrektheit : Misst, wie genau die generierte Ausgabe mit der Referenzantwort übereinstimmt, basierend auf den tatsächlichen Werten in Ihrer Datei „ CSV “ (Standardschwellenwert: 0.70 )
Werkzeugqualität
Kennzahlen zur Tool-Qualität bewerten sowohl die dem Agenten zur Verfügung stehenden Tools als auch die spezifischen Tool-Aufrufe, die er ausführt:
Genauigkeit : Überprüft die Syntax von Tool-Aufrufen, einschließlich der Parameterstruktur und der Korrektheit
Relevanz : Beurteilt anhand des Gesprächskontextes, ob das ausgewählte Tool der Anfrage des Nutzers entspricht (Standardschwellenwert: 0.80 )
Nachrichtenvervollständigung
Die Nachrichtenabschlussquote gibt an, wie zuverlässig der Agent Nachrichten zur Laufzeit abschließt:
Erfolg : Anzahl der Nachrichten, die ohne Ausnahmen erfolgreich abgeschlossen wurden
Fehlgeschlagen : Anzahl der Nachrichten, die während der Ausführung fehlschlagen und einen Fehler zurückgeben
Nächste Schritte
Nachdem Sie die Bewertungsergebnisse geprüft und Verbesserungsmöglichkeiten ermittelt haben, sollten Sie die Tools optimieren, Ihr Wissen auffrischen und die Konfigurationen anpassen. Regelmäßige Analysen helfen Ihnen dabei, einen Agenten zu entwickeln, der mit der Zeit immer präziser und zuverlässiger wird und sich immer besser an Ihren Geschäftszielen ausrichtet.
Erwägen Sie die Umstellung auf die neue Evaluierungsumgebung, um die Erstellung und Verwaltung von Testfällen zu optimieren.