Die Bewertung eines KI-Agenten erfordert einen strukturierten Ansatz innerhalb eines umfassenderen formalen Observability Frameworks. Die Methoden der Bewertung (oder Evaluierung) unterscheiden sich stark, aber der Prozess umfasst in der Regel die folgenden Schritte:
1. Definieren Sie Bewertungsziele und -metriken
Was ist der Zweck des Agenten? Was sind die erwarteten Ergebnisse? Wie wird die KI in realen Szenarien eingesetzt?
Unter „Allgemeine Kennzahlen zur Bewertung von KI-Agenten“ finden Sie einige der beliebtesten Metriken, die in die Kategorien Leistung, Interaktion und Erfahrung, Verantwortungsvolle KI, System und Effizienz sowie aufgabenspezifische Metriken fallen.
2. Sammeln Sie Daten und bereiten Sie sich auf Tests vor
Um den KI-Agenten effektiv zu bewerten, verwenden Sie repräsentative Bewertungsdatensätze, einschließlich verschiedener Eingaben, die reale Szenarien widerspiegeln, und Testszenarien, die Echtzeitbedingungen simulieren. Kommentierte Daten stellen eine Grundwahrheit dar, anhand derer KI-Modelle getestet werden können.
Planen Sie jeden möglichen Schritt des Workflows eines Agenten ab, egal ob es darum geht, eine API aufzurufen, Informationen an einen zweiten Agenten weiterzuleiten oder eine Entscheidung zu treffen. Indem Sie den KI-Workflow in einzelne Teile zerlegen, ist es einfacher zu beurteilen, wie der Agent jeden Schritt handhabt. Berücksichtigen Sie auch den gesamten Ansatz des Agenten während des Workflows, oder mit anderen Worten, den Ausführungspfad, den der Agent bei der Lösung eines mehrstufigen Problems einschlägt.
3. Führen Sie Tests durch
Führen Sie den KI-Agenten in verschiedenen Umgebungen aus, möglicherweise mit verschiedenen LLMs als Rückgrat, und verfolgen Sie die Leistung. Teilen Sie die einzelnen Schritte des Agenten auf und bewerten Sie sie jeweils. Überwachen Sie beispielsweise die Verwendung von Retrieval Augmented Generation (RAG) durch den Agenten, um Informationen aus einer externen Datenbank abzurufen, oder die Antwort eines API-Aufrufs.
4. Ergebnisse analysieren
Vergleichen Sie die Ergebnisse mit vordefinierten Erfolgskriterien, falls vorhanden, und verwenden Sie, falls nicht, LLM-as-a-judge (siehe unten). Bewerten Sie Kompromisse, indem Sie Leistung und ethische Überlegungen abwägen.
Hat der Agent das richtige Tool ausgewählt? Hat er die richtige Funktion aufgerufen? Hat er die richtigen Informationen im richtigen Kontext weitergegeben? Hat er eine sachlich korrekte Antwort gegeben?
Die Verwendung von Funktionsaufrufen/Tools ist eine grundlegende Fähigkeit zum Aufbau intelligenter Agenten, die in der Lage sind, kontextgenaue Antworten in Echtzeit zu liefern. Erwägen Sie eine dedizierte Bewertung und Analyse mit einem regelbasierten Ansatz zusammen mit einer semantischen Bewertung mit LLM-as-a-Judge.
LLM-as-a-judge ist ein automatisiertes Bewertungssystem, das die Leistung von KI-Agenten anhand vordefinierter Kriterien und Metriken bewertet. Anstatt sich ausschließlich auf menschliche Prüfer zu verlassen, wendet ein LLM-as-a-judge Algorithmen, heuristische Verfahren oder KI-basierte Bewertungsmodelle an, um die Antworten, Entscheidungen oder Aktionen eines Agenten zu bewerten.
Siehe „Metriken zur Bewertung von Funktionsaufrufen“ weiter unten.
5. Optimieren und iterieren
Entwickler können jetzt Prompts optimieren, Algorithmen debuggen, Logik optimieren oder agentische Architekturen auf der Grundlage von Ergebnissen konfigurieren. Beispielsweise können Anwendungsfälle für den Kundensupport verbessert werden, indem die Reaktionsgenerierung und die Erledigung von Aufgaben beschleunigt werden. Die Systemeffizienz kann im Hinblick auf Skalierbarkeit und Ressourcennutzung optimiert werden.