Was ist KI-Agentenevaluierung?

Autoren

Cole Stryker

Staff Editor, AI Models

IBM Think

Michal Shmueli-Scheuer

Distinguished Engineer, AI Benchmarking and Evaluation

Die Bewertung von KI-Agenten bezieht sich auf den Prozess der Bewertung und des Verständnisses der Leistung eines KI-Agenten bei der Ausführung von Aufgaben, der Entscheidungsfindung und der Interaktion mit Benutzern. Angesichts ihrer inhärenten Autonomie ist die Bewertung der Agenten von entscheidender Bedeutung, um ihre ordnungsgemäße Funktionsweise zu fördern. KI-Agenten müssen sich gemäß der Absicht ihrer Designer verhalten, effizient sein und bestimmte KI-Prinzipien einhalten, um den Bedürfnissen des Unternehmens gerecht zu werden. Die Evaluierung hilft zu überprüfen, ob die Agenten diese Anforderungen erfüllen, und trägt außerdem zur Verbesserung der Qualität des Agenten bei, indem Bereiche für Verfeinerung und Optimierung identifiziert werden.

Generative KI-Agenten werden häufig anhand herkömmlicher Text-to-Text-Aufgaben bewertet, ähnlich wie bei Standard-Benchmarks für Large Language Models (LLMs), bei denen häufig Metriken wie Kohärenz, Relevanz und Wiedergabetreue des generierten Textes verwendet werden. Generative KI-Agenten führen jedoch in der Regel umfassendere und komplexere Operationen durch – einschließlich mehrstufiger Schlussfolgerungen, Aufrufen von Tools und Interaktion mit externen Systemen –, die eine umfassendere Bewertung erfordern. Selbst wenn es sich bei der endgültigen Ausgabe um Text handelt, kann sie das Ergebnis von Zwischenaktionen wie der Abfrage einer Datenbank oder dem Aufrufen einer API sein, die jeweils separat ausgewertet werden müssen.

In anderen Fällen erzeugt der Agent möglicherweise überhaupt keine Textausgabe, sondern erledigt stattdessen eine Aufgabe, z. B. das Aktualisieren eines Datensatzes oder das Senden einer Nachricht, wobei der Erfolg an der korrekten Ausführung gemessen wird. Daher muss die Evaluierung über die oberflächliche Textqualität hinausgehen und das allgemeine Verhalten der Agenten, den Aufgabenerfolg und die Ausrichtung an der Benutzerabsicht bewerten. Um die Entwicklung hochleistungsfähiger, aber ressourcenintensiver Agenten zu vermeiden, die ihre praktische Bereitstellung einschränken, müssen außerdem Kosten- und Effizienzmessungen in die Bewertung einbezogen werden.

Über die Messung der Leistung hinaus müssen bei der Bewertung von KI-Agenten auch kritische Dimensionen wie Sicherheit, Vertrauenswürdigkeit, Richtlinieneinhaltung und Verzerrungsvermeidung priorisiert werden. Diese Faktoren sind für das Bereitstellen von Agenten in realen, hochriskanten Umgebungen von entscheidender Bedeutung. Die Evaluierung hilft sicherzustellen, dass Agenten schädliches oder unsicheres Verhalten vermeiden, das Vertrauen der Benutzer durch vorhersehbare und überprüfbare Ausgaben aufrechterhalten und sich vor Manipulation oder Missbrauch schützen.

Um diese funktionalen (Qualität, Kosten) und nicht-funktionalen (Sicherheit) Ziele zu erreichen, können die Bewertungsmethoden Benchmark-Tests, Human-in-the-Loop-Bewertungen, A/B-Tests und reale Simulationen umfassen. Durch die systematische Bewertung von KI-Agenten können Unternehmen ihre KI-Fähigkeiten verbessern, die Automatisierung optimieren und Geschäftsfunktionen verbessern und gleichzeitig die Risiken im Zusammenhang mit unsicherer, unzuverlässiger oder voreingenommener agentischer KI minimieren.

Die neuesten Tech-News – von Experten bestätigt

Bleiben Sie mit dem Think-Newsletter über die wichtigsten – und faszinierendsten – Branchentrends in den Bereichen KI, Automatisierung, Daten und darüber hinaus auf dem Laufenden. Weitere Informationen finden Sie in der IBM Datenschutzerklärung.

Vielen Dank! Sie haben ein Abonnement abgeschlossen.

Ihr Abonnement wird auf Englisch geliefert. In jedem Newsletter finden Sie einen Abmeldelink. Hier können Sie Ihre Abonnements verwalten oder sich abmelden. Weitere Informationen finden Sie in unserer IBM Datenschutzerklärung.

So funktioniert die Bewertung von KI-Agenten

Die Bewertung eines KI-Agenten erfordert einen strukturierten Ansatz innerhalb eines umfassenderen formalen Observability Frameworks. Die Methoden der Bewertung (oder Evaluierung) unterscheiden sich stark, aber der Prozess umfasst in der Regel die folgenden Schritte:

1. Definieren Sie Bewertungsziele und -metriken

Was ist der Zweck des Agenten? Was sind die erwarteten Ergebnisse? Wie wird die KI in realen Szenarien eingesetzt?

Unter „Allgemeine Kennzahlen zur Bewertung von KI-Agenten“ finden Sie einige der beliebtesten Metriken, die in die Kategorien Leistung, Interaktion und Erfahrung, Verantwortungsvolle KI, System und Effizienz sowie aufgabenspezifische Metriken fallen.

2. Sammeln Sie Daten und bereiten Sie sich auf Tests vor

Um den KI-Agenten effektiv zu bewerten, verwenden Sie repräsentative Bewertungsdatensätze, einschließlich verschiedener Eingaben, die reale Szenarien widerspiegeln, und Testszenarien, die Echtzeitbedingungen simulieren. Kommentierte Daten stellen eine Grundwahrheit dar, anhand derer KI-Modelle getestet werden können.

Planen Sie jeden möglichen Schritt des Workflows eines Agenten ab, egal ob es darum geht, eine API aufzurufen, Informationen an einen zweiten Agenten weiterzuleiten oder eine Entscheidung zu treffen. Indem Sie den KI-Workflow in einzelne Teile zerlegen, ist es einfacher zu beurteilen, wie der Agent jeden Schritt handhabt. Berücksichtigen Sie auch den gesamten Ansatz des Agenten während des Workflows, oder mit anderen Worten, den Ausführungspfad, den der Agent bei der Lösung eines mehrstufigen Problems einschlägt.

3. Führen Sie Tests durch

Führen Sie den KI-Agenten in verschiedenen Umgebungen aus, möglicherweise mit verschiedenen LLMs als Rückgrat, und verfolgen Sie die Leistung. Teilen Sie die einzelnen Schritte des Agenten auf und bewerten Sie sie jeweils. Überwachen Sie beispielsweise die Verwendung von Retrieval Augmented Generation (RAG) durch den Agenten, um Informationen aus einer externen Datenbank abzurufen, oder die Antwort eines API-Aufrufs.

4. Ergebnisse analysieren

Vergleichen Sie die Ergebnisse mit vordefinierten Erfolgskriterien, falls vorhanden, und verwenden Sie, falls nicht, LLM-as-a-judge (siehe unten). Bewerten Sie Kompromisse, indem Sie Leistung und ethische Überlegungen abwägen.

Hat der Agent das richtige Tool ausgewählt? Hat er die richtige Funktion aufgerufen? Hat er die richtigen Informationen im richtigen Kontext weitergegeben? Hat er eine sachlich korrekte Antwort gegeben?

Die Verwendung von Funktionsaufrufen/Tools ist eine grundlegende Fähigkeit zum Aufbau intelligenter Agenten, die in der Lage sind, kontextgenaue Antworten in Echtzeit zu liefern. Erwägen Sie eine dedizierte Bewertung und Analyse mit einem regelbasierten Ansatz zusammen mit einer semantischen Bewertung mit LLM-as-a-Judge.

LLM-as-a-judge ist ein automatisiertes Bewertungssystem, das die Leistung von KI-Agenten anhand vordefinierter Kriterien und Metriken bewertet. Anstatt sich ausschließlich auf menschliche Prüfer zu verlassen, wendet ein LLM-as-a-judge Algorithmen, heuristische Verfahren oder KI-basierte Bewertungsmodelle an, um die Antworten, Entscheidungen oder Aktionen eines Agenten zu bewerten.

Siehe „Metriken zur Bewertung von Funktionsaufrufen“ weiter unten.

5. Optimieren und iterieren

Entwickler können jetzt Prompts optimieren, Algorithmen debuggen, Logik optimieren oder agentische Architekturen auf der Grundlage von Ergebnissen konfigurieren. Beispielsweise können Anwendungsfälle für den Kundensupport verbessert werden, indem die Reaktionsgenerierung und die Erledigung von Aufgaben beschleunigt werden. Die Systemeffizienz kann im Hinblick auf Skalierbarkeit und Ressourcennutzung optimiert werden.

KI-Agenten

5 Arten von KI-Agenten: Autonome Funktionen und Anwendungen in der echten Welt

Erfahren Sie, wie sich zielgerichtete und dienstprogrammbasierte KI an Workflows und komplexe Umgebungen anpassen kann.

Metriken zur Bewertung von KI-Agenten

Entwickler möchten, dass Agenten wie vorgesehen funktionieren. Und angesichts der Autonomie von KI-Agenten ist es wichtig, das „Warum“ hinter den von der KI getroffenen Entscheidungen zu verstehen. Überprüfen Sie einige der häufigsten Metriken, die Entwickler zur erfolgreichen Bewertung ihrer Agenten verwenden können.

Aufgabenspezifisch

Je nach KI-Anwendung können spezifische Metriken für die Qualitätsbewertung anwendbar sein:

  • LLM-as-a-judge bewertet die Qualität der KI-Textgenerierung unabhängig von der Verfügbarkeit von Grundwahrheitsdaten.
  • BLEU und ROUGE sind kostengünstige Alternativen, die die Qualität von KI-generierten Text durch einen Vergleich mit von Menschen geschriebenem Text bewerten.

Zu den weiteren funktionalen Metriken zur Bewertung der Leistung von KI-Agenten gehören:

  • Die Erfolgsrate/Aufgabenerledigung misst den Anteil der Aufgaben oder Ziele, die der Agent richtig oder zufriedenstellend erledigt, an der Gesamtzahl der unternommenen
    Versuche.
  • Fehlerrate ist der Prozentsatz falscher Ausgaben oder fehlgeschlagener Vorgänge.
  • Kosten misst die Ressourcennutzung, wie Token oder Rechenzeit.
  • Latenz ist die Zeit, die ein KI-Agent für die Verarbeitung und die Rückgabe von Ergebnissen benötigt.

Ethische und verantwortungsvolle KI

  • Prompt-Injection-Sicherheitslücke bewertet die Erfolgsquote von feindlichen Prompts, die das beabsichtigte Verhalten des Agenten verändern.
  • Die Richtlinienkonformitätsrate ist der Prozentsatz der Antworten, die den vordefinierten organisatorischen oder ethischen Richtlinien entsprechen.
  • Verzerrung und Fairness-Score erkennt Verzerrungen in der KI-Entscheidungsfindung zwischen verschiedenen Benutzergruppen.

Interaktion und Benutzererfahrung

Für KI-Agenten, die mit Benutzern interagieren, wie zum Beispiel Chatbots und virtuelle Assistenten, betrachten die Prüfer diese Metriken.

  • Der User Satisfaction Score (CSAT) misst, wie zufrieden Benutzer mit den KI-Antworten sind.

  • Die Engagement-Rate verfolgt, wie oft Benutzer mit dem KI-System interagieren.

  • Der Konversationsfluss bewertet die Fähigkeit der KI, kohärente und bedeutungsvolle Gespräche zu führen.

  • Die Aufgabenabschlussrate misst, wie effektiv der KI-Agent Benutzern hilft, eine Aufgabe zu erledigen.

Funktionsaufruf

Diese regelbasierten Metriken helfen bei der Bewertung der betrieblichen Effektivität von KI-gestützten Systemen:

  • Falscher Funktionsname: Der Agent hat versucht, eine vorhandene Funktion aufzurufen, aber einen falschen Namen oder eine falsche Schreibweise verwendet, was zu einem Fehler bei der Ausführung führte.
  • Fehlende erforderliche Parameter: Der Agent hat einen Funktionsaufruf initiiert, aber einen oder mehrere Parameter weggelassen, die notwendig sind, damit die Funktion funktioniert.
  • Falscher Parameterwerttyp: Der Agent hat einen Parameterwert angegeben, aber sein Typ (Zeichenfolge, Zahl, boolescher Wert) entsprach nicht dem, was die Funktion erwartet hatte.
  • Zulässige Werte: Der Agent hat einen Wert verwendet, der außerhalb der akzeptierten oder vordefinierten Werte für einen bestimmten Parameter liegt.
  • Halluzinierter Parameter: Der Agent hat einen Parameter in den Funktionsaufruf aufgenommen, der in der Spezifikation der Funktion nicht definiert oder unterstützt wird.

Hier sind einige semantische Metriken, die auf LLM-as-a-judge basieren.

  • Parameterwert-Grounding stellt sicher, dass jeder Parameterwert direkt vom Text des Benutzers, dem Kontextverlauf (z. B. frühere Ausgaben von API-Aufrufen) oder den Standardwerten der API-Spezifikation abgeleitet ist.
  • Einheiten-Transformation verifiziert Einheiten- oder Formatkonvertierungen (über Basistypen hinaus) zwischen Werten im Kontext und den Parameterwerten im Toolaufruf.
Weiterführende Lösungen
KI-Agenten für Unternehmen

Entwickeln, implementieren und verwalten Sie leistungsstarke KI-Assistenten und -Agenten, die Workflows und Prozesse mit generativer KI automatisieren.

    Entdecken Sie watsonx Orchestrate
    IBM KI-Agenten-Lösungen

    Gestalten Sie die Zukunft Ihres Unternehmens mit KI-Lösungen, denen Sie vertrauen können.

    KI-Agenten-Lösungen erkunden
    IBM Consulting KI-Dienstleistungen

    Die KI-Services von IBM Consulting unterstützen Sie dabei, die Art und Weise, wie Unternehmen mit KI arbeiten, neu zu denken.

    Erkunden Sie die Services im Bereich der künstlichen Intelligenz
    Machen Sie den nächsten Schritt

    Ganz gleich, ob Sie vorgefertigte Apps und Skills anpassen oder mithilfe eines KI-Studios eigene Agentenservices erstellen und bereitstellen möchten, die IBM watsonx-Plattform bietet Ihnen alles, was Sie brauchen.

    Entdecken Sie watsonx Orchestrate watsonx.ai erkunden