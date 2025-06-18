Die zunehmende Verbreitung von KI-Agenten bringt erhebliche Komplexitäten mit sich, wie z. B. die Herausforderung, die Leistung, Zuverlässigkeit, Sicherheit und das ethische Verhalten dieser autonomen KI-Agenten zu bewerten.

Best Practices zur Evaluierung von agentischer KI können die Gefährdung durch verschiedene vorhersehbare und unbekannte Risiken verringern. Eine effektive Leistungsverfolgung kann für Unternehmen und Entwickler jedoch eine Herausforderung für Unternehmen und Entwickler sein, da die Bearbeiter nicht nur die Ergebnisse, sondern auch die Verhaltensweisen, Entscheidungen und Absichten beobachten müssen. Mit watsonx.governance können Unternehmen die Leistung von Servicemitarbeitern bewerten anhand von:

Bewertungsmetriken mit Benchmarks : Hilft bei der Bewertung der Kompetenz der Mitarbeiter insgesamt und bei verschiedenen Aufgaben.

: Hilft bei der Bewertung der Kompetenz der Mitarbeiter insgesamt und bei verschiedenen Aufgaben. Ursachenanalyse : Identifiziert die Gründe für schlechte Entscheidungsketten bei der Leistungsverfolgung, nicht nur die Endergebnisse, um Verbesserungen zu ermöglichen, z. B. bei Mangel an unvoreingenommenen Daten.

: Identifiziert die Gründe für schlechte Entscheidungsketten bei der Leistungsverfolgung, nicht nur die Endergebnisse, um Verbesserungen zu ermöglichen, z. B. bei Mangel an unvoreingenommenen Daten. Menschliches Feedback oder Red Teaming: Ermöglicht es KMUs, die Aktionen des Agenten zu beobachten und zu verifizieren (Einbindung von Menschen) und Agenten auf Anfälligkeiten zu testen.

Anfang März hat watsonx.governance diese neuen Funktionen eingeführt, um weitere spezialisierte Metriken zu unterstützen. Die neuen Bewertungsmetriken für RAG-agentische KI sind jetzt verfügbar. Der umfassende Satz an Metriken zur Bewertung der Leistung umfasst unter anderem HAP, PII, Prompt Injection, Kontextrelevanz, Treue, Antwortähnlichkeit, Antwortrelevanz, Trefferquote, durchschnittliche Präzision, reziproken Rang und erfolglose Anfragen, um eine gründliche Bewertung der Effektivität unseres Systems zu gewährleisten. Dies hilft sicherzustellen, dass die Bearbeiter angemessen handeln und Warnzeichen zu erkennen, indem die notwendigen Leitplanken zur Regulierung des Verhaltens der Bearbeiter im Hinblick auf das gewünschte Ergebnis gesetzt werden.

Diese Metriken sind verfügbar, indem Sie dem Toolknoten in einer LangGraph-Anwendung einen einfachen Python-Decorator hinzufügen. Das Hinzufügen dieses Decorators führt dazu, dass die Metriken als Nebenprodukt der Ausführung des Knotens in der agentischen Anwendung berechnet werden. Die berechnete Metrik kann dann innerhalb der Anwendung verwendet werden, um Ablaufentscheidungen zu treffen. Wenn beispielsweise der aus der Vektordatenbank abgerufene Kontext für die Benutzeranfrage nicht relevant ist, generieren Sie keine Antwort, sondern versuchen Sie eine Websuche, um den richtigen Kontext abzurufen. Diese Evaluatoren sind nicht nur einfach zu bedienen, sondern auch effizient und umfassen sowohl Open-Source-Metriken als auch erweiterte IBM-Metriken. So bieten sie eine breite Palette an Funktionen und eignen sich für verschiedene Anwendungsfälle und Aufgabentypen.