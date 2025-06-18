AIエージェントの普及により、これらの自律型AIエージェントの性能、信頼性、安全性、倫理的行動を評価する課題など、非常に複雑な課題が生じています。

エージェント型AI評価のベスト・プラクティスにより、さまざまな予測可能および未知のリスクにさらされるリスクを軽減できます。しかし、エージェントは出力だけでなく行動、決定、意図も観察する必要があるため、効果的なパフォーマンス追跡は組織や開発者にとって課題となる可能性があります。watsonx.governanceを使用すると、組織は次の機能を使用してエージェントの性能を評価できます。

ベンチマークによる評価指標 ：全体およびさまざまなタスクにおけるエージェントの能力を評価するのに役立ちます。

：全体およびさまざまなタスクにおけるエージェントの能力を評価するのに役立ちます。 根本原因分析 ：パフォーマンス追跡や意思決定プロセスにおいて、不十分な結果の根本的な原因を特定します。最終的な出力だけでなく、その意思決定の連鎖全体を把握し、改善の指針を得ることができます。例：偏りのないデータの欠如。

：パフォーマンス追跡や意思決定プロセスにおいて、不十分な結果の根本的な原因を特定します。最終的な出力だけでなく、その意思決定の連鎖全体を把握し、改善の指針を得ることができます。例：偏りのないデータの欠如。 フィードバックまたはレッドチーム化：SMEはエージェントの行動（ループ内の人間）を観察および検証し、エージェントの感受性をテストできます。

watsonx.governanceは3月以降、追加の特殊なメトリクスをサポートする新しい機能を導入しました。新しいRAGエージェント型AI評価メトリクスが利用できるようになりました。パフォーマンスを評価するための包括的なメトリクスには、HAP、PII、プロンプト・インジェクション、コンテキスト適合性、忠実性、回答の類似性、回答の関連性、ヒット率、平均適合率、順位の逆数、失敗リクエスト数などが含まれており、当社システムの有効性を徹底的に評価できるよう設計されています。これにより、エージェントが適切に行動しているかを確認し、警告サインを検知できます。また、必要なガードレールを追加して、望ましい成果に向けてエージェントの行動を調整できます。

これらのメトリクスは、LangGraphアプリケーションのツール・ノードにシンプルなPythonデコレーターを追加することで利用できます。このデコレーターを追加すると、アプリケーションでノードを実行する副産物としてメトリクスが計算されます。計算されたメトリクスはアプリケーション内で使用してフローを決定できます。たとえば、ベクトル・データベースから取得したコンテキストがユーザーのクエリに関連していない場合、回答を生成せず、代わりにWeb検索を行って正しいコンテキストを取得することが推奨されます。これらの評価ツールは使いやすいだけでなく効率的であり、オープンソース・メトリクスとIBM高度なメトリクスの両方が含まれています。このように、幅広い評価機能を提供し、さまざまなユースケースやタスク・タイプに適しています。