AIエージェント評価とは

共同執筆者

Staff Editor, AI Models

IBM Think

Distinguished Engineer, AI Benchmarking and Evaluation

AIエージェント評価とは、タスクの実行、意思決定、ユーザーとの対話においてAIエージェントのパフォーマンスを評価および理解するプロセスを指します。エージェントは本質的に自律性を持っているため、エージェントを評価することは、エージェントが適切に機能することを促進するために不可欠です。AIエージェントは、組織のニーズに応えるために、設計者の意図に従って動作し、効率的であり、特定の倫理的な AI原則に準拠する必要があります。評価は、エージェントがそのような要件を満たしていることを確認するのに役立ち、改善と最適化の余地がある領域を特定することで、エージェントの品質を向上させることにも役立ちます。

生成AI（gen AI）エージェントは、多くの場合、生成されたテキストの一貫性、関連性、忠実性などのメトリクスが一般的に使用される標準的な大規模言語モデル（LLM）ベンチマークに似た、従来のテキスト変換タスクで評価されます。しかし、生成AIエージェントは通常、複数ステップの推論、ツールの呼び出し、外部システムとの対話など、より広範で複雑な操作を実行し、より包括的な評価を必要とします。最終アウトプットがテキストの場合でも、データベースへのクエリやAPIの呼び出しなど、中間アクションの結果である場合があり、それぞれを個別に評価する必要があります。

また、エージェントはテキストのアウトプットをまったく生成せず、レコードの更新やメッセージの送信などのタスクを完了する場合があり、その場合は、正しい実行によって成功が測定されます。したがって、評価は、表面的なテキスト品質にとどまらず、全体的なエージェントの動作、タスクの成功、ユーザーの意図との整合性を評価する必要があります。さらに、実用的なデプロイメントを制限する、高能力だがリソースを大量に消費するエージェントのデプロイメントを回避するために、コストと効率の測定を評価の一部として含める必要があります。

AIエージェントを評価する際には、タスクのパフォーマンスの測定だけでなく、安全性、信頼性、ポリシーの遵守、バイアスの軽減といったクリティカルな要素を優先する必要があります。これらの要素は、現実世界の、リスクの高い環境にエージェントをデプロイするために不可欠です。評価は、エージェントが有害または安全でない行動を回避し、予測可能かつ検証可能なアウトプットを通じてユーザーの信頼を維持し、改ざんや誤用を防止するのに役立ちます。

これらの機能的（品質、コスト）と非機能的（安全性）の目標を達成するために、評価方法には、ベンチマーク・テスト、ヒューマン・イン・ザ・ループ・アセスメント、A/Bテスト、実世界シミュレーションなどがあります。AIエージェントを体系的に評価することで、組織はAI機能を強化し、オートメーションの取り組みを最適化し、ビジネス機能を強化すると同時に、安全でない、信頼できない、またはバイアスのあるエージェント型AIに関連するリスクを最小限に抑えることができます。

IBMニュースレター

The DX Leaders

AI活用のグローバル・トレンドや日本の市場動向を踏まえたDX、生成AIの最新情報を毎月お届けします。登録の際はIBMプライバシー・ステートメントをご覧ください。

AIエージェント評価の仕組み

AIエージェントを評価するには、より広範かつ正式なオブザーバビリティー・フレームワーク内での構造化されたアプローチが必要です。評価（またはeval）方法は大きく異なりますが、通常、プロセスには次のステップが含まれます。

1. 評価の目標とメトリクスを定義する

エージェントの目的は何ですか。期待される成果は何ですか。AIは現実世界のシナリオでどのように使用されますか。

パフォーマンス、インタラクションとユーザー・エクスペリエンス、倫理的で責任あるAI、システムと効率、タスク固有のメトリクスのカテゴリーに分類される、最も一般的なメトリクスの一部については、「一般的なAIエージェント評価メトリクス」を参照してください。

2. データを収集し、テストの準備をする

AIエージェントを効果的に評価するには、現実世界のシナリオを反映する多様なインプットやリアルタイムの条件をシミュレートするテストシナリオなどの代表的な評価データセットを使用します。注釈付きデータは、AIモデルをテストできるグラウンド・トゥルースを表します。

APIの呼び出し、2 番目のエージェントへの情報の受け渡し、意思決定など、エージェントのワークフローのあらゆる潜在的なステップをマッピングします。AIワークフローを個々の部分に分割することで、エージェントが各ステップをどのように処理するかを評価しやすくなります。ワークフロー全体にわたるエージェントのアプローチ全体、つまり複数ステップの問題を解決するためにエージェントがたどる実行パスも考慮します。

3. テストを実施する

さまざまな環境（バックボーンとして異なるLLMを使用することもあります）でAIエージェントを実行し、パフォーマンスを追跡します。個々のエージェントのステップを分解し、それぞれを評価します。たとえば、エージェントが検索拡張生成（RAG）を使用して外部データベースからの情報の取得や、API呼び出しの応答を監視します。

4. 結果を分析する

成果を事前定義された成功基準と比較し、存在しない場合はLLM-as-a-judgeを使用します（以下を参照）。パフォーマンスと倫理的配慮のバランスを取ることで、トレードオフを評価します。

エージェントは適切なツールを選択しましたか。適切な機能を呼び出しましたか。適切な情報を適切なコンテキストで渡しましたか。事実に基づいた正しい応答を生成しましたか。

関数呼び出し/ツールの使用は、リアルタイムでコンテキストに応じた正確な応答を提供できるインテリジェントなエージェントを構築するための基本的な機能です。LLM-as-a-judgeを使用した意味論的評価とともに、ルールベースのアプローチを使用した専用の評価と分析を検討してください。

LLM-as-a-judgeは、事前定義された基準とメトリクスを用いてAIエージェントのパフォーマンスを評価する自動評価システムです。LLM-as-a-judgeは、人間の評価者だけに頼るのではなく、アルゴリズム、ヒューリスティック、またはAIベースのスコアリングモデルを適用して、エージェントの応答、決定、または行動を評価します。

以下の「関数呼び出しの評価メトリクス」を参照してください。

5. 最適化と反復

開発者は、成果に基づいたプロンプトの微調整、アルゴリズムのデバッグ、ロジックの合理化、エージェント・アーキテクチャーの構成ができるようになりました。たとえば、応答の生成とタスク完了の時間を短縮することで、カスタマー・サポートのユースケースを改善することができます。システム効率は、拡張性とリソース使用量に合わせて最適化できます。

AIエージェント

AIエージェントの5つのタイプ：自律機能と実世界アプリケーション

目標主導型でユーティリティーベースのAIがワークフローや複雑な環境にどのように適応するかをご覧ください。

AIエージェントを構築、展開、監視

一般的なAIエージェント評価指標

開発者はエージェントが意図したとおりに動作することを望んでいます。また、AIエージェントの自律性を考えると、AIが下す決定の背後にある「理由」を理解することが重要です。開発者がエージェントを適切に評価するために使用できる最も一般的なメトリクスをいくつか確認しましょう。

タスク固有

AIアプリケーションに応じて、質の評価メトリクスが適用される場合があります。

判断基準としてのLLMは、グラウンド・トゥルース・データが利用可能かどうかにかかわらず、AIテキスト生成の品質を評価します。
BLEUとROUGEは、AIが生成したテキストの品質を人間が書いたテキストと比較して評価する、低コストの代替案です。

AIエージェントの性能を評価するためのその他の機能メトリクスには、次のものがあります。

成功率/タスクの完了は、試行された総数のうちエージェントが正しく完了または十分に完了したタスクまたは目標の
割合を測定します。
エラー率とは、アウトプットにエラーがあった、または操作に失敗した割合です。
コストは、トークンやコンピューティング時間などのリソースの使用量を測定します。
レイテンシーは、AIエージェントが処理して結果を返すのにかかる時間です。

倫理的で責任あるAI

プロンプト・インジェクションの脆弱性は、敵対的なプロンプトの成功率を評価し、エージェントの意図した動作を変更します。
ポリシー遵守率は、事前に定義された組織的または倫理的なポリシーに準拠した回答の割合です。
バイアスと公平性のスコアは、さまざまなユーザー・グループ間でのAI意思決定の差異を検知します。

インタラクションとエクスペリエンス

チャットボットや仮想アシスタントなど、ユーザーと対話するAIエージェントの場合、評価者はこれらのメトリクスを確認します。

ユーザー満足度スコア（CSAT）は、AIの応答に対するユーザーの満足度を測定します。
エンゲージメント率は、ユーザーがAIシステムとやり取りする頻度を追跡します。
会話フローは、一貫性があり有意義な会話を維持するAIの能力を評価します。
タスク完了率は、AIエージェントがユーザーのタスク完了をどれだけ効果的に支援しているかを測定します。

関数呼び出し

これらのルールベースのメトリクスは、AI駆動型システムの運用効率を評価するのに役立ちます。

関数名の間違い：エージェントは存在する関数を呼び出そうとしましたが、関数名またはスペルが間違っていたため、実行に失敗しました。
必要なパラメーターの欠落：エージェントは関数呼び出しを開始しましたが、関数が動作するために必要なパラメーターが1つ以上欠落しました。
間違ったパラメーターの値の型：エージェントがパラメーターの値を指定しましたが、その型（文字列、数値、ブール値）が関数が期待する型と一致しません。
許可された値：エージェントは、特定のパラメーターに対して設定された、または事前定義された値の範囲外の値を使用しました。
ハルシネーションを起こしたパラメーター：エージェントが関数呼び出しに、関数の仕様で定義またはサポートされていないパラメーターを含めました。

LLM-as-a-judgeに基づくセマンティック・メトリクスをいくつか示します。

パラメーター値の確立は、すべてのパラメーター値がユーザーのテキスト、コンテキスト履歴（API呼び出しの以前のアウトプットなど）、またはAPI仕様のデフォルトから直接導出されるようにするのに役立ちます。
ユニット変換は、コンテキスト内の値とツール呼び出し内のパラメーター値の間の単位または形式の変換（基本タイプ以外）を検証します。