AIエージェントとは、独自のワークフローを開発し、必要に応じて外部ツールを使用することで、ユーザーや別のシステムに代わって自律的にタスクを実行できるソフトウェア・システムを指します。
エージェントは、単純な言語処理や理解をはるかに超えた性能を有し、意思決定、問題解決、環境との対話、そして目標達成を追求する行動ができます。
AIエージェントは、ITオートメーションやソフトウェア・エンジニアリングから会話型インターフェイスやコード生成の実装まで、現在さまざまなエンタープライズ・ソリューションに組み込まれています。大規模言語モデル(LLM)を活用することで、AIエージェントは複雑な指示を理解し、ステップに分割し、外部ソースのリソースと対話することで、タスクの達成に役立つ特定のツールやサービスをいつデプロイすべきかを知る認知能力を持つことができます。
エージェント評価は、エージェントが割り当てられたタスクをどの程度うまく実行し、意思決定を行い、ユーザーや環境と対話しているのか測定するため、自律型AIシステムを作成およびデプロイする際に重要な手順です。これにより、エージェントが意図したユースケースで確実に、効率的かつ倫理的に動作するようになります。
エージェント評価を行う主な理由は次のとおりです。
AIエージェントのパフォーマンスを評価するには、精度、応答時間(速度)、使用されたリソースのコストなど、いくつかのパフォーマンス・クラスに形式上分類されたメトリクスを使用します。精度は、エージェントが正しく適切な応答をどの程度提供するか、および意図した機能を完了するエージェントの能力を表します。応答時間は、エージェントがインプットを処理してアウトプットを生成する際に要する速度を測定します。レイテンシーを最小限に抑えることは、対話型プログラムやリアルタイム・プログラムでは特に重要であり、トークンの使用、アプリケーション・プログラミング・インターフェース(API)への呼び出し、システム時間など、エージェントが消費する計算リソースのコストを測定します。これらのメトリクスは、システムの性能を向上させ、運用コストを制限するためのガイドラインを提供します。
正確性、有用性、一貫性などの主要なメトリクスは精度に該当しますが、応答時間(レイテンシー)は、スループット、平均レイテンシー、タイムアウト、遅延などのメトリクスを測定します。コスト・メトリクスには、トークンの使用量、演算処理時間、API呼び出し数、メモリ消費量が含まれます。
このチュートリアルでは、正確性、有用性、一貫性の主なメトリクスを、精度に分類します。
旅行エージェントを開発し、「LLM-as-a-judge」を使用してその性能を評価しましょう。
watsonx.ai®プロジェクトを作成するには、IBM Cloudのアカウントが必要です。
また、Python バージョン 3.12.7も必要です
いくつかのツールから選択することはできますが、このチュートリアルでは、Jupyter Notebookを使用するためにIBMアカウントを設定する方法について説明します。
IBM Cloudアカウントを使用して、watsonx.aiにログインします。
watsonx.aiプロジェクトを作成します。プロジェクトIDはプロジェクト内から取得できます。「管理」タブをクリックし、「全般」ページの「詳細」セクションからプロジェクトIDをコピーしてください。このチュートリアルではこのIDが必要になります。
Jupyter Notebookを作成します。この手順でJupyter Notebook環境が開き、このチュートリアルのコードをコピーできます。または、このノートブックをローカルシステムにダウンロードし、watsonx.aiプロジェクトにアセットとしてアップロードすることもできます。IBM Graniteに関するその他のチュートリアルを表示するには、IBM Granite Communityをご覧ください。
watsonx.ai Runtimeサービス・インスタンスを作成します(適切なリージョンを選択し、無料インスタンスであるLiteプランを選択)。
アプリケーション・プログラミング・インターフェース(API)キーを生成します。
watsonx.ai Runtimeサービス・インスタンスを、 watsonx.aiで作成したプロジェクトに関連付けます。
このチュートリアルには、いくつかのライブラリとモジュールが必要です。以下のコンポーネントを必ずインポートしてください。インストールされていない場合は、迅速なpipインストールで問題が解決されます。
注:このチュートリアルはPython 3.12.7を使用して構築されています。
資格情報を設定するには、ステップ1で生成したWATSONX_APIKEYおよびWATSONX_PROJECT_IDが必要です。また、APIのエンドポイントとして機能するURLも設定します。APIエンドポイントは、地理的な場所によって異なる場合があります。
このチュートリアルでは、Granite 3 -8B Instructモデルを使用します。LLMを初期化するには、モデル・パラメーターを設定する必要があります。最小・最大トークン制限などのモデル・パラメータの詳細については、ドキュメンテーションを参照してください。
ユーザーの旅行計画や旅行の情報収集をサポートする、旅行計画パートナーを構築しましょう。
外部の旅行APIに接続し、ユーザーの問い合わせに応じて航空会社やホテルの情報を取得できるシンプルな旅行アシスタント・アプリケーションを作成します。AIエージェントと統合して動的な旅行計画を実行するために、APIクエリを作成し、それをツールにまとめる単純な機能を搭載します。
最後に、評価を実行し、最終的な評価スコアを出力します。3つの異なる基準(正確性、有用性、一貫性)を使用して旅行プランナーを評価するために、LLM評価者用に構造化された評価プロンプトが作成されます。
出力には、正確性、有用性、一貫性の3つの基準を使用して生成された旅行プランナーの定性的および定量的評価が示されます。
エージェントの出力におけるコンテキストで、各スコアとメトリクスが何を意味するのかを分類してみましょう。
ユーザーのニーズに本質的に応えるエージェントの能力を評価する際には、一貫性、有用性、正確性などの基準が中心的な役割を果たします。OpenAI、IBM Granite®、またはその他のLLM-as-a-Serviceモデルを使用しているかどうかにかかわらず、最終的な出力を包括的にテストするには、評価データセット、ベンチマーク、注釈、グラウンド・トゥルースなどの構造化された評価方法を活用することが重要です。チャットボットやRAGベースのカスタマー・サポートなどの実際のユースケースでは、LangGraphのようなオープンソース・フレームワークが非常に役立ちます。スケーラブルなオートメーション、信頼性の高いルーティングをサポートし、迅速なイテレーション・サイクルを可能にします。これらのテクノロジーにより、生成AIシステムの強化、動作のデバッグ、複雑なワークフローの最適化・構成も容易になります。テスト・ケースを慎重に定義し、計算コスト、価格、レイテンシーなどのオブザーバビリティー・メトリクスを監視することで、チームは一貫してシステム性能を向上させることができます。最終的には、信頼性が高く反復可能な評価アプローチを適用することで、機械学習システムに厳格さが生じ、時間の経過とともにその信頼性が強化されます。
生成AIを使用してワークフローとプロセスを自動化する強力なAIアシスタントとエージェントを構築、デプロイ、管理しましょう。
信頼できるAIソリューションでビジネスの未来を構築します。
IBMコンサルティングAIサービスは、企業がAIをトランスフォーメーションに活用する方法を再考するのに役立ちます。