Now GA：watsonx Orchestrateを使用してランタイム時にエージェントを監視

このリリースでは、ライブ・エージェントにランタイムの可視性がもたらされるため、企業全体にエージェントの自動化を自信を持って拡張できます。

公開日 2025年12月11日
By Suzanne Livingston

AIエージェントは、プロトタイプから実際の運用ワークロードに移行しています。しかし、従来のアプリとは異なり、エージェントは非決定的で、マルチステップで、ツール主導であるため、「アップタイム」だけでは、信頼性が高く、安全で、コスト効率よく行動しているかどうかはわかりません。

こうした理由から、IBM® watsonx Orchestrateでのエージェント・モニタリングの一般提供（GA）を発表するにあたり、IBM® watsonx.governanceとの統合を活用することにしました。

エージェント・モニタリングの新機能

watsonx Orchestrateのエージェント・モニタリングにより、開発者はユーザーがエージェントとどのようにやり取りしているか、エージェントがどのように実行されているかを理解することができます。その中心には、エージェントが稼働した後に最も重要なメトリクスを表示する直感的なダッシュボードを通じて、ランタイム時にエージェントを監視する機能があります。

モニタリングにより、チームは次のことが可能になります。

  • 個々のエージェントまたはエージェントカタログ全体にわたって、リアルタイムのエージェント性能を一目で確認する
  • 成功率、レイテンシー、トークンの使用量、コスト要因などの主要なKPIを追跡する。
  • トランザクションレベルの詳細を掘り下げて、特定のユーザーとエージェントのやり取りで何が起こったかを正確に理解する。
  • フローの破損、ツールの誤作動、パフォーマンスの低下が発生した箇所を特定するトレース追跡が可能なシグナルを使用して問題を早期に検知する

エージェントにとってモニタリングが重要な理由

従来のモニタリングは、決定論的なシステムを前提としています。エージェントは3つの点で異なります。

  • これらはLLM呼び出しや取得ステップ、ツールを連鎖させるため、推論パスのどこにでもエラーが発生する可能性があります。
  • データ、プロンプト、または基盤となるモデルが変化するにつれて、アウトプット品質が時間の経過とともに低下する可能性があります。
  • 会話経路やツールの使用状況によっては、コストが予期せず急増する可能性があります。

実稼働モニタリングは、アップタイムだけでなく、「ランタイムの真実」を提供します。エージェントが実際のユーザーにサービスを提供している間、エージェントが正確、安全、効率的であることを検証でき、そうでない場合にも迅速に対応できます。

ランタイム・モニタリングの仕組み

エージェントが本番環境に導入されると、watsonx Orchestrateはあらゆる対話から豊富なテレメトリーを自動的にキャプチャします。ランタイム・モニタリングUIは、そのデータを次の3つのレイヤーに整理します。

  1. エージェントレベルの正常性：デプロイされたエージェント全体のサマリー・ビューは、使用量、成功/失敗率、レイテンシー・パターンに基づいて、どのエージェントが成長し、どのエージェントに注意が必要かを迅速に特定するのに役立ちます。
  2. メッセージおよびツールレベルの洞察：時系列チャートは、ターンやツールの呼び出しによって性能がどのように変化するかを示すため、LLM、検索、またはダウンストリームシステムに起因する速度の低下や障害のどれを正確に特定できます。
  3. 会話レベルの洞察 単一の対話だけでなく、複数ターンの会話全体でエージェントがどのようにパフォーマンスを発揮するかを確認します。集計ビューには、ユーザーがどこで中断し、これが障害やエスカレーションにつながるかを強調します。これにより、チームは繰り返し発生する摩擦パターンを特定し、エンド・ツー・エンドの成功を測定し、現実世界のタスクの完了を高める改善に優先順位を付けることができます。

エージェントのライフサイクル全体を管理するエージェント運用

ランタイム・モニタリングは、エージェント運用ストラテジーの重要な部分であり、エージェント開発ライフサイクルの重要な部分です。エージェント運用は、どこでも構築され、どこでも実行される、安全で準拠したエージェントを監視、評価、最適化する機能をもたらします。

  • オブザーバビリティー： 顧客は、開発中と運用環境の両方で、エージェントがどのように動作するか、どのステップが実行され、どのツールが呼び出され、どのような応答が生成されるかについて明確に可視化する必要があります。
  • 評価：本番環境前のストレス・テストはまだ手作業で行われており、脆弱性があります。チームは、さまざまなユースケースに対して、忠実度からツール呼び出しの関連性、トークン数まで、さまざまなメトリクスにわたってエージェントをテストするための簡単で自動化された方法を必要としています。
  • 最適化： 組織は、すべてのデータから洞察を得るのに苦労しています。迅速に拡張するには、AI駆動型の検知、根本原因の分析、およびエージェントとコストの性能を向上させるための実行可能な推奨事項が必要です。

使ってみる

実稼働中のエージェントをモニタリングすることにより、企業全体で自信的かつ安全にエージェントの自動化を拡張します。

