AIエージェントにとってオブザーバビリティが不可欠な理由

執筆者

Gregg Lindemulder

Staff Writer

IBM Think

Annie Badman

Staff Writer

IBM Think

AI（人工知能）をめぐる興奮がビジネス界を席巻し続ける中、このテクノロジーの最新形態であるAIエージェントに注目が集まっています。

従来のAIモデルとは異なり、AIエージェントは人間による継続的な監視なしで意思決定を行うことができます。各プログラムは自律的に機能し、顧客の質問への回答、サプライチェーンの最適化、ヘルスケア・データの分析による診断の提供など、複雑な目標を達成します。

実際には、AIエージェントは推奨事項を提供するだけでなく、保険請求の自動処理や在庫レベルの管理など、最初から最後までワークフロー全体を処理できることを意味します。

最近の推定によると、組織は急速にAIエージェントの採用を進めています。KPMG社の調査によると、88％の組織がAIエージェントの取り組みを検討中、または積極的に試験運用していることがわかりました。¹Gartner社は、2028年までにエンタープライズ・ソフトウェア・アプリケーションの3分の1以上に、AIエージェントを可能にする基盤技術であるエージェント型AIが搭載されると予測しています。²

しかし、AIエージェントの価値を非常に高める機能そのものが、AIエージェントの監視、理解、コントロールを困難にする可能性があります。

AIエージェントは、大規模言語モデル（LLM）を使用して推論し、ワークフローを作成し、タスクをサブタスクに分割します。データベース、検索エンジン、計算機などの外部ツールにアクセスし、メモリーを使用して以前の会話やタスクの結果を思い出します。

このようなプロセスによって独立した作業が可能になる反面、明示的で事前に定義されたルールやロジックに基づいて構築された従来のアプリケーションに比べて、透明性がはるかに低くなります。

この固有の複雑性と透明性の欠如により、AIエージェントがどのように特定のアウトプットを生成しているのか追跡することが困難になる可能性があります。組織にとって、これは次のような重大なリスクをもたらす可能性があります。

コンプライアンス違反：エージェントが機密データを扱う場合、組織は意思決定プロセスを示したり、規制順守を証明したりすることができません。
オペレーションの失敗：エージェントの推論を可視化できなければ、チームは根本原因の特定や、エラーの再発防止に苦労する可能性があります。
信頼の侵食：説明が付かないエージェントの行動は、特にエージェントが重要なビジネス上の意思決定を行ったり、お客様と直接やり取りしたりする場合に、利害関係者の信頼を損なう可能性があります。

これらのリスクを軽減するために、組織はAIエージェントの動作と性能に対する洞察を得ようと、AIエージェントのオブザーバビリティーにますます注目するようになっています。

IBMニュースレター

The DX Leaders

AI活用のグローバル・トレンドや日本の市場動向を踏まえたDX、生成AIの最新情報を毎月お届けします。登録の際はIBMプライバシー・ステートメントをご覧ください。

AIエージェントのオブザーバビリティーとは

AIエージェントのオブザーバビリティーとは、AIエージェントが大規模言語モデルや外部ツールと行う可能性のあるあらゆる対話を含む、エコシステムのエンドツーエンドの動作を監視し、理解するプロセスのことです。

これは、より広範なオブザーバビリティーの実践から生まれたもので、テレメトリ・データ、つまりメトリクス、イベント、ログ、トレースなどの外部出力（一般に「MELT データ」と呼ばれる）を分析することでシステムの内部状態を理解する能力です。

AIエージェントのオブザーバビリティーにより、組織はアクション、決定、リソースの使用状況に関するデータを収集して、エージェントの性能を評価できます。これは、次のような重要な質問に答える際に役立ちます。

エージェントは正確で役立つ回答を提供していますか？
エージェントは処理能力を効率的に使用していますか？
エージェントは目標を達成するために適切なツールを使用していますか？
エージェントの問題の根本原因は何ですか？
エージェントはAI倫理とデータ保護の義務を遵守していますか？

これらの洞察により、組織は問題のトラブルシューティングとデバッグをより効率的に行い、AIエージェントの性能と信頼性を向上させることができます。

マルチエージェント・システムにおけるオブザーバビリティー

マルチ・エージェント・システムでは、複数のAIエージェントが連携して、エンタープライズ・セールス・パイプラインの自動化や質問への回答、ITサポート・システムのチケットの作成など、複雑なタスクを完了します。

障害が特定のコンポーネントにまで追跡できることが多い単一エージェント・システムとは異なり、マルチ・エージェント・システムははるかに複雑です。自律型AIエージェント間のやり取りが非常に多いため、予測不可能な動作が発生する可能性が高くなります。

AIエージェントのオブザーバビリティーは、これらのマルチ・エージェント・システムに関する重要な洞察を提供します。開発者が問題の原因である特定のエージェントまたはインタラクションを特定するのに役立ち、エージェントが作成する複雑なワークフローを可視化できます。また、エスカレートして将来問題を引き起こす可能性のある集合的な行動やパターンを特定するのにも役立ちます。

たとえば、航空券、ホテル、レンタカーの各エージェントによるマルチ・エージェントの旅行予約システムでは、どの時点でも予約が失敗する可能性があります。オブザーバビリティー・ツールは、プロセス全体をエンドツーエンドでトレースし、障害が発生した場所と理由を正確に特定できます。

多くの組織は、IBM® BeeAI、LangChain、LangGraph、AutoGenなどのオープンソース・ソリューションを使用して、マルチ・エージェント・システムをより迅速かつ安全に構築しています。これらのソリューションは、AIエージェントを作成するためのツールを備えたソフトウェア開発キット（SDK）と、エージェントを実行および調整するエンジンであるエージェント型AIフレームワークを提供します。

IBM DevOps

DevOpsとは

Andrea Crawfordが、DevOpsとは何か、DevOpsの価値、そしてDevOpsのプラクティスとツールがアイデア考案から本番環境までのソフトウェア・デリバリー・パイプライン全体でアプリケーションを動かすのにどのように役立つかについて説明します。IBMのエキスパートが指導するこのカリキュラムは、ビジネス・リーダーが成長を促進するAI投資の優先順位付けに必要な知識を得られるように設計されています。

DevOpsの詳細はこちら

AIエージェントのオブザーバビリティーの仕組み

AIエージェントのオブザーバビリティーは、従来のシステム・メトリクスとAI固有の動作の両方を捉えるテレメトリー・データを収集・分析することで機能します。チームはこのデータを使用して、エージェントの決定を理解し、問題のトラブルシューティングを行い、性能を最適化できます。

AIエージェントのオブザーバビリティーに使用されるデータ

AIエージェントのオブザーバビリティーでは、従来のオブザーバビリティー・ソリューションと同じテレメトリ・データを使用しますが、トークンの使用、ツールの相互作用、エージェントの決定パスなど、生成AIシステムに固有の追加データ・ポイントも含まれます。これらAI固有のシグナルは、MELT（メトリクス、イベント、ログ、トレース）の範囲内に収まります。

メトリクス

CPU、メモリー、ネットワーク・リソースの使用率など、標準的な可観測性ツールによって収集される従来のパフォーマンス・メトリクスに加えて、AIエージェントのオブザーバビリティーは、以下を測定します。

トークンの使用状況

トークンはテキストAIモデル処理の単位であり、通常は単語群または単語群の一部です。AIプロバイダーはトークンの使用量に応じて料金を請求するため、このメトリクスの追跡はコストに直接影響します。組織はトークンの消費を監視することで支出を最適化できます。たとえば、特定の顧客の質問が他の質問よりも10倍多くのトークンを使用している場合、チームはエージェントがそれらのリクエストを処理する方法を再設計し、コストを削減できます。

モデル・ドリフト

実世界のデータが進化するにつれて、AIモデルは時間の経過とともに精度を低下させる可能性があります。応答パターンの変化や出力品質の変動など、モデル・ドリフトに関わる主要なメトリクスを監視することは、組織がモデル・ドリフトを早期に検知する上で役立ちます。たとえば、不正アクセス検知エージェントは、犯罪者が新しい手口を開発すると効果が低下する可能性があります。オブザーバビリティーはこの低下にフラグを立てるため、チームは更新されたデータセットを使用してモデルを再トレーニングできます。

レスポンスの質

このメトリクスは、AIエージェントのアウトプットの品質と、その回答が正確であり、関連性があり、有用であるかどうかを測定します。また、エージェントがハルシネーションや不正確な情報を提供する頻度を追跡します。さらに、組織がサービス品質を維持し、改善すべき領域を特定するのに役立ちます。たとえば、エージェントが技術的な質問への回答に苦労している場合、チームはエージェントの知識ベースを拡大したり、専門ツールを追加したりできます。

推論のレイテンシー

これは、AIエージェントがリクエストに応答するのにかかる時間を測定します。迅速な対応時間は、ユーザー満足度とビジネス成果にとって重要です。たとえば、ショッピング・アシスタントが製品をおすすめするのに時間がかかりすぎると、顧客は購入せずに離脱してしまう可能性があります。待ち時間を追跡することで、チームは売上に影響が出る前に低速状態を特定し、性能の問題を修正することができます。

イベント

イベントは、AIエージェントがタスクを完了するために実行する重要なアクションです。このデータは、問題のトラブルシューティングとパフォーマンスの向上に役立つエージェントの動作と意思決定プロセスに関するインサイトを提供します。

AIエージェントのイベントの例には次のようなものがあります。

API呼び出し

AIエージェントがアプリケーション・プログラミング・インターフェース（API）を使用して、検索エンジン、データベース、翻訳サービスなどの外部ツールと対話する場合、API呼び出しを追跡することで、組織はツールの使用状況を監視し、非効率性を特定できます。たとえば、エージェントが2～3回しかAPI呼び出しを必要としないタスクに対して50回のAPI呼び出しを行った場合、チームはそのロジックを修正できます。

LLM呼び出し

AIエージェントが大規模言語モデルを使用してリクエストを理解する、決定を下す、または応答を生成する場合、LLM呼び出しを監視することで、AIエージェントのアクションを推進するモデルの動作、性能、信頼性を明らかにできます。たとえば、銀行のAIエージェントが顧客に誤った口座情報を提供した場合、チームはエージェントのLLM呼び出しを分析して、古いデータや不明確なプロンプトなどの問題を発見できます。

ツール呼び出しの失敗

エージェントがツールを使用しようとしても機能しない場合（ネットワークの問題や誤ったリクエストが原因でAPI呼び出しが失敗した場合など）、これらの障害を追跡することで、エージェントの信頼性を向上させ、リソースを最適化できます。たとえば、サポート・エージェントがデータベースの呼び出しが失敗したために注文ステータスを確認できない場合、チームはすぐにアラートを受け取り、認証情報の欠如やサービスの中断などの問題を修正できます。

人間による引き継ぎ

AIエージェントが処理できない要求を人間のスタッフにエスカレーションします。この情報により、エージェントの機能のギャップや顧客とのやり取りの微妙な違いを明らかにできます。たとえば、金融サービスのAIエージェントが人間に頻繁に質問をエスカレーションする場合、より優れた金融トレーニング・データや特殊な投資ツールが必要になるかもしれません。

アラート通知

応答時間の遅延、不正なデータ・アクセス、システム・リソースの低下など、何か問題が発生すると、AIエージェントは自動警告を受け取ります。アラートは、ユーザーに影響が及ぶ前に、チームが問題をリアルタイムで発見して修正する上で役立ちます。たとえば、高いメモリー使用率に対するアラートにより、チームはエージェントがクラッシュする前にリソースを追加できます。

ログ

ログは、AIエージェントのオペレーション中に発生するすべてのイベントとアクションの詳細な時系列記録です。ログを使用することで、周囲のコンテキストを含む、あらゆるイベントのミリ秒単位の高忠実度の記録を作成できます。

AIエージェントのオブザーバビリティーにおけるログの例は次のとおりです。

ユーザー・インタラクション・ログ

これらのログには、クエリー、意図の解釈、アウトプットなど、ユーザーとAIエージェント間のすべてのやり取りが記録されます。組織はこれらのログを使用して、ユーザーのニーズとエージェントの性能を把握できます。たとえば、ユーザーが同じ質問を繰り返し言い換えた場合、エージェントはその意図を理解していない可能性があります。

LLMインタラクション・ログ

これらは、プロンプト、応答、メタデータ、タイムスタンプ、トークンの使用など、エージェントとLLM間のすべてのやり取りをキャプチャします。このデータは、AIエージェントが文脈を誤解している可能性がある場合も含め、AIエージェントがどのように要求を解釈し、回答を生成するかを明らかにします。たとえば、コンテンツのモダナイゼーションを担うAIエージェントが有害なコンテンツを見逃しながら無害なコンテンツに誤ってフラグを立てた場合、これらのログは間違いを引き起こす欠陥のあるパターンを明らかにする可能性があります。

ツール実行ログ

これらのログは、エージェントがどのツールをいつ使用するか、どのようなコマンドを送信し、どのような結果が返されるかを記録します。これにより、性能の問題とツール・エラーをその発生源まで追跡できます。たとえば、技術サポートのAIエージェントによる特定の質問への応答が遅い場合、ログから、曖昧な検索クエリーを使用していることが判明する可能性があります。その後、チームはより具体的なプロンプトを作成して、応答を改善できます。

エージェントの意思決定ログ

これらのログには、AIエージェントがどのようにして決定または可能な場合は特定のアクション（選択したアクション、スコア、ツールの選択、プロンプト/アウトプットなど）に至ったかが記録されます。隠れた推論へのアクセスを暗示することはありません。このデータは、特にエージェントの自律性が高まるにつれて、バイアスを捉え、責任あるAIを確保する上で重要です。

たとえば、ローン向けAIエージェントが特定の地域からの申請を不当に拒否した場合、意思決定ログはトレーニング・データ内の差別的パターンを明らかにする上で役立ちます。その後、チームは公正な融資要件を満たすためにAIモデルを再トレーニングします。

トレース

トレースは、その過程におけるLLMおよびツールとのすべての対話を含む、すべてのユーザー要求のエンドツーエンドの「ジャーニー」を記録します。

たとえば、単純なAIエージェント要求のトレースでは、これらのステップをキャプチャする場合があります。

エージェントをトリガーするユーザー・インプット
エージェントの計画とタスクの内訳
外部ツールの呼び出し（例：Web検索）
LLMによるリクエスト処理
プロンプト処理と応答の生成
ユーザーに返された応答

開発者はこのデータを使用してボトルネックや障害の原因を正確に特定し、プロセスの各ステップで性能を測定できます。

たとえば、Web検索に5秒かかる一方で、他のすべてのステップがミリ秒で完了することが示された場合、チームはキャッシュを実装するか、より高速な検索ツールを使用して、全体的な応答時間を改善できます。

AIエージェントのオブザーバビリティーのためのデータ収集

AIエージェントのオブザーバビリティーで使用されるデータ収集には、組み込みインストルメンテーションとサードパーティー・ソリューションという2つのアプローチが一般的です。

最初のアプローチでは、MELTデータはAIエージェント型フレームワークの組み込みインストルメンテーションを通じて収集されます。これらのネイティブな監視とロギング機能は、メトリクス、イベント、ログ、トレースに関するテレメトリー・データを自動的に取得し、送信します。

多くの大企業や特殊なニーズを持つ企業がこのアプローチを採用している理由として、データの収集と監視に対して詳細なカスタマイズときめ細かな制御が可能であることが挙げられます。しかし、開発には多大な労力と時間を要し、継続的な保守も必要となります。

2つ目のアプローチでは、AIエージェントのオブザーバビリティー・ソリューションが、MELTデータを収集・分析するための特殊なツールとプラットフォームを提供します。これらのソリューションは、事前構築された機能と統合を備えた迅速かつシンプルなデプロイメントを組織に提供し、社内の専門知識の必要性を軽減します。ただし、サードパーティ・ソリューションに依存すると、特定のベンダーへの依存が生じ、組織の高度に特殊なニーズやニッチなニーズを満たすためにカスタマイズするオプションが制限される可能性があります。

一部の組織は、組み込みインストルメンテーションとサードパーティーのソリューション・プロバイダーを組み合わせて、AIエージェントのテレメトリー・データを収集することを選択しています。

どちらのアプローチも通常、GitHubウェブベースのプラットフォームでホストされているオープンソースのオブザーバビリティー・ツールであるOpenTelemetry（OTel）に依存しています。

OTelは、テレメトリー・データを収集・送信するための業界標準フレームワークとして台頭しました。この普及の理由として、異なるベンダーのコンポーネントがシームレスに連携する必要がある複雑なAIシステムにおいて特に価値の高い、ベンダーに依存しないオブザーバビリティー・アプローチを提供することが挙げられます。これは、エージェント、複数のモデル、外部ツール、および検索拡張生成（RAG）システム間でオブザーバビリティー・データが一貫して流れるようにする上で役立ちます。

オブザーバビリティー・データの分析と対応

組織が選択したアプローチを通じてMELTデータを収集すると、それをいくつかの方法で使用できます。

最も一般的なユースケースには次のようなものが含まれます。

データ集約と可視化

チームはダッシュボードを使用して、リアルタイムのメトリクス、Event Streams、トレース・マップを表示します。この統合されたビューは、AIエージェント・エコシステム全体にわたるパターンと異常を特定するために役立ちます。たとえば、ダッシュボードからカスタマー・サービス・エージェントの対応が毎週午後3時に遅くなっていることが判明し、チームに原因調査を促す場合があります。

根本原因分析

問題が発生すると、チームはメトリクス、イベント、ログ、トレースなどのデータを相関させ、正確な障害箇所を突き止めます。たとえば、エラー率（メトリック）の急増を特定のAPI障害（イベント）とリンクさせ、ディシジョン・ログをレビューすることで、チームはエージェントが予期せぬ行動をとった理由を理解することができます。

パフォーマンスの最適化

組織は、オブザーバビリティー・データの洞察を使用してエージェントの効率を向上させます。トークンの使用量を減らしたり、ツール選択を最適化したり、トレース分析に基づいてエージェントのワークフローを再構築したりする場合があります。たとえば、エージェントが1回目の検索後に結果を保存する代わりに、同じデータベースを3回検索していることが判明する場合があります。

継続的改善

チームは、オブザーバビリティーに関する洞察によってエージェントの改善を促進するフィードバック・ループを確立します。MELTデータの定期的なレビューは、エージェントが返金要求で苦労したり、ユーザーがドキュメントに記載のない質問をしたときに失敗したりするなど、繰り返し発生する問題やエッジ・ケースを特定する際に役立ちます。これらの問題は、トレーニング・データセットの拡張とドキュメントの更新の必要性を示している可能性があります。

例：AIエージェントのオブザーバビリティーの活用実例

オンライン小売業者がオブザーバビリティーを使用して、顧客と対話するAIエージェントの問題を特定・修正する方法を考えてみましょう。

まず、オブザーバビリティー・ダッシュボードには、特定のAIエージェントに対する否定的な、顧客によるフィードバックの急増が表示されます。

チームがエージェントのログを調べると、エージェントが顧客の質問に答えるためにデータベース・ツールの呼び出しを使用していることがわかります。ただし、回答には古い情報や誤った情報が含まれています。

トレース（エージェントが顧客の質問を処理するための段階的なプロセスの網羅的な記録）は、古いデータを返した特定のツール呼び出しを正確に特定します。さらに分析を行うと、古い情報を含むデータベース内の正確なデータセットが明らかになります。

この洞察を利用して、オンライン小売業者は障害のあるデータセットを更新または削除します。また、チームはエージェントのロジックを更新して、顧客に応答する前にデータの精度を検証します。その結果、エージェントは顧客満足度を向上させる正確で役立つ回答を提供できるようになりました。

AIエージェントのオブザーバビリティーにおけるAIとオートメーション

いまだにAIエージェントのオブザーバビリティーの大部分には、手作業による調査と解決のためにアラートと異常をチームメンバーに引き渡すことが伴いますが、AI搭載のオートメーションによって、組織がテレメトリー・データを収集、分析し、それに基づいて行動する方法は変革が進んでいます。

高度なオブザーバビリティー・ソリューションは現在、これらのテクノロジーを使用して、人間の介入をほとんど、または全く必要とせずにAIエージェントを監視、デバッグ、最適化しています。この分野での新たなユースケースには、次のようなものがあります。

コンプライアンス監査と性能分析のためのAIエージェントのテレメトリー・データを自動的に収集、処理、保管
膨大な量のAIエージェント・データを分析し、異常にフラグを立てて問題を特定
AIアプリケーションやエージェントの問題を発生前に予測
使用パターンに基づいてリソース要件を予測
性能を最適化するためのロジックまたはツールの使用方法の改善を提案
AIエージェントによる機密データへのアクセスや共有を防止

ソフトウェアを効率的に配信する

経済的な苦境に立たされている組織にとって、ソフトウェア配信の効率性を向上させることは極めて重要な取り組みで、DevOpsの自動化に重点を置くことが欠かせません。

参考情報

AIを活用した分析でビジネス・パフォーマンスを最適化

今すぐ登録して、高度なAI分析によってビジネスの成長とイノベーションの新たな機会がどのように実現されるかを学びましょう。専門家の見識にアクセスして、AIソリューションがどのように運用効率を高め、リソースを最適化し、測定可能なビジネス成果につながるかの理解を深めます。

ハイブリッドクラウド・パターンでメインフレーム・アプリケーションをモダナイズする

ハイブリッドクラウド環境向けのメインフレームのモダナイゼーションに関する最新の電子書籍『IBM Redbooks』をご覧ください。アジリティ―、イノベーション、ビジネスの成功を推進するための実行可能なストラテジー、アーキテクチャー・ソリューション、統合方法を学びます。

オートメーションとモダナイゼーションでz/OS DevOpsを強化

IBM Wazi Deployと最新の言語機能によりz/OS DevOps がどのように効率化されるかをご覧ください。自動化とオープンソース・ツールがプラットフォーム全体の効率を向上させる方法を学びます。

DevOps加速プログラム

IBMのDevOpsアクセラレーション・プログラムを利用して、DevOpsトランスフォーメーションに着手しましょう。このプログラムは、アセスメント、トレーニング、デプロイメント、導入などの重要な各段階で企業を導き、シームレスなDevOps導入を実現します。

2024年度Gartner®データ統合ツールのMagic Quadrant™

IBMは、2024年もGartner®データ統合ツールのMagic Quadrant™でリーダーに選ばれ、19年連続で選出されました。

脚注

1 AI Q4Pulse Survey: Key Findings, KPMG, November 2024
2 Top Strategic Technology Trends for 2025: Agentic AI, Gartner, October 2024