たとえば、カスタマー・サポートチケットを処理するために構築されたAIエージェントは、さまざまなツールを使用してさまざまなタスクを処理する1つ以上の大規模言語モデル（LLM）で構成されている可能性があります。エージェントのワークフローには、受信Eメールの監視、会社のナレッジベースの検索、サポートチケットの自動作成などが含まれる場合があります。

このようなエージェントのデバッグは複雑で、その多様な動作により、潜在的な障害や非効率性が発生するポイントが複数生じます。しかし、エージェント監視を使用すると、開発者はエージェント実行の段階的なセッションの再生を実行し、AIがいつ何を行ったかを観察できます。担当者は適切なカスタマー・サポートのドキュメンテーションを参照しましたか？ツールの使用パターンはどのようなもので、どのAPIが使用されていましたか？各ステップのレイテンシーはどのくらいでしたか？最終的なLLMのコストはいくらですか？エージェントは他の人とどれくらいうまくコミュニケーションしたり協力したりできましたか？

AIエージェントの動作を監査する計画を立てずに放置するのは、例えば、ティーンエージャーにクレジット・カードを与えて、その結果の明細書を見ないのと同じことです。Agency AIのCOOであるAdam Silverman氏は最近、Google for Developersのブログで、タスクごとに異なるLLMを使用することでコストを削減できると述べました。これは、エージェントの長期的な費用対効果を最適化するために調整できる多くのパラメータの1つです。2

さらに掘り下げて、開発者は、さまざまなプロバイダー（AzureやAWSなど）間での各LLMインタラクションのコストなど、エージェントのエンドツーエンドの動作を追跡できます。開発者は、エージェントのライフサイクルのさまざまな段階のデータを使用して、このようなメトリクスのダッシュボードをリアルタイムで確認できます。反復的なベンチマークを通じて、開発者はエージェントの最適化に向けて取り組むことができます。