LLMのオブザーバビリティーとは?

共同執筆者

Joshua Noble

Data Scientist

Shalini Harkar

Lead AI Advocate

LLMオブザーバビリティー定義

LLMのオブザーバビリティーとは、LLMモデルまたはアプリから、その動作、性能、アウトプット特性に関するリアルタイムのデータを収集するプロセスのことです。LLMは複雑であるため、LLMが出力するパターンに基づいてLLMを観察することができます。1

優れたオブザーバビリティー・ソリューションは、LLMアプリケーション、アプリケーション・プログラミング・インターフェース(API) 、ワークフローから関連するメトリクス、トレース、ログの収集で構成されています。これにより、開発者はアプリケーションを効率的かつ積極的に、大規模に監視、デバッグ、最適化することができます。

大規模言語モデル(LLM)生成AI(Gen AI)プラットフォームのIBM watsonx.ai®そして、オープンソースのバリエーションが業種・業務で定着しつつあります。この増加により、採用後もモデルやアプリケーションの信頼性、安全性、効率を維持することがこれまで以上に重要になっています。この領域では、LLMのオブザーバビリティーが不可欠になります。

The DX Leaders

AI活用のグローバル・トレンドや日本の市場動向を踏まえたDX、生成AIの最新情報を毎月お届けします。登録の際はIBMプライバシー・ステートメントをご覧ください。

ご登録いただきありがとうございます。

ニュースレターは日本語で配信されます。すべてのニュースレターに登録解除リンクがあります。サブスクリプションの管理や解除はこちらから。詳しくはIBMプライバシー・ステートメントをご覧ください。

LLMのオブザーバビリティーが重要な理由

  • LLMの品質とアウトプットを監視する:
    LLMによるアウトプットの継続的な評価は、ユーザーにとって有用で適用可能な品質のいくつかの次元に分類できます。これらの側面には、正確性、関連性、一貫性、定義されたメトリクスとの事実的一貫性が含まれます。これらの性能を定期的にチェックすることで、ユーザーがプログラムに対する信頼を失い、LLMを効率的に使用しにくくなる可能性のある遅延や問題を防ぐことができます。

  • 迅速な根本原因分析とトラブルシューティング:
    LLMアプリケーションで重大な障害や予期しない動作が発生した場合、オブザーバビリティーは、目前の問題の根本原因を迅速に特定するのに役立つ洞察を提供します。このレベルのきめ細かなテレメトリにより、利害関係者は一般に、多くの領域においてより高いレベルの信頼性で問題を分離できます。例えば、トレーニング・データの破損、ファイン・チューニングの不適切な設計、外部API呼び出しの失敗、バックエンドのサードパーティー・プロバイダーの停止などです。

  • アプリケーション、ユーザー・エンゲージメント、システム効率の最適化:
    LLMスタック全体を継続的に監視することで、アプリケーションのパフォーマンスとユーザー・エンゲージメントを向上させることができます。レイテンシーや使用トークン、応答時間、スループットなどの主要なメトリクスを追跡し、ボトルネックや制限要因を特定することで、特にRAGワークフローにおけるパフォーマンスの最適化とコスト削減を促進します。インタラクションとユーザー・フィードバックのリアルタイム追跡は、低品質のアウトプットがいつ生成されているかを把握し、問題が発生したときにそれを解決し、根本原因を発見するのに役立ちます。このユーザー行動への一貫した適応により、LLMはカスタマイズされた応答を生成し、ワークフローを最適化し、需要に応じるスケールを性能の悪影響なく行えます。2、3
IBM DevOps

DevOpsとは

Andrea Crawfordが、DevOpsとは何か、DevOpsの価値、そしてDevOpsのプラクティスとツールがアイデア考案から本番環境までのソフトウェア・デリバリー・パイプライン全体でアプリケーションを動かすのにどのように役立つかについて説明します。IBMのエキスパートが指導するこのカリキュラムは、ビジネス・リーダーが成長を促進するAI投資の優先順位付けに必要な知識を得られるように設計されています。

主要な可観測性メトリクス

LLMの可観測性メトリックは、主に3つの側面に分類できます。

大規模言語モデル(LLM)のオブザーバビリティーは、システムの性能、参考情報、メトリクスを追跡するメトリクスを追跡して初めて実現できる4

システム性能メトリクス:

  • レイテンシー: インプットからアウトプットまでの期間。モデルの応答時間を表します。

  • スループット:モデルが特定の期間に処理するリクエストの数モデルの負荷の尺度。

  • エラー率:失敗または無効な応答の率モデルの信頼性を反映しています。

リソース使用率メトリクス:

  • CPU/GPU使用量:推論中に消費されたリソースを、コストと効率に関連して測定します。

  • メモリ使用量:処理中に消費されたRAMまたはストレージ。パフォーマンスと拡張性にとって重要ですが、この使用法はタスク全体にとっては二次的なものです。

  • トークンの使用状況: 処理されたトークンを追跡します。このステップは、トークンがモデルのコストと関連付けられている場合に特に重要です。

  • スループットレイテンシー比: スループットは、システムのワークロードとそのレイテンシーを表します。両者の間で良いバランスを見つけることが効率化に不可欠です。

モデル行動メトリクス:

  • 正確性:モデルが正しい応答を生成する頻度を監視します。

  • 事実の正確さ:モデルが「正しい」事実に基づくアウトプットを提供するかどうかを評価します。

  • ユーザーエンゲージメント:インタラクション時間、フィードバック、満足度を定量化して、エクスペリエンスを推定します。

  • 応答の品質:アウトプットの一貫性、明確性、関連性を測定します。5

手動とエージェント・ベースの自律的な可観測性の比較

大量のデータ、複雑なシステム・アーキテクチャー、リアルタイム追跡の必要性から、LLMを手動でモニタリングすることは困難です。ログとメトリクスが豊富なため、問題を迅速に特定することが困難になっています。さらに、手動観測は参考情報の負担が多く、エラーが発生しやすく、システムの拡張に合わせて効果的に拡張できないため、問題検知が遅くなり、トラブルシューティングが非効率的になります。

これらの制限は、LLMにおいてオブザーバビリティーを手動で維持することの困難さを示しており、エンタープライズ環境向けのより洗練された自律的なソリューションの必要性を浮き彫りにしています。6

エージェントベースの自律的なトラブルシューティング

自律型トラブルシューティングとは、エージェント・ベースのシステムを使用した高度な監視方法により、人間の介入を必要とせずに問題を独自に特定、診断、解決できるシステムを指します。エージェントは性能を監視し、異常を特定し、リアルタイム診断を実行するため、システムを人間の介入なしで無人で稼働させることができます。 7

エージェント・ベースの自律的なトラブルシューティングは、次の場合に役立ちます。

  • リアルタイム検知:手動でインプットしなくても問題を即座に特定できます。

  • 根本原因分析:AI駆動型のインサイトを使用して問題の原因を特定します。

  • 自動解決: 問題を解決するためにすぐに使用できる事前定義されたソリューションを適用します。

  • 継続的なモニタリング: データに適応して学習し、長期的なトラブルシューティングを改善します。

  • 拡張性: 手作業を大幅に減らして、複雑な大規模環境を効率的に処理します。

  • 予知保全:潜在的な問題を事前に予測することは、ピーク時の性能サイクルでは非常に価値があります。

  • 可観測性との統合: 他の可観測性ツールと連携して問題を迅速に解決します。

エンタープライズ・ソリューション

大規模に設計されたIBM® Instana®は、今日の複雑なエンタープライズ・オブザーバビリティーにリアルタイムの可視性と自律的なトラブルシューティングをもたらします。

検知、AI駆動型診断、自律的な修復という3段階のプロセスにより、Instanaはエンドツーエンドの自律的なトラブルシューティングを実現し、性能に影響が及ぶ前に問題を確実に検知して修復します 8。

この機能の詳細については、Instana エージェント型AI ウェイティングリストにご登録ください。

まとめ

生成AIのスケーリングには、インテリジェントなインストルメンテーション、リアルタイムのLLMモニタリング、効果的なオーケストレーションによる自律的なトラブルシューティングが必要です。データセット、アウトプット、LLM応答の最適化に加え、最適化されたパイプラインとリアルタイムLLMテストによる堅牢なモデル性能の保守は、ユースケースなどのさまざまなユースケースでスムーズなエクスペリエンスを実現するために不可欠です。オープンソースLLMと機械学習ワークフローの使用が拡大しており、埋め込み技術を活用して、さまざまなツールを使用してLLM呼び出しを監視しています。洗練されたLLMオブザーバビリティー観測ツールを統合されたオブザーバビリティー観測プラットフォームとダッシュボードに組み込むOpenTelemetryなどのツールは、最適なモデル性能を提供するスケーラブルで安定したAIシステムを構築するために不可欠である9, 10

関連ソリューション
IBM DevOps アクセラレート

オンプレミス、クラウド、またはメインフレームのあらゆるアプリケーションのソフトウェア配信を自動化します。

DevOps Accelerateの詳細はこちら
DevOpsソリューション

DevOpsソフトウェアとツールを使用して、複数のデバイスや環境でクラウドネイティブ・アプリケーションを構築、デプロイ、管理します。

DevOpsソリューションの詳細はこちら
クラウド・コンサルティング・サービス 

IBMのクラウド・コンサルティング・サービスで新しい機能にアクセスし、ビジネスの俊敏性を高めましょう。ハイブリッドクラウド戦略や専門家とのパートナーシップを通じて、ソリューションを共創し、デジタル・トランスフォーメーションを加速させ、パフォーマンスを最適化する方法をご覧ください。

クラウド・サービス
次のステップ

継続的な統合とデリバリーにより、DevOpsの可能性を解き放ち、安全なクラウドネイティブ・アプリケーションを構築、テスト、デプロイします。

DevOps ソリューションの詳細はこちら DevOpsの実際の動作を確認する
脚注

1 Kumar, S., & Singh, R. (2024).「Don't blame the user: Toward means for usable and practical authentication」Communications of the ACM、67(4)、78–85。https://dl.acm.org/doi/10.1145/3706599.3719914

2 Datadog.(n.d.)。LLMのオブザーバビリティーとモニタリングとは何か?2025年5月19日、https://www.datadoghq.com/knowledge center/llm-observability/より取得。

3 「LLM-observability」、GitHub社、検索日:2025年5月19日、 https://github.com/DataDog/llm-observability、Datadog、(n.d.)。

4 Dong, L., Lu, Q., & Zhu, L. (2024年)。「AgentOps: Enabling Observability of LLM Agents」arXiv:https://arxiv.org/abs/2411.05285

5LangChain。(n.d.)。「Datadog LLM Observability - LangChain, Langsmith .js」2025年5月19日にhttps://js.langchain.com/docs/integrations/callbacks/datadog_tracer/ から取得。

6 「Optimizing LLM Accuracy」2025年5月19日に https://platform.openai.com/docs/guides/optimizing-llm-accuracy から取得

7「IBM Instana Observability」2025年5月19日にhttps://www.ibm.com/jp-ja/products/instana から取得

8 「AIエージェントの監視」IBM資料、検索日:2025年5月19日、 https://www.ibm.com/docs/en/instana-observability/1.0.290?topic=applications-monitoring-ai-agentsから取得

9 Zhou, Y., Yang, Y., & Zhu, Q. (2023年)。「LLMGuard: Preventing Prompt Injection Attacks on LLMs via Runtime Detection」arXiv preprint arXiv:2307.15043。https://arxiv.org/abs/2307.15043

10 Vesely, K., & Lewis, M. (2024)。「Real-Time Monitoring and Diagnostics of Machine Learning Pipelines」Journal of Systems and Software、185、111136。