オブザーバビリティー・エンジニアリングとは

眼鏡をかけ格子縞のシャツを着た男性が、2台の大きなモニターにコード行が表示され、目の前にはノートPCが開いている机で働いている。

執筆者

Chrystal R. China

Staff Writer, Automation & ITOps

IBM Think

オブザーバビリティー・エンジニアリングとは

オブザーバビリティー・エンジニアリングとは、本質的に観測可能なシステムを設計および構築し、高度なツールと方法を活用してオブザーバビリティー・データを収集、分析、視覚化するプロセスです。

システムが可観測性の場合、開発者は外部出力を分析することで、ソフトウェア・システム、インフラストラクチャー、およびネットワーク・コンポーネントの状態を把握できます。従来のIT監視ツールでは、分散型アーキテクチャーや多数のマイクロサービスなど相互依存するコンポーネントを特徴とする、今日の複雑なソフトウェア環境を完全に可視化することは困難です。

最新のソフトウェア・システムとコンピューティング環境には、分散トレース機能と包括的なメトリクスおよびロギング機能を提供する最新のフルスタック・オブザーバビリティー・ツールが必要です。オブザーバビリティー・エンジニアリングにより、オブザーバビリティー機能が開発および生産システムに組み込まれます。

オブザーバビリティー・エンジニアは、アプリケーション・コード、インフラストラクチャー、ミドルウェア層にオブザーバビリティー機能を組み込み、システム・イベント・データを監視パイプラインに統合します。コンテナ、Pod、サーバー、コンテンツ配信ネットワーク(CDN) のシステム・イベントを相互に関連付ける高度なツールを使用して、複雑なクラウドネイティブ・コンピューティング環境におけるエンドツーエンドのトレーサビリティーを実現しています。

オブザーバビリティー・エンジニアリングは、チームが監視データとテレメトリー・データを分析し、より応答性の高いアラートメカニズムを作成し、より微妙なデータの可視化とダッシュボードを取得するのに役立ちます。また、シフトレフトのオブザーバビリティー戦略もサポートしており、これにより開発者は開発ライフサイクルの早い段階でオブザーバビリティー機能を実行することで、システムの問題を先見的に検知し、その根本原因を理解し、最も効果的な解決方法を決定できます。

オブザーバビリティー・エンジニアリングを開発やネットワーク管理の手法に組み込むことで、企業は、安全で可用性が高く、高パフォーマンスなアプリやサービスの提供を促進する、よりオブザーバビリティーの高いシステムを構築できます。

ニュースレターを表示しているスマホの画面

The DX Leaders

「The DX Leaders」は日本語でお届けするニュースレターです。AI活用のグローバル・トレンドや日本の市場動向を踏まえたDX、生成AIの最新情報を毎月お届けします。

オブザーバビリティーの説明

オブザーバビリティーとは、外部アウトプット、特にテレメトリーに関する情報のみから、複雑なシステムの内部状態や状況を把握する能力を指します。

オブザーバビリティー・システムでは、ITチームはシステムのパフォーマンスをより簡単に監視および分析できます。たとえば、アプリケーション、オンプレミス・データセンタークラウド環境など、組織の技術スタック全体でデータがどのように流れるか、またボトルネックが発生する可能性のある場所はどこなのかを正確に把握できます。この知見により、チームは問題をより迅速に特定して修正し、一般に、より強力で回復力のあるシステムを構築できます。

オブザーバビリティーの本質は、未加工データを実行可能な知見に変換することです。ただし、従来の監視アプローチ(事前定義されたメトリクスと事後的なトラブルシューティングに重点を置く)とは異なり、オブザーバビリティーでは先見的なアプローチが採用されています。

オブザーバビリティー・ツールは、幅広いデータ・ソースからのデータ収集を利用して、より詳細な分析を実施し、問題解決を加速します。さまざまなネットワーク・コンポーネント(コンテナ、Pod、マイクロサービスなど)からテレメトリーやその他のデータを収集し、開発チームにコンポーネントの正常性とパフォーマンス、およびそれらが属する大規模システムの正常性とパフォーマンスの総合的なビューを提供します。

テレメトリーには、ログ、メトリクス、トレースというオブザーバビリティーの「3つの柱」があります。

ログは、ネットワークおよびソフトウェア・システム内で起こっていることの詳細な記録です。ログは、何が起こったか、いつ起こったか、ネットワークのどこで起こったかに関する詳細な情報を提供します。

メトリクスは、システムのパフォーマンスやリソース使用状況を数値で評価するメトリクスです。特定のデータ型や主要業績評価指標(KPI)を捉えることで、レイテンシー、パケット損失、帯域幅の可用性、デバイスのCPU使用率など、システムの健全性を俯瞰的に把握することができます。

トレースは、すべてのユーザー・リクエストがネットワークを通過する過程をエンド・ツー・エンドで記録したものです。トレースは、データ・パケットが複数のデバイスやシステムを通過する際のパスと動作に対する洞察を提供するので、分散環境を理解する上で不可欠です。

監視ツールとは異なり、オブザーバビリティープ・ラットフォームは先見的な方法でテレメトリーを使用します。DevOpsチームとサイト信頼性エンジニア(SRE)は、オブザーバビリティーを使用してテレメトリーをリアルタイムで相関させ、システムの正常性の完全なコンテキストビューを取得します。これにより、チームはシステムの各要素と、さまざまな要素が互いにどのように関連しているかをよりよく理解できます。

依存関係を含むIT環境の包括的なビューを提供することで、オブザーバビリティー・ソリューションは、システム・イベントの「内容」、「場所」、「理由」、そしてそのイベントが環境全体のパフォーマンスにどのような影響を与えるかをチームに示すことができます。また、システム内に出現する可能性のあるテレメトリーの新しいソース(たとえば、ソフトウェア・アプリケーションへの新しいアプリケーション・プログラミング・インターフェース(API)呼び出し)を自動的に検出することもできます。

テレメトリーとデータ相関機能は多くの場合、ソフトウェア・エンジニアとDevOpsチームがアプリケーションのな機能を実装する方法を決定します。また、アプリケーション、デバッグ・プロセス、および問題解決も同様に実装されます。これらのツールにより、ITチームは問題が大きくなる前に検知して対処できるようになり、シームレスな接続、最小限のダウンタイム、最適化されたユーザー体験を実現できます。

ただし、開発者が将来のオブザーバビリティーの実践に組み込めるフィードバックも提供されるため、オブザーバビリティー・エンジニアリングにも不可欠なものとなります。

オブザーバビリティー・エンジニアリングの基本原則

オブザーバビリティー・エンジニアリングを成功させるには、次のようないくつかの重要な原則が欠かせません。

    包括的なアプリの計測

    アプリケーション・コードベース全体にロギング、メトリクス、トレースを埋め込むことで、エンジニアリング・チームが重要なデータを主要な収集ポイントで取得できるようになります。

    チームは、JSONなどの構造化されたログ形式を使用することで、ログ管理を効率化し、検索や解析を容易にできます。また、各マイクロサービスやサードパーティー統合に対して、入出力データ要求のトレースを収集するための計装を行うことで、IT環境全体の可視性を確保し、開発者が問題をより迅速に特定・修正できるようになります。

    分散トレース

    分散トレース・ツールは、コンピューティング環境内の各データ要求のパス全体を視覚化し、ITチームが問題発生時に迅速にトラブルシューティングできるように支援します。

    開発者は、複数のサービスを横断する際に一意の識別子を使用して要求を追跡し、システム運用に対する完全なエンドツーエンドの知見を得ることができます。たとえば、エンジニアは、エコシステムのエッジ( APIゲートウェイなど)で、すべての受信データ要求に一意のトレースIDを割り当て、要求の過程の各セグメントにスパンIDを適用できます。

    有意なサービスレベル目標(SLO)

    SLOは、特定の期間にわたるサービスに対する合意されたパフォーマンス目標です。これらは、企業が サービス・レベル契約(SLA)、提供サービスを定義するサービス・プロバイダーと顧客間の契約、およびユーザーが期待するパフォーマンス・レベルを確実に満たすのに役立ちます。

    実際のユーザー体験を表す明確で定量化可能なメトリクスを確立し、システムの信頼性とパフォーマンスの達成可能な目標を設定することは、オブザーバビリティー・エンジニアリングに不可欠です。このプロセスは、エンジニアが常に適切なオブザーバビリティーを使って作業できるようにするだけでなく、問題の正確な検知と解決も容易にします。

    オブザーバビリティー・ファーストの文化

    オブザーバビリティー・エンジニアリングとは、開発ライフサイクルの早い段階でオブザーバビリティーを考慮に入れることだけではありません。オブザーバビリティーの実践が開発者の日常のワークフローに統合され、エンジニアがコードを作成および管理する方法を推進する、オブザーバビリティー駆動型開発を促進することでもあります。

    オブザーバビリティー・エンジニアリングの主要な構成要素

    基本的なテレメトリー・データと相関ツールのほか、オブザーバビリティー・エンジニアリングは以下に依存しています。

    リアルタイムの監視とアラート

    監視可能なシステムを維持するには、堅牢な監視プロトコルを確立することが重要です。監視ツールは、メモリ使用量、エラー率、応答時間、合成トランザクションの成果など、一連のシステムメトリクスを継続的に収集し、追跡することができる。リアルタイムモニタリングは、エンジニアがシステム動作に関する最新情報を確実に入手するのに役立ちます。

    ほとんどのオブザーバビリティー・ソリューションは、異常なイベントや確立されたベースラインからの逸脱をチームに通知する自動警告メカニズムも備えています。

    構造化イベント

    構造化イベントとは、システム内の特定の活動や発生を記述するキーと値のペアを含むデータレコードです。多くの場合、構造化イベントの送信は、特定の状態またはエラーにつながった操作のコンテキストと順序を取得するので、重要なシステム・アクティビティーや変更を追跡する最適な方法となります。

    通常、各イベントには、一意の識別子、メタデータ(ヘッダーや変数など)、実行タイムスタンプが含まれているため、デバッグ、監査、フォレンジック分析に非常に役立ちます。

    アプリケーション・パフォーマンス監視

    アプリケーションのパフォーマンス監視ツールは、アプリケーションの正常性とエンドユーザー体験を包括的に可視化します。トランザクション・スループット、遅延、サービス間の依存関係など、重要なアプリ・パフォーマンス・メトリクスを追跡することで、チームがパフォーマンスのボトルネックを診断し、ユーザーのやり取りを追跡し、アプリケーション・スタック全体の変更の影響を理解するのに役立ちます。

    ダッシュボード

    ダッシュボードは、システムの各種コンポーネントからのメトリクス、ログ、トレースを集約して表示し、視覚化された知見を提供して、チームがシステムのパフォーマンスを迅速に評価し、データの傾向を特定し、問題を特定できるよう支援します。ダッシュボードはカスタマイズ可能なことが多いため、開発者は組織内の各関係者の役割に最も関連性の高いデータが強調表示されるようにダッシュボードを設定できます。

    DevOpsとサイト信頼性エンジニアリングの連携

    オブザーバビリティー・エンジニアリングは、DevOpsおよびSREの手法と密接に関連しています。

    これは、機能のフラグ付け(実行時に新機能をオンまたはオフにして、どのユーザーがそれらにアクセスできるかを制御やブルーグリーン・デプロイメント(開発者が2つの類似した並列運用環境 (またはクラスター) を実行し、各環境でアプリケーションの異なるリリースを実行)などの高度なオブザーバビリティー・プラクティスを実装するためにチームが必要とするデータを提供します。

    オブザーバビリティー・エンジニアリングをCI/CDパイプライン自動化プロセスに埋め込むことで、ITチームはシステム全体の信頼性を高め、ソフトウェアの配信を加速し、本番環境における変更をしっかり管理できるようになります。

    オフィスでミーティングをするビジネスチーム

    IBMお客様事例

    お客様のビジネス課題(顧客満足度の向上、営業力強化、コスト削減、業務改善、セキュリティー強化、システム運用管理の改善、グローバル展開、社会貢献など)を解決した多岐にわたる事例のご紹介です。

    オブザーバビリティー・エンジニアリング手法

    オブザーバビリティー・エンジニアリングは、IT環境の可視性を深めるための一連の実践とツールを包含します。また、開発者がより高度なエンジニアリング手法を実装できるようにすることも可能です。

    ビジネスKPIの相関関係

    オブザーバビリティー・エンジニアリングは、チームが技術的な指標(レイテンシーなど)を主要なビジネス成果(顧客満足度や収益創出など)に結び付けるのに役立ちます。このアプローチにより、IT担当者は技術的な問題がビジネスに与える影響を評価し、最も重要な修正プログラムに優先順位を付け、技術的な優先順位と組織の目標を一致させることができます。

    たとえば、オブザーバビリティー・データから、レイテンシーが高いほどコンバージョン率が低いことが示された場合、開発者はレイテンシーの問題に対処して変換率を増やすことができます。

    OpenTelemetry(OTel)

    OpenTelemetryは、アプリケーション、システム、デバイスのインスツルメンテーションのためのソフトウェア開発キット(SDK)、ベンダーに依存しないAPI、その他のツールを含む、オープンソースのオブザーバビリティー・フレームワークです。OpenTelemetryはプログラミング言語、インフラ、ランタイム環境に関係なくテレメトリー・データの収集方法を簡素化し、開発者があらゆるオブザーバビリティー・バックエンドの標準テレメトリー・データを生成、収集、エクスポートできるようにします。

    OTelを使用することで、オブザーバビリティー・エンジニアはさまざまなアプリ、システム、ユースケースにわたってテレメトリー・データを一貫して収集できます。データの統合とオブザーバビリティーのプラクティスを簡素化するIT環境の将来性を確保できます。

    継続的な検証

    継続的な検証により、開発者はオブザーバビリティー・チェックをCI/CDパイプラインに直接埋め込み、実稼働環境に到達する前に問題を特定できます。アプリ開発のビルドと展開の段階で自動監視、ロギング、アラート機能を使用することで、チームはパフォーマンスの問題を迅速に検知できます。これらのプロセスにより、展開の信頼性を最適化し、より迅速で高品質なソフトウェア・リリースのためのフィードバック・サイクルを加速できます。

    機械学習主導の異常検知

    企業は、AI搭載アルゴリズムを使用して、膨大な量のオブザーバビリティー・データを選別し、従来のツールを回避する可能性のある新たなシステム問題を見つけることができます。たとえば、長短期記憶(LSTM)ネットワークでは、機械学習(ML)テクノロジーにより、ネットワークは時系列データや自然言語などのシーケンスで提供されるデータをより適切にモデル化し、学習できるようになります。

    LSTMをテレメトリーで学習させることで、正常なシステム動作を特定し、将来のシステム状態を予測することができます。実際のデータが予測から大きく逸脱している場合、チームにはセキュリティー侵害、ネットワーク障害、システム劣化の可能性を通知するアラートが送信されます。

    カオス・エンジニアリング

    カオス・エンジニアリングとは、開発者が意図的に本番環境または運用前の環境で障害を起こし、システムへの影響を理解するプロセスです。ネットワーク障害、サーバーのクラッシュ、トラフィックの急増などの中断をシミュレートすることで、オブザーバビリティー・エンジニアはシステムの脆弱性を特定できます。また、防衛体制やインシデント対応戦略を改善し、システムが予期せぬ事態に耐えられるようにするのにも役立ちます。

    オブザーバビリティー・エンジニアリングのメリット

    • その例として、異常検知やトラブルシューティングの精度向上があります。オブザーバビリティー・エンジニアリングは、チームが異常な活動を迅速に検知できるようにし、より迅速かつ徹底的なトラブルシューティングやデバッグを可能にします。
    • 平均修復時間(MTTR)の短縮オブザーバビリティー・エンジニアリングにより、開発チームは問題を迅速に検知して解決でき、MTTRを大幅に削減できます。
    • データに基づく意思決定。オブザーバビリティー・ツールが提供する実行可能な知見により、チームはシステム・アーキテクチャ、リソース管理、パフォーマンス・チューニングについて、より賢明な決定を下すことができる。
    • ユーザー体験の向上。オブザーバビリティー・エンジニアリングは、ユーザーがソフトウェアやネットワークとシームレスなやり取りを行えるよう、開発者が機能のアップグレードや最適化の機会を先見的に特定できるよう支援します。
    • 継続的改善。オブザーバビリティー・エンジニアリングを使用することで、DevOpsチームは、コードが本番環境でどのように実行されるかを総合的に深く理解できるため、バグの特定が迅速化し、継続的な改善が促進されます。
    関連ソリューション
    フルスタック・オブザーバビリティーの自動化

    問題の原因を迅速に特定し、修正します。 リアルタイムの高精度データにより、動的なアプリケーションおよびインフラストラクチャーの環境を完全に可視化できます。

    フルスタック・オブザーバビリティーの詳細はこちら
    クラウド・リソースの自動最適化

    オブザーバビリティーを活用して、クラウドのリソースをプロアクティブに最適化し、パフォーマンスを確保し、コストを節約します。

    クラウド・コスト最適化の詳細はこちら
    アプリケーション管理の合理化

    異種の環境、アプリケーション、ツールセットからのデータを利用して依存関係と関連性を分析し、アプリケーション環境の全体にわたる可視性を提供します。

    アプリケーション管理の合理化の詳細はこちら
    次のステップ

    AIを活用したオブザーバビリティー・ツールが、クラウドネイティブなアプリケーションの健全性を支援、運用のレジリエンスを最大化します。

     

    オブザーバビリティー・ソリューションを見る 無料相談・デモ体験はこちら
    脚注

    1 Kumar, S. & Singh, R.(2024年)「Don't blame the user: Toward means for usable and practical authentication」Communications of the ACM、67(4)、78–85.https://doi.org/10.1145/3706599.3719914

    2 Datadog. (n.d.)。「What Is LLM Observability & Monitoring?」2025年5月19日にhttps://www.datadoghq.com/knowledge center/llm-observability/から取得

    3 「LLM-observability」、GitHub社、検索日:2025年5月19日、 https://github.com/DataDog/llm-observability、Datadog、(n.d.)。

    4 Dong, L., Lu, Q., & Zhu, L. (2024年)。「AgentOps: Enabling Observability of LLM Agents」arXiv:https://arxiv.org/abs/2411.05285

    5 LangChain. (n.d.)。「Datadog LLM Observability - LangChain, Langsmith .js」2025年5月19日にhttps://js.langchain.com/docs/integrations/callbacks/datadog_tracer/から取得。

    6 「Optimizing LLM Accuracy」2025年5月19日にhttps://platform.openai.com/docs/guides/optimizing-llm-accuracyから取得

    7 「IBM Instana Observability」2025年5月19日にhttps://www.ibm.com/jp-ja/products/instanaから取得

    8 「Monitoring AI Agents」、IBM資料、検索日:2025年5月19日、https://www.ibm.com/docs/en/instana-observability/1.0.290?topic=applications-monitoring-ai-agents

    9 Zhou, Y., Yang, Y., & Zhu, Q. (2023年)。「LLMGuard: Preventing Prompt Injection Attacks on LLMs via Runtime Detection」arXiv preprint arXiv:2307.15043。https://arxiv.org/abs/2307.15043

    10 Vesely, K., & Lewis, M. (2024年)。「Real-Time Monitoring and Diagnostics of Machine Learning Pipelines」Journal of Systems and Software、185、111136。https://doi.org/10.1016/j.jss.2023.111136