SREオブザーバビリティーとは

2025年3月4日

著者

Chrystal R. China

Writer, automation & ITOps

SREオブザーバビリティーとは

サイト信頼性エンジニアリング(SRE)のオブザーバビリティーとは、外部出力を分析することによって、システムやプロセスの内部状態をきめ細かく可視化するソフトウェア開発ツールや方法論を包含する手法です。

ソフトウェア計測を使用して、コンピューティング環境(インフラストラクチャーやアプリケーションを含む)全体のデータを収集・分析することで、ITチームは長期にわたってアーキテクチャーとサイトの信頼性を理解し、維持、向上させることができます。

サイト信頼性エンジニアリングのオブザーバビリティーは標準的なシステム監視を超えており、あらゆるオブザーバビリティー戦略の重要な要素として機能しますが、最新のコンピューティング・ネットワークの最適化に必要な包括的な可視性は備えていません。

例えば、従来の監視ツールには、システム状態を視覚化し、IT担当者に障害を警告するためのダッシュボードがあります。しかし、今日のクラウドネイティブ・コンピューティング環境はますます分散化しており、さまざまなマイクロサービスエッジ・サーバーDocker コンテナサーバーレス機能に依存しています。

このようなネットワークは非常に動的で、ネットワーク・サービスの管理に必要な人間の介入は限られているため、従来の監視システムでは、単純な監視作業でさえ不十分であることがよくあります。

オブザーバビリティーの目標は、安全でスケーラブルで高可用性のサイトおよびサービスを維持するために必要な実行可能なデータをサイト信頼性エンジニアに提供することです。システムが監視可能な場合、エンジニアは内部アクティビティーを簡単に表示し、サイトの信頼性に悪影響を与える可能性のある問題や脆弱性のトラブルシューティングをより適切に行うことができます。サイト信頼性エンジニアリングのオブザーバビリティーは、エンジニアが全体的なネットワークの性能を最適化し、ネットワークサービス全体で継続的な改善プラクティスを実施するのにも役立ちます。

ニュースレターを表示しているスマホの画面

The DX Leaders

「The DX Leaders」は日本語でお届けするニュースレターです。AI活用のグローバル・トレンドや日本の市場動向を踏まえたDX、生成AIの最新情報を毎月お届けします。

SREとオブザーバビリティー:要約

サイト信頼性エンジニアリング

サイト信頼性エンジニアリングは、DevOpsと従来のIT運用(ITOps)を組み合わせて、顧客の問題を解決し、ITOps業務を自動化し、ソフトウェア配信を加速し、ITリスクを最小限に抑えるソフトウェア・エンジニアリング手法です。主要なプロセスを一貫して自動化することで、レジリエンスを実現することに重点を置いています。

従来、サイト信頼性エンジニアリングは、ログ分析、パフォーマンス・チューニング、パッチ適用、実稼働環境でのテスト、インシデント管理、事後評価などの手動のITオペレーションとシステム管理プロセスで構成されています。ただし、最新のサイト信頼性エンジニアリングではこれらのタスクが自動化されるため、時間が節約され、人的エラーが削減され、開発チームとオペレーションチーム間のコラボレーションが合理化されます。

サイト信頼性エンジニアリングツールは、カオス・エンジニアリングと呼ばれるプロセスを使用してシステムの欠陥を自動的に検索します。このプロセスでは、サイト信頼性エンジニアが意図的に本番環境や運用前の環境で障害を引き起こします。このプロセスにより、チームは障害がソフトウェア・システムにどのような影響を与えるかを理解し、将来的に障害を軽減するための戦略を策定することができます。

さらに、サイト信頼性エンジニアリングはキャパシティ・プランニングも重視しています。キャパシティ・プランニングとは、主要なビジネス機能のリソース要件を決定し、それらのビジネス機能を拡張し、開発者が新しいアプリケーションや主要な機能を作成できるようにするプロセスです。確立されたKPIを使用することで、SREチームは更新プログラムの配信と主要な機能の実装を評価できます。

オブザーバビリティー

オブザーバビリティーは、最新のソフトウェア・システムとクラウド・コンピューティング環境の可用性、性能、セキュリティを維持する上で重要な役割を果たします。

「オブザーバビリティー(可観測性)」という用語は、動的なシステムの自動制御(例えば、流量制御システムからのフィードバックに基づいてパイプを通る水の流れを調整する)に関連する工学理論である制御理論に由来しています。

オブザーバビリティーにより、最新の分散技術スタックに詳細な可視性が提供されるため、自動化されたリアルタイムでの問題の特定と解決が可能になります。システムの可観測性が高いほど、ITチームは、多くの場合、追加のテストやコーディングを行わなくても、パフォーマンスの問題の根本原因をより迅速かつ正確に特定できます。

観測可能なシステムの構築と維持には、アプリケーションとそれが実行されているハードウェアやネットワークから定常的に流れる性能データを集約、相関付け、分析できるソフトウェア・ツールが必要です。ITチームはそのデータを使用して、すべてのネットワーク・コンポーネントを監視、トラブルシューティング、デバッグできるため、企業は顧客体験を最適化し、サービス・レベル契約(SLA)を満たすことができます。

オブザーバビリティーは、APM(アプリケーション・パフォーマンス管理)ネットワーク・パフォーマンス管理と混同されることがよくあります。ただし、オブザーバビリティー・ツールはAPM(アプリケーション・パフォーマンス管理)とNPMのデータ収集方法を自然に進化させたもので、クラウドネイティブ・アプリケーションの展開に適しています

SREオブザーバビリティーの構成要素

オブザーバビリティーを達成するには、組織が次のような遠隔測定データを収集する必要があります。

メトリクス

メトリクスとは、特定の時間間隔におけるシステムの健全性と性能(サーバーやAPIなど)を示す、未処理の、派生した、または集約された定量的測定値です。これらは、組織がサイト信頼性エンジニアリング監視とデータ分析実践の強固な基盤を構築するのに役立ち、エンジニアがデータ・パターンを特定してシステムの問題を予測できるようにします。

サイト信頼性エンジニアリングの一般的なメトリクスには、CPU使用率、メモリ消費量、要求のレイテンシー、エラー率、ネットワーク帯域幅などがあり、それぞれシステムの状態のスナップショットを提供し、チームが潜在的な問題をエスカレーション前に解決できるよう支援します。

ログ

ログは、タイムスタンプ付きの詳細なテキスト記録であり、通常はプレーンテキスト、バイナリー、または構造化形式で記録されます。多くの場合、システムの問題を理解して診断しようとするエンジニアにとって出発点となります。

SREオブザーバビリティー・ツール内のログ機能は、さまざまなデータ(エラー・メッセージ、起動およびシャットダウン・プロセス、構成の変更など)を収集、保存、分析、関連付けます。これにより、SREチームはイベントを時系列とコンテキストで理解できるようになり、問題の根本原因の追跡と解決ワークフローの展開が容易になります。

トレース

HTTP要求やデータベース・クエリーなどのトレースは、データ要求の開始から完了までのライフサイクルの包括的なビューを提供します。これらは、コンピューティング・ネットワークを介した要求の過程を表し、さまざまなコンポーネントとサービス間のやり取り(依存関係など)を捉えます。

トレース、特に分散トレースは、要求が宛先に到達する前に複数のサービスを経由する可能性があるマイクロサービス・アーキテクチャーで役立ちます。

アラート

サイト信頼性エンジニアリングのオブザーバビリティー・ツールは、問題が発生すると自動的に通知を送信するため、エンジニアは問題を迅速に解決し、エンドユーザーのダウンタイムを最小限に抑えることができます。

サイト信頼性エンジニアリングのオブザーバビリティー・ソリューションは、企業がほぼリアルタイムでパフォーマンスのテレメトリーを収集して処理できるようにし、サイト信頼性エンジニアリング・チームにシステム・エラーとその発生理由に関するデータ駆動型の洞察を提供します。これらの洞察により、組織はサイトの開発と保守中のエンジニアの認知負荷を軽減し、より小規模で部門横断的で自律的なチームがサービスをより効率的に管理できるようになります。

SREオブザーバビリティーの未来

人工知能(AI)と機械学習(ML)を SREオブザーバビリティー・ソリューションと統合することで、企業のサイト信頼性エンジニアリングへのアプローチが急速に変化しています。AIOpsアプローチにより、SREチームは高度なツールとアルゴリズムをオブザーバビリティーの実践に組み込み、オブザーバビリティー・ツールからのデータセットを分析してパターンを識別し、停止を予測し、ソリューションを推奨できるようになります。

SREは、手動作業やスクリプト作成のみに集中するのではなく、AIシステムのトレーナーや戦略家となり、パターンを認識し、ノイズを除外し、コストのかかるエラーを回避することをAIに教えることができます。この変化により、サイト信頼性エンジニアリング機能はタスク指向の役割からインテリジェントな自動化システムの管理を中心とした戦略的な分野へと昇格します。

例えば、SREオブザーバビリティー・ツールは、AIテクノロジーを使用して、修復プロセスにおいて人間の意思決定をエミュレートし、自動化できます。AIベースのオブザーバビリティー機能は、受信データを継続的に監視、分析し、設定されたしきい値を超えるアクティビティーを検出し、問題に対処するための一連の是正措置(修復スクリプトなど)を実行できます。

ソフトウェアが問題を解決できない場合に限り、SREチームの問題管理プラットフォームで詳細なサポート・チケットが自動的に生成されるため、SREスタッフはオブザーバビリティー・プラットフォームが処理できない問題にのみ対処することになります。

AI駆動型オブザーバビリティー・ツールは、大規模言語モデル(LLM)の高度なテキスト処理機能を使用して、サイト信頼性エンジニアリング・オブザーバビリティー・プラットフォームのデータ知見を簡素化することもできます。LLMは、複雑な分散システムの遠隔測定データによく似た、大量の反復テキスト・データのパターンを認識することに長けています。今日のLLMは、人間の言語による構文とセマンティクスを使って情報や知見を返すように訓練することも、プロンプト・エンジニアリング・プロトコルで推進することもできます。

Advanced LLMにより、SREチームは自然言語でを作成、探索できるようになり、複雑なクエリー言語から脱却し、あらゆるスキル・レベルのITスタッフが複雑なデータをより効果的に管理できるようになります。

さらに、SREオブザーバビリティー・ツールは、単に相関関係を特定するのではなく、変数間の因果関係を明確にしてモデル化する因果推論AI機能のメリットを得られます。従来のAI技術(MLなど)は多くの場合、統計的相関に依存して予測を行います。因果推論AIはその代わりに、相関関係を生み出す根本的なメカニズムを見つけ出し、SREオブザーバビリティー・ツールの予測力を向上させ、より的を絞った意思決定を可能にすることを目指しています。

因果推論AI は、サイト信頼性エンジニアリング・チームがサイトとネットワーク・コンポーネント間の関係と相互依存関係を分析するのに役立ちます。これらの主要な機能は、システムの問題が「いつ、どこで」発生するかだけでなく「なぜ」も明確化することで、サイトの信頼性を高めます。

オフィスでミーティングをするビジネスチーム

IBMお客様事例

お客様のビジネス課題(顧客満足度の向上、営業力強化、コスト削減、業務改善、セキュリティー強化、システム運用管理の改善、グローバル展開、社会貢献など)を解決した多岐にわたる事例のご紹介です。

SREオブザーバビリティー・ツールのメリット

SREオブザーバビリティーでは多くの場合、以下を実現する高度なオブザーバビリティー・ツールの使用が必要になります。

先見的な問題検出と根本原因分析

オブザーバビリティー・ツールを使用することで、サイト信頼性エンジニアリング・チームはメトリクス、ログ、分散トレース機能を使用して、ユーザーに影響が及ぶ前にシステムの問題を検知して修正できます。オブザーバビリティー・ソリューションは、ネットワーク全体からのデータを監視および集約し、システムの動作を明確に可視化して、エンジニアが根本原因分析を迅速に実施できるようにします。これらのソリューションは、企業全体の先見的なサイト信頼性エンジニアリングの実践を推進し、企業がネットワークの可用性を最大化できるように支援します。

インシデント対応時間の短縮

コンテキストに当てはめられた集約データを使用するオブザーバビリティー・ソリューションにより、サイト信頼性エンジニアリング・チームとオンコール・エンジニアは、インシデントが検知されたときにトラブルシューティング・プロセスを迅速に開始し、システム状態に関する知見を収集できます。これらのソリューションは迅速な診断と解決を可能にし、企業がサイトの信頼性とSLAの遵守を維持できるように支援します。

情報に基づく意思決定と現場のパフォーマンスの最適化

データに基づく意思決定は、SREの基礎です。オブザーバビリティー・プラットフォームは、システム・アーキテクチャー、キャパシティー・プランニング、運用戦略について情報に基づいた意思決定を行うために必要なすべての情報をチームに提供し、経験的証拠に基づく変更を確実に行えるようにします。遠隔測定データにより、チームはシステムの性能を調整して、信頼性を最大限に高めることもできます。

ビジネス成果の向上

ユーザー満足度はシステムの信頼性を生み出し維持する上で重要な役割を果たすため、サイト信頼性エンジニアリングの取り組みはより広範なビジネス目標から切り離せません。サイト信頼性エンジニアリングのオブザーバビリティー・ソリューションは、企業によるサービス・レベル目標(SLO)の確立を支援することで、ユーザー満足度を測定するツールを提供します。

SLOは、CPUやメモリー使用率などの間接的なメトリクスとは異なり、ユーザー・エクスペリエンスに関する実行可能な洞察を提供します。通常、オブザーバビリティー・ツールはユーザー満足度を具体的に評価するように調整できます(たとえば、製品購入時にユーザーが直面する問題を特定するなど)。SLOベースのストラテジーは、データ駆動型な議論を推進し、企業が信頼性に重点を置くべき時期や新しい機能を追求する時期を理解するのに役立ちます。

SREオブザーバビリティーのユースケース

SREオブザーバビリティーにより、組織は次のようなビジネス分野にわたるさまざまなユースケースでサイトの信頼性とアップタイムを最適化できます。

Eコマース

電子商取引プラットフォームの場合、SREオブザーバビリティーは、シームレスなユーザー体験とトランザクションの信頼性の実現に役立ちます。チームは、Webサイトのパフォーマンス、トランザクション処理、ユーザー・エンゲージメントのメトリクスをリアルタイムで監視できます。また、オブザーバビリティー・ツールを使用して速度低下や中断を特定し、小売業者がカートの放棄を防げるよう支援し、サイト・エンジニアがサーバー負荷を最適化し、ショッピング・シーズンのピーク時にリソースを拡張できるように支援します。

物流

サイト信頼性エンジニアリングのオブザーバビリティーにより、企業は荷物の配送時間、出荷量、在庫を監視できるようになり、出荷の遅延や在庫不足などの問題についての迅速な異常検知が容易になります。SREオブザーバビリティー・ツールは、配達成功率など、サービス・レベル指標(SLI)(さまざまなサービスに関連するシステム動作の定量的な測定値)を追跡することもできます。

銀行

サイト信頼性エンジニアリングのオブザーバビリティーにより、金融機関は電信送金、ATM出金、オンライン決済などの重要な取引を監視できます。サイト信頼性エンジニアリング・ツールは、銀行がサイトやシステムを自動的に拡張して、デジタル金融サービスに対する需要の高まりへの対応にも役立てることができます。

医療

SREオブザーバビリティーにより、医療従事者は患者データをリアルタイムで監視および分析できます。例えば、病院のサイト信頼性エンジニアリング・チームは、バイタル・サインを追跡するシステムを導入することで、医療上の緊急事態が発生した場合に医師や看護師が迅速に介入することができます。オブザーバビリティー・ツールは、病院のインフラストラクチャーを監視し、スタッフが最も質の高い患者ケアを提供するのを妨げる可能性のある性能の問題を特定することもできます。

関連ソリューション
フルスタック・オブザーバビリティーの自動化

問題の原因を迅速に特定し、修正します。 リアルタイムの高精度データにより、動的なアプリケーションおよびインフラストラクチャーの環境を完全に可視化できます。

フルスタック・オブザーバビリティーの詳細はこちら
AIOpsコンサルティング

生成AIでITのオートメーションとオペレーションを強化して、ビジネスの優先事項に沿ったITインフラストラクチャーを実現します。

AIOpsコンサルティングの詳細はこちら
IBM SevOne Network Performance Management

IBM SevOne Network Performance Managementは、複雑なネットワークに対するリアルタイムの可視性と洞察を提供する監視および分析ソフトウェアです。

ネットワーク・パフォーマンスの監視
次のステップ

ITオペレーション用AIを活用して、優れた業績を実現するための洞察を得られる方法をご紹介します。

AIOpsソリューションの詳細はこちら デモを予約