オブザーバビリティーとは、外部アウトプット、特にテレメトリーに関する情報のみから、複雑なシステムの内部状態や状況を把握する能力を指します。
オブザーバビリティーは、クラウド・コンピューティング環境の可用性、性能、セキュリティーを維持する上で重要な役割を果たします。
「オブザーバビリティー」という用語は、制御理論に由来します。制御理論とは、流量制御システムからのフィードバックに基づいてパイプを通る水の流れを調整するなど、動的システムの制御の自動化に関する工学理論です。
オブザーバビリティーにより、最新の分散技術スタックに詳細な可視性が提供されるため、自動化されたリアルタイムでの問題の特定と解決が可能になります。システムのオブザーバビリティーが高いほど、ITチームは、特定されたパフォーマンスの問題からその根本原因に、追加のテストやコーディングを行わなくても、より迅速かつ正確に移行できます。
IT運用（ITOps）とクラウド・コンピューティングでは、オブザーバビリティー・ソフトウェアには、アプリケーションとそのアプリケーションが実行されるハードウェアおよびネットワークからの安定した性能データ・ストリームを集約・相関付け・分析するソフトウェア・ツールが必要です。チームはそのデータを使用して、アプリやネットワークを監視、トラブルシューティング、デバッグし、最終的には顧客体験を最適化し、サービス・レベル・アグリーメント（SLA）やその他のビジネス要件を満たすことができます。
オブザーバビリティーは、アプリケーション・パフォーマンス監視やネットワーク・パフォーマンス管理（NPM）と混同されることがよくありますが、オブザーバビリティー・ツールは、アプリケーション・パフォーマンス監視とNPMデータ収集方法の自然な進化形であり、クラウドネイティブ・アプリケーションの展開のますます分散化および動的化が進む性質に対処するのに適しています。
オブザーバビリティーは他のモニタリング・アプローチに取って代わるものではなく、そのアプローチを改善・拡張するものです。
オブザーバビリティー・プラットフォームは、アプリやインフラストラクチャー・コンポーネントに組み込まれたインストルメンテーションと統合することで、性能のテレメトリーを継続的に検出・収集し、これらのコンポーネントに主要な機能とインストルメンテーションを追加します。
オブザーバビリティーは、次の3つの主要なテレメトリー・タイプに焦点を当てています。
ログは、アプリケーション・イベントに関する詳細な、タイムスタンプ付きの完全かつ不変の記録です。ログを使用することで、周囲のコンテキストを含む、あらゆるイベントのミリ秒単位の高忠実度の記録を作成できます。開発者は、トラブルシューティングやデバッグのためにログを使用します。
トレースは、ユーザー・インターフェースまたはモバイル・アプリケーションからアーキテクチャー全体を通ってユーザーに戻るまで、すべてのユーザー・リクエストのエンドツーエンドの「過程」を記録します。
メトリクス（時系列メトリクスと呼ばれることもあります）は、時間の経過に伴うアプリケーションとシステムの健全性の基本的な尺度です。たとえば、メトリクスは、アプリケーションが5分間にどれだけのメモリーまたはCPU容量を使用するか、または使用量の急増時にアプリケーションでどれだけのレイテンシーが発生するかを測定するために使用されます。
オブザーバビリティー・ツールは、各アプリケーション・コンポーネントが他のコンポーネントやアプリケーション、ITリソースにどのように依存しているかを明らかにする依存関係マップも生成します。
テレメトリー収集後、プラットフォームはデータをリアルタイムで関連付け、 DevOpsチームやサイト信頼性エンジニアリング（SRE）チーム、ITスタッフに完全なコンテキスト情報を提供します。チームは、アプリケーションの性能の問題を示す、原因となる、または対処する可能性のあるイベントの「内容、場所、理由」を理解することができます。
多くのオブザーバビリティー・プラットフォームは、新しいアプリケーション・アプリケーション・プログラミング・インターフェース（API）がネットワークに追加されたときなど、システム内に出現する新しいテレメトリー・ソースを自動的に検出します。主要なプラットフォームには、実際の問題の兆候である信号を、現在の問題や潜在的な問題とは無関係なデータである「ノイズ」から分離できる、運用のための人工知能（AIOps）機能も搭載されています。
オブザーバビリティー・ツールは通常、企業が技術スタックをより明確に理解できるように、次の3つの主要なプロセスを自動化します。
継続的なデータ収集により、オブザーバビリティーが可能になります。オブザーバビリティー・ツールは、CPUメモリー・データやアプリ・ログ、高可用性番号、平均レイテンシー、その他のメトリクスの収集と集約およびアクセスを容易にします。
チームはアプリとシステムのデータを比較的簡単に表示できる必要があります。そのため、オブザーバビリティー・ツールは、アプリの健全性や関連サービス、関連するビジネス目標を監視するためのダッシュボードをセットアップします。
主要な機能の監視により、依存関係グラフなどのツールを使用してサービスが相互にどのように連携し、アーキテクチャ全体に適合するかを明確にできます。
以前は、データ分析タスクはアプリケーション・パフォーマンス管理（APM）ツールを使用して実行されていました。このツールは、各データソースから収集されたデータを集約し、オブザーバビリティー・ソフトウェアの監視機能と同様に、わかりやすいレポートやダッシュボード、視覚化を作成していました。
現代のアーキテクチャーはコンテナ化されたマイクロサービスに依存することが多いため、オブザーバビリティー・ツールは基本的なテレメトリーをKubernetesレイヤーにオフロードすることが多く、これにより、ITチームはサービス・レベル目標（SLO）とサービス・レベル指標（SLI）のデータ分析に集中できるようになります。オブザーバビリティー・ソフトウェアは、複数のソースからのデータを収集し、それを精査して適切なものを見つけ、実行可能な洞察を開発チームに提供します。
オブザーバビリティー・ソフトウェアのオートメーション機能がこれら3つのプロセスの範囲を超えていることは注目に値します。オブザーバビリティー・ツールは、新しいサービスがネットワークに追加されるにつれて、デバッグ・プロセス、インストルメンテーション、監視用ダッシュボードの更新の自動化をサポートすることもできます。また、エージェントがエコシステム全体に展開され、テレメトリー・データを継続的に収集するための小さなソフトウェア・コンポーネントであるエージェントの処理も管理します。
過去数十年にわたり、ITチームは主にAPMツールに依存してアプリケーションの監視とトラブルシューティングを行ってきました。APMには、アプリケーションのパフォーマンス監視が含まれますが、これらに限定されない、アプリケーションの性能の問題の特定に役立つアプリケーションおよびシステムデータを定期的にサンプリングして集約します。
APMは、主要業績評価指標（KPI）に関連するテレメトリーを分析し、成果を読みやすいダッシュボードにまとめます。これにより、システムパフォーマンスの問題を引き起こす、または引き起こす恐れのある異常状態をオペレーションおよびサポートチームに警告することができます。
APMツールは、モノリシック・アプリケーションと従来の分散アプリケーションの監視とトラブルシューティングに効果的です。これらの構成では、定期的に新しいコードがリリースされ、ワークフローならびにアプリケーション・コンポーネント、サーバー、関連リソース間の依存関係はよく知られているか、比較的簡単に追跡可能です。
しかし、今日では、組織はデジタル・トランスフォーメーションを採用しつつあります。アジャイル開発や継続的統合と継続的デプロイメント（CI/CD）、DevOpsなどの最新の開発手法への移行が急速に進み、Dockerコンテナやサーバーレス機能などのクラウドネイティブ・テクノロジーも採用されています。
最新のアプリケーションは、多くの場合、マイクロサービス・アーキテクチャに依存しており、多くの場合コンテナ化されたKubernetesクラスター内で実行されます。その結果、開発者はこれまでよりも早く、より多くのサービスを市場に投入できるようになっています。
しかし、それを行う際に、アーキテクチャー全体に新しいアプリケーション・コンポーネントをデプロイします。これらのコンポーネントはさまざまな言語やデータ形式で動作し、サーバーレス機能で見られるように、さまざまな持続時間（場合によっては数秒または数秒の単位）で機能します。つまり、複数のランタイムがあり、各ランタイムがアーキテクチャー内の異なる場所にログを出力することになります。
APM（アプリケーション・パフォーマンス管理）の1分に1回のデータ・サンプリングと従来の監視プロトコルでは、このような膨大な量のデータに対応できません。
この代わりに、企業は、オブザーバビリティー・ツールが提供するきめ細かい大量の自動テレメトリーとリアルタイムの洞察の生成を必要としています。これらのツールを使用することで、開発チームはネットワーク上のすべてのアプリケーション、ユーザー・リクエスト、データ・トランザクションについて、リアルタイムで忠実度が高く、コンテキストが豊富で完全に関連付けられた記録を作成して保管できるようになります。
オブザーバビリティーのトピックは、ソフトウェア開発チームとITオペレーションチームの作業を組み合わせて自動化することでアプリとサービスの提供を加速する現代のDevOpsの中心になっています。DevOps 手法では、共有ツールとプラクティス、および小規模で頻繁な更新を使用して、ソフトウェア開発をより速く、より効率的に、より信頼性の高いものにします。
効果的なDevOps戦略では、チームが潜在的な性能のボトルネックやエンドユーザー・エクスペリエンスにおける問題を特定し、オブザーバビリティーを使用して問題に対処する必要があります。オブザーバビリティー・プラットフォームを使用することで、DevOpsチームは、関連するデータインサイトを使用して、問題のあるコンポーネントやイベントを迅速に特定できるようになります。
オブザーバビリティー・プラットフォームは、DevOpsチームに、システムをよりよく理解するためのツールとオブザーバビリティー・エンジニアリング手法も提供します。これらのツールと手法には、予期しないシステム・イベントの原因を特定し、将来のインシデント対応施策を改善するのに役立つインシデント分析、チームがソースコードを変更せずにアプリの主要な機能を有効または無効にできるようにする主要な機能フラグ付け、機械学習（ML）を使用して過去のデプロイメント・データを分析し、性能ベースラインを確立する継続的な検証が含まれます。
高品質のオブザーバビリティー・データの洞察により、ソフトウェア開発およびテスト・プロセスにおけるフィードバックがより高速で優れたものとなり、CI/CDパイプラインの効率が向上します。
人工知能は、オブザーバビリティーを変革し、主要な機能、オートメーション、分析をITオペレーションに統合します。従来のオブザーバビリティーでは、システムに対する詳細な可視性が得られますが、AIはデータをインテリジェントに分析し、問題の発生を先見して防止することで、その可視性を強化します。
AI駆動型のオブザーバビリティーにより、開発チームは問題が発生した時点で解決するのではなく、企業のITインフラストラクチャーを積極的に保護できます。MLアルゴリズムを使用することで、オブザーバビリティー・ツールは広範なデータストリームを解析してパターンや傾向および異常を見つけ、人間の作業者が見落としがちな洞察を明らかにすることができます。
AI駆動型のオブザーバビリティー・ツールや主要な機能には、次のようなものがあります。
オブザーバビリティー・ツールは、AIテクノロジーを使用して、修復プロセスにおいて人間の意思決定をエミュレートし、自動化できます。
チームがデジタル・エクスペリエンス管理（DEM）プラットフォームを使用しているとします。現在、これらのプラットフォームでは、ITスタッフがワンクリックで修正プログラムを実行し、ユーザーにセルフサービスを提案できるようにするさまざまな修復が使用されています。
AIベースのオブザーバビリティー機能は、継続的な監視を行うことで受信データを分析し、設定されたしきい値を超える異常やアクティビティーを発見できます。その後、オブザーバビリティー・プラットフォームは、問題に対処するための修復スクリプトと同様の一連の修正アクションを実行できます。
何らかの理由でソフトウェアが問題を解決できない場合、ソフトウェアは関連するすべての詳細を含むチケットを自動的に生成します。これらの詳細には、問題の場所、優先度レベル、ITチームの問題管理プラットフォーム内のAIモデルから得られる関連する洞察が含まれます。
このプロセスにより、ITスタッフはソフトウェアが処理できない問題のみに集中し、システムの性能の問題を可能な限り迅速に解決できるようになります。
LLMは、複雑で動的なシステムのログ・データやテレメトリー・データによく似た、大量の反復テキスト・データのパターンを認識することに長けています。今日のLLMは、特定のITプロセス向け、またはプロンプト・エンジニアリング・プロトコルに基づいてトレーニングされ、人間の言語構文とセマンティクスを使って情報や洞察を返すことができます。
LLMの進歩により、オブザーバビリティー・ツールのユーザーは、複雑なクエリー言語から脱却し、自然言語でクエリーを作成・探索できるようになります。この開発は、あらゆるスキル・レベルのユーザー、特に技術的専門知識が限られている人々に大きなメリットをもたらし、複雑なデータをより効果的に管理できるようになります。
LLMは、多くの場合、完全なコンテキストを把握するほど精度が高くないため、リアルタイム分析やトラブルシューティングにはまだ適していませんが、オブザーバビリティー・プラットフォームでのデータの洞察を簡素化するのに役立つ高度なテキスト処理機能を備えています。
洞察にアクセスしやすくなることで、システム動作の理解を深め、IT課題や障害発生ポイントに関するより広範な理解を促進します。
因果AIとは、単に相関関係を特定するのではなく、変数間の因果関係を明確にし、モデル化することに重点を置いたAIの一分野です。
MLなどの従来のAI技術では、多くの場合、統計的相関に依存して予測を行います。これに対して因果AIは、相関関係を生み出す根本的なメカニズムを見つけ、予測力を向上させ、より的を絞った意思決定を可能にすることを目指しています。
因果AIをオブザーバビリティーに組み込むことで、組織のIT環境に関する洞察を大幅に強化できます。
因果AIにより、ITチームはインフラストラクチャーのコンポーネント間の関係と相互依存関係を分析できるため、運用上および品質上の問題の根本原因をより正確に特定できます。これにより、開発者はシステム問題が「いつ、どこで」発生するかだけでなく、「なぜ」発生するのかも理解できるようになり、チームが問題をより迅速に解決し、システムの信頼性が向上します。
フルスタック・オブザーバビリティーにより、システムの理解と監視が容易になり、新しいコードでの更新がより簡単かつ安全になり、修復も容易になります。これにより、ITチームは次のことを実現できます。
監視ツールの主な制約は、「既知の未知数」、すなわちITチームが注意する必要があることがすでに分かっている例外的な状態のみを監視することです。オブザーバビリティー・ツールは、チームが想定していない、あるいは探そうとも思わないような状況を発見し、特定のパフォーマンス問題との関係を追跡します。この洞察により、根本原因の特定と解決の迅速化に役立つ詳細なコンテキストが得られます。
オブザーバビリティーは、ソフトウェア開発プロセスの初期段階に監視を統合します。この統合により、DevOpsチームは、新しいコードの問題が顧客体験やSLAに影響を与える前に特定して修正できるようになります。
オブザーバビリティー・ツールを使用することで、開発者は幅広いテレメトリー・データを収集・分析・関連付け・検出して、ユーザーの行動の理解を深め、ユーザー・エクスペリエンスを最適化できるようになります。
オブザーバビリティー・ツールを使用すると、たとえばクラスター構成でインストルメンテーションとデータ集約を指定し、スピンアップした瞬間からスピンダウンするまでテレメトリーの収集を開始できます。
ITチームは、オブザーバビリティーとAIOps、ML、オートメーション機能を組み合わせて、システム出力に基づいて問題を予測し、人間の介入なしに問題を解決できます。
オブザーバビリティー・ソリューションは、問題の発見と解決プロセスを加速します。この高速化により、チームはアプリの可用性を高く維持し、平均修復時間（MTTR）を低く抑え、停止時間を最小限に抑えることができます。
オブザーバビリティー・ソリューションは、アプリケーションのロギングと監視に対して包括的クラウドネイティブのアプローチを採用しています。シームレスなプロセスの自動化を促進し、過去のコンテキスト・データを使用して、チームがさまざまなユースケースでエンタープライズ・アプリケーションをより適切に最適化できるように支援します。