AIOpsのオブザーバビリティーとは、テレメトリーデータの収集や分析などのIT業務を自動化するために、組織のオブザーバビリティー戦略に人工知能と機械学習を取り入れる実践です。
AIOpsとは、自然言語処理や機械学習モデルなどのAI機能を応用し、ITサービス管理や運用ワークフローを自動化することです。オブザーバビリティーとは、外部アウトプット、特にテレメトリーに関する情報のみから、複雑なシステムの内部状態や状況を把握する能力を指します。これらのプラクティスを組み合わせることで、複雑なマルチクラウドのIT環境の最適化、トラブルシューティング、自動化のための強力なツールが得られます。
AIOpsのオブザーバビリティーは、AIおよびML技術を使用して、システムのログ、メトリクス、トレースを分析し、以下のようなオペレーションを実行します。
AIOpsとオブザーバビリティーを組み合わせるために、ほとんどの組織はAI機能が組み込まれたオブザーバビリティー・プラットフォームを使用しています。最新のオブザーバビリティー・プラットフォームには、多くの場合、ネットワーク・ステータスに関する質問に答えることができるテキスト・インターフェースや、プラットフォームのダッシュボードに組み込まれたリアルタイムのデータの可視化ツールなどの生成AI主要な機能が含まれています。ITチームは、これらの生成AIツールを、オブザーバビリティー・プラットフォーム独自のAI搭載自動修復ツールとともに使用して、ダウンタイムを予測し、運用効率を高め、アプリケーションの性能を向上させることができます。
以下は、オブザーバビリティーでAIOpsソリューションがどのように使用できるかを示す例です。オブザーバビリティー・プラットフォームで、アプリケーションの速度低下に関するアラートの突然の流入と、コア・ルーターでのレイテンシーとの相関関係が表面化するとします。
このプラットフォームは、確立されたネットワーク動作のベースラインを使用して、レイテンシーに前の異常なアクティビティ(たとえば、ルーターの設定に対するスケジュール外の変更など)を特定できます。次に、自動的に根本原因分析を実行して、いつ、どのように変更が行われたかを特定できます。その後、プラットフォームは事前に承認されたワークフローを参照して、修正プログラム(ルーターのファームウェアを以前のバージョンにロールバックするなど)を適用できます。最後に、ITチームにインシデント・レポートを提示し、さらなる中断を防ぐことができます。
生成AI、ハイブリッドクラウドのオペレーション、オブザーバビリティーは深く関連しています。調査会社ガートナーの2025年レポート1では、AI搭載のクラウドオペレーション(CloudOps)の機能として、オブザーバビリティーを挙げている。S&P Global Market Intelligence 2の2025年レポートによると、オブザーバビリティー・ソリューションを使用する組織の71%がAIの主要な機能を使用しており、2024年の26%から増加しています。
IBMニュースレター
AI活用のグローバル・トレンドや日本の市場動向を踏まえたDX、生成AIの最新情報を毎月お届けします。登録の際はIBMプライバシー・ステートメントをご覧ください。
ニュースレターは日本語で配信されます。すべてのニュースレターに登録解除リンクがあります。サブスクリプションの管理や解除はこちらから。詳しくはIBMプライバシー・ステートメントをご覧ください。
AIOpsのオブザーバビリティーは、ログ、トレース、メトリクスなどの従来のオブザーバビリティー・データを収集することで機能します。次に、AIと機械学習を使用して、このデータを使用してコア・オブザーバビリティー機能(根本原因分析や異常検知など)を実行し、自動化されたワークフローを確立して、ITインフラストラクチャーの最適化を支援します。
AIOpsのオブザーバビリティーは、ログ、トレース、メトリクスというオブザーバビリティーの3つの従来の柱に依存しています。
強力な人工知能と機械学習機能の使用により、AIOpsのオブザーバビリティーは従来のオブザーバビリティーとは異なります。AIOpsのオブザーバビリティーには、これらのツールを使用して根本原因分析、異常検知、予測分析などの機能を実行することが含まれます。
根本原因分析とは、組織が問題、課題、インシデント発生後にその根本原因を探索する品質管理プロセスのことです。この分析は、多くの場合、オブザーバビリティー・データを結合することで問題の根本原因を特定できる因果推論AIによって強化されます。その後、特定のエンティティーが問題の可能性のある原因として特定された方法と理由を示すことができるため、ITプロフェッショナルはそれらを特定して修正プログラムを適用することができます。
異常検知とは、通常的、標準的、または想定できる状態から逸脱していて、データ・セットの残りの部分と矛盾するようなデータ・ポイントを特定することです。AIとMLの機能は、オブザーバビリティー・ツールによって収集されたテレメトリーを使用してベースラインからの逸脱にフラグを立てることで、データ・セットの通常の動作の予期せぬ変化を自動的に特定できます。これらの偏差は、アプリケーションの性能、サイバーセキュリティー、eコマース・プラットフォームなどの問題を検知するのに役立つ。
予測分析とは、履歴データを統計モデリング、データ・マイニング技術、機械学習とと組み合わせて使用し、将来の結果を予測する手法です。AIOpsのオブザーバビリティーのコンテキストでは、AIモデルはテレメトリーを使用して将来のワークロードを予測し、それに応じてネットワーク・リソースを拡張または縮小することで、レイテンシーを短縮し、ユーザー・エクスペリエンスを向上させることができます。
オブザーバビリティーをAIOps、ML、オートメーション機能と組み合わせると、ITチームはシステムのアウトプットに基づいて問題を予測し、最小限の人間の介入で問題を解決できます。
AIOpsソフトウェアは、根本原因分析、異常検知、予測分析、その他のAIおよびML機能を使用して、トラブルシューティングを迅速化できます。トラブルシューティングを迅速化することで、システムの性能を向上させ、インシデントを解決する時間が短縮できるため、将来のシステム停止を防ぐことができます。また、DevOpsエンジニアは他のクリティカルなタスクに専念することもできます。
AIOpsオブザーバビリティーを実装すると、一種の有益な「ループ」が確立されます。システムによって生成された膨大なテレメトリー・データは、IT専門家がプラットフォームのオートメーション機能を活用して弱点を特定し、修正プログラムを自動的に開発するために使用できる参考情報になります。
例えば、AIOps機能を備えたオブザーバビリティー・プラットフォームは、相関メトリクスを通じて、Kubernetesクラスター内のCPU使用率が組織によって設定されたしきい値を超え、レイテンシーが増加していることを検知できる場合があります。
問題が1つの過負荷なマイクロサービスに起因していることを特定した後、AIはサーバー・インスタンスの数を増やすことでネットワークを水平方向に拡張する必要があると提案するかもしれません。そして、問題のマイクロサービスに負荷がかかったときにこれらのアクションを自動的に実行し、トラフィックが正常に戻ったときに元に戻すというルールを設定できるため、将来のボトルネックを防ぐことができます。
AIOpsのオブザーバビリティーにより、組織の平均修復時間(MTTR)、DevOpsワークフローの効率、セキュリティー・プラクティスが改善されます。
AIOpsのオブザーバビリティーは、根本原因分析を高速化することで復旧と修理の時間を大幅に短縮できます。
自動分析によって、インシデントのトリアージに何時間もかかるか、差し迫った問題を発生前に解決するかの違いが生まれ、これによりダウンタイムが削減され、DevOpsチームは他のタスクに専念できるようになります。
AIOpsのオブザーバビリティーは、管理タスクを合理化および自動化する機会を特定することで、DevOpsをより効率的にすることができます。
例えば、AIOpsプラットフォームが根本原因分析を通じて、接続されたアプリケーションが正しく機能する前に特定のキャッシュをクリアする必要があることを特定したとします。サイト信頼性エンジニアはこの情報を使用して、状態をリアルタイムで検知し、一定量に達したときにキャッシュを自動的にクリアする自動ワークフローを作成できます。AIOpsプラットフォームは、同様の輻輳リスクが最も高いネットワーク上の地域を視覚化することもできます。この視覚化により、DevOpsチームなどが組織全体のポリシーを作成する際に、より多くの情報に基づいた意思決定を行うことができます。
AI機能を備えた一部のオブザーバビリティー・プラットフォームは、リスクアセスメントを自動的に実行し、システムまたはマルウェアをスキャンし、監査証跡とレポートを生成できます。インシデント発生時に、AI搭載プラットフォームは関連するテレメトリー・データを使用して、攻撃ベクトルを自動的に特定し、影響を評価し、従来のインシデント対応よりも迅速に脆弱性を修復できます。
AIOpsは、システムへのアクセスやデータフローの詳細な監査証跡を自動的に作成・維持することで、コンプライアンス要件にも対応できます。
管理者は、AIOpsのオブザーバビリティーを通じて収集されたテレメトリー・データを使用して、過剰なアラートまたは無関係なアラートを抑制し、組織の容量を計画し、パフォーマンスの低下を事前に防ぐことができます。
過剰なアラートは、アラート疲労を引き起こす可能性があります。これは、優先度が低いもの、誤検知、または実行可能なアラートではない大量のアラートによって引き起こされる精神的および業務的な疲弊状態を指します。
AI搭載のオブザーバビリティー・プラットフォームでは、ML主導のトリアージを使用して大量のアラートを選別できます。このトリアージは、パターンの特定、重複の削減、関連アラートの相関付けによってワークロードを軽減し、手作業とエラー率を大幅に削減することができます。
キャパシティー・プランニングは、組織が現在および将来の需要を満たすために必要な生産能力とリソースを調査する戦略的なプロセスです。AIOpsのオブザーバビリティーは、アプリケーションのパフォーマンス・メトリクスやその他のテレメトリー・データを予測アルゴリズムに供給することで、このプロセスを改善できます。一部のAI対応オブザーバビリティー・プラットフォームは、ネットワーク状況の要求に応じて容量を増減させるワークフローをトリガーできることもあります。
AIOpsのオブザーバビリティーは、新しいパッチ、アプリケーション、構成が適用されるときに、パフォーマンスの低下、つまりネットワークの自然なエントロピーを防ぐのに役立ちます。ネットワークが生成する大量のデータを処理し、ベースライン動作を確立することで、変更によって問題が発生する可能性がある場合に、事前にITチームに警告することができます。適切なプレイブックが与えられると、問題が発生する前に自動的に動作して防止することもできます。
生成AI機能はAIOpsとオブザーバビリティーにとってますます重要になっており、エンジニアに直接的な自然言語のフィードバックやトラブルシューティングを提供できるチャットボット・アシスタントを備えた多くのツールが存在します。
オブザーバビリティー・プラットフォームによって収集されたテレメトリ・データとプラットフォーム独自のAI駆動型機能の両方の膨大な範囲を考慮すると、合理化された生成AIインターフェースにより、サイト信頼性エンジニアは、「なぜ欧州のユーザーへのサービスが遅くなっているのか」のような質問に対する答えを迅速かつ直接的に見つけることができます。
生成AIの主要な機能は、管理者向けのネットワーク・イベントのわかりやすい要約の作成や、ネットワークのヘルスとイベントの相関関係のデータの可視化の作成にも役立ちます。
AIとオートメーションの力を活用することで、問題がアプリケーションスタック全体でプロアクティブに解決します。
AIを活用したオブザーバビリティー(可観測性)機能により、運用の回復力を最大化し、クラウドネイティブなアプリケーションの正常性を確保します。
生成AIでITのオートメーションとオペレーションを強化して、ビジネスの優先事項に沿ったITインフラストラクチャーを実現します。
1. 「Hype Cycle for オペレーション, 2025」、Gartner社、2025年7月28日
2. 「AI駆動型パラダイムシフト in オブザーバビリティー: From リアクティブモニタリング to インテリジェントな自動化」、Mike Fratto、451 研究社、2025年10月10日