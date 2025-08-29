サイト信頼性エンジニアリング（SRE）チームとDevOpsチームは疲れ果てています。広大なIT資産、ツールの過負荷、オンコール業務の性質はすべて、アラート疲労という全体的な問題に影響しています。
アラート疲労（アラーム疲労とも呼ばれます）とは、「過剰な数のアラートによって引き起こされる精神的および運用上の疲弊状態」を指します。この状態は、DevOps、セキュリティー運用センター（SOC）、サイト信頼性エンジニアリング（SRE）など、ITのパフォーマンスとセキュリティーを担うチームの対応力と有効性を低下させるもので、広範かつ深刻な問題となっています。
Vectra社の「2023年脅威検知の現状」レポート（従業員数1,000人以上の企業のITセキュリティー アナリスト 2,000人を対象とした調査に基づく）によると、SOCチームは1日平均4,484件のアラートに対応していることがわかりました。このうち67%は、大量の誤検出とアラート疲労が原因で無視されています。また、同レポートでは、アナリストの71%が、「脅威検知機能の可視性と信頼性が欠如しているため、知らないうちに組織が危険にさらされている」可能性があると考えていることもわかりました。
米国のサイバーセキュリティー企業であるVectra社のレポートはセキュリティーに特化した視点を取っていますが、アプリケーションやインフラストラクチャーのパフォーマンス監視を担当するチームも同様の過負荷に直面しています。例えば、1つの設定ミスが数百から数千ものパフォーマンス・アラートを引き起こし、「アラート・ストーム」と呼ばれる状況を生み出すことがあります。これにより、ITチームが注意をそらされたり、アラートに鈍感になったりして、重要なアラートや実際の問題への対応が遅れることがあります。こうした問題は実際に現場で起きており、重大なコストにつながる可能性があります。
この燃え尽き状態の原因は何であり、エージェント型AIは拡張性のある解決策の一部となり得るのでしょうか。
原因は複数あり、圧倒的な量のテレメトリーがその一つに挙げられることがよくありますが、データ量に焦点を当てると、特に中心的な問題であるデータ品質とコンテキストが不明瞭になります。
チームが低品質で文脈の乏しい大量のデータを扱い、数十種類もの脅威インテリジェンスやパフォーマンス・フィードを取り込んでいる場合、問題に直面するのは避けられません。このような環境では、誤検知や冗長なアラートが増加し、優先度の低いノイズが実際の脅威やパフォーマンス問題から注意をそらすことになります。こうした「誤警報」は、IT、DevOps、セキュリティー・チームの業務を疲弊させます。
また、これらの膨大なテレメトリー・ストリームを単に大規模言語モデル（LLM）に投入するだけでは、有効な解決策とはなりません。一つには計算資源の無駄遣いであり、さらに幻覚（hallucination）を生む大きな原因にもなります。さらにハルシネーションを生む大きな原因にもなります。
実用的なソリューションの場合、未加工データを合成し、この高品質でコンテキストが豊富なデータを、一元化されたプラットフォーム内に集約するワークフローを開発することから始まります。そのプラットフォームでは、データを企業全体のオブザーバビリティーやローカルAIモデルのトレーニングに使用できます。
企業では、多数のパフォーマンスおよびセキュリティー監視ソリューションが使用されていることが多く、大企業では平均76のセキュリティー・ツールが使用されています。これらのツールは、チームまたは製品に固有のもの、あるいは特定のIT環境（オンプレミス・ソリューションとクラウドソリューションなど）専用にすることができます。
これらのツールはそれぞれ、数十または数百のアプリケーション、アプリケーション・プログラミング・インターフェース（API）、またはサーバーを監視する場合があります。このようなサイロでは、別々のツールが同じ根本的な問題から複数のアラートを生成する可能性があります。このように連携されていないと、可視性が低下し、相関関係や根本原因分析が妨げられます。SREは、冗長性を特定する前に、これらのアラートを一つ一つ追跡することに時間を無駄にしています。
データ・ストリームが包括的な監視システムに統合されていない場合、ITチームは効率的なアラートの相関付け、根本原因の分析、修復に必要な、システム全体のオブザーバビリティーを確保できません。
さらに悪いことに、この連携の欠如により、アラートの優先順位付けや関連付けワークフローなど、検知と解決を支援し、アラートの量を減らすために設定されたアラート管理用の自動化ツールの効果が妨げられます。チームは手作業で点と点をつなぐ必要があり、これは（不可能ではないにしても）骨の折れる時間のかかる作業です。
DeloitteのAdaptive Defense: Custom Alerts for Modern Threats」レポートで引用されている調査によると、「セキュリティー・ツールからの可視性またはコンテキストの欠如により、12か月間で攻撃の47%が見逃されている」ことが判明しました。
個々のエージェントは必ずしも一元化を必要としませんが、エージェントからのデータが集約された一元化されたプラットフォームにより、システム全体の分析、ストレージ、視覚化が容易になります。
的を絞った戦略を導入するなら、答えは「はい」です。
最近、MITが発表したレポートでは、「組織の95％が生成AIへの投資でまったくリターンを得られていない」という主張で大きな論争を引き起こしました。
人々の感情を煽るような統計や、そのレポートが招いた一連の意見はさておき、同レポートは、多くのAIプロジェクトが「脆弱なワークフロー、文脈学習の欠如、および日常業務との不整合」が原因で失敗しているという貴重なテーマを浮き彫りにしています。IBMの上級研究員であるMarina Danilevskyが最近のMixture of Expertsポッドキャストで述べているように、最も成功する導入は「的を絞り、範囲を明確にして、適切な課題に対処して」います。
このMITレポートは、AIを万能薬のように扱ったり、プロセスに無理やり組み込もうとする企業では、投資リターンを得る可能性が低いことを改めて示しています。一方で、特定の課題を解決するためにAIツールを戦略的にワークフローに組み込み、時間をかけてこれらのツールを強化していく組織は、成功の可能性が高いと言えるでしょう。
適応型機械学習、コンテキストの優先順位付け、説明可能なAI、AIを活用した自動化、リアルタイム・インテリジェンスを統合戦略に組み込むことができるオブザーバビリティーまたはセキュリティー・ソリューションにより、チームはパフォーマンスやセキュリティーのアラートを関連付け、優先順位を付けて修復するのに役立つ強力なワークフローを作成できます。
AIエージェントは、資産の重要性、パフォーマンス保証、リスク・プロファイル、過去の傾向などの要素を考慮に入れることで、静的ルールや事前設定された閾値に依存する従来のシステムを改善できます。
たとえば、インシデント後の検出と修復のワークフローや、AIエージェントがSREチームをどのように支援できるかを考えてみましょう。
Kubernetesクラスター内のノードのCPU使用率が高いことを示す通知がアラート・システムに届きます。従来のシステムでは、SREは根本原因を特定するためにMELTデータ（メトリクス、イベント、ログ、トレース）と依存関係を調べなければなりませんでした。
この仮想エージェント・ワークフローでは、エージェントはオブザーバビリティー・ツールのナレッジ・グラフとトポロジー認識相関を使用して、アラートに関連するテレメトリー（そのノードで実行されているサービスのログ、最近の展開、KubernetesAPIサーバーまたはノードまたはクラスターにトラフィックをルーティングするロード・バランサーからのテレメトリーなど）のみを取得します。この追加情報により、エージェントは未加工アラートを強化し、企業のパフォーマンス・データとベンチマークでトレーニングされたローカルAIモデルに、コンテキスト豊富なテレメトリーを提供できます。
エージェントは、同じクラスター上で実行される無関係なサービスのログなど、無関係な情報を除外します。このコンテキストの収集中に、エージェントは関連するシグナルを特定し、同じ根本原因から発生する可能性のあるアラートを関連付け、これらのアラートをグループ化して、1つのインシデントとして調査することもできます。
この情報があれば、モデルは仮説を提案することができます。また、エージェントは、考えられる根本原因を提案する前に、モデルの仮説をチェックして改善し、コンテキストを追加するために、詳細な情報を要求する（コンテナ構成や時系列データを確認する）こともできます。
説明可能なAIとエージェントの使用は、AIツールの「ブラックボックスの内部を見る」、つまり内部の仕組みを見るという信頼性の問題を解決する上で重要な部分です。
説明可能な人工知能（XAI）は、機械学習アルゴリズムによって生成された結果とアウトプットを、人間のユーザーが理解し信頼できるようにする一連のプロセスや方法です。
エージェントは、考えられる根本原因に加えて、提案された根本原因にたどり着いた経緯を示す補足証拠とともに、思考の連鎖（推論プロセス）を通じて、説明可能性を提供できます。この説明可能性と傍証：
- 何かが特定の方法で推奨またはフィルタリングされた理由を人間が確認できるようにします
- エージェントの分析と提案をレビューし、それが信頼できるかどうかを判断するために必要な透明性をもたらします
サイト信頼性エンジニアリング分析とエージェントによる推奨事項のアセスメントをモデルにフィードバックし、精度をさらに向上させることができます。
解決に向けての道は複数あります。チームは、エージェントにどの程度の自律性を提供するかを決定したり、インシデントの種類、重大度、環境、その他の要因に基づいてこの自律性を定義したりできます。次のステップには以下が含まれます。
- 検証：エージェントは、サイト信頼性エンジニアリングやDevOpsチームのために、エージェントが特定した根本原因が正しいかどうかを検証するためのステップを生成できます。これにより、システム内で人間のインプットを維持することができます。
- 手順書：検証が完了すると、エージェントは修復手順のステップ・バイ・ステップ・ガイド（手順書）を作成できます。これは、チームメンバーが問題を解決するためのスクリプトです。
- 自動化スクリプト：エージェントは、提案されたアクションを実行し、ワークフロー（自動化スクリプト）を作成することもできます。その結果、これらの手順が、ステップのコマンド構文とパラメーターを備えたAnsibleプレイブック・スニペットに変換される場合があります。
- ドキュメンテーション：エージェントは、インシデント後レビューなど、インシデント、実行されたアクション、およびその理由を要約した文書を自動作成できます。また、エージェントが開発中の要約を作成することもできるため、このタスクを初めて使用する担当者は、何が起こっているかをすぐに理解することができます。このドキュメンテーションは、強化学習に使用できます。
これらの手順はすべて、インシデント対応を最適化し、平均修復時間を短縮する助けになります。同様の仮説の動画ウォークスルーについては、こちらをクリックしてください。
AIフレームワークを使用して、IT環境全体で実行可能なアラートの優先順位付けなど、アラート疲労のさまざまな側面を改善できます。
2023年に発表された論文「That Escalated Quickly: An MLフレームワーク for Alert Prioritization」では、Gelmanらが、アラート・レベルとインシデント・レベルの実行可能性スコアリング・システムを通じて、既存のワークフローの変更を最小限に抑えながら、アラート疲労を軽減するように設計されたMLフレームワークを紹介しています。実データで実行したTEQモデルは、対応可能なインシデントへの対応時間を22.9%短縮し、誤検知を54%抑制しました（検出率は95.1%）。また、単発のインシデントにおけるアラートの数も14%減少しました。1
Tellacheらは、「自律型インシデント対応の推進：LLMとサイバー脅威インテリジェンスの活用」において、検索拡張生成（RAG）ベースのフレームワークがサイバー脅威インテリジェンス情報源からのデータを統合することで、インシデント解決を改善する方法を示しています。2エージェントを使ってRAGアプローチを基に構築された同様のソリューションを使用して、パフォーマンス・データに詳細なコンテキストを追加できます。たとえば、企業のサービスレベル契約（SLA）から合意されたパフォーマンスしきい値を取得して、どのアプリケーションアラートに優先順位を付ける必要があるかを判断するのに役立ちます。
ITチームは、アラート疲労のさまざまな側面に対処するように設計された複数のエージェントを使ってアラートプロセスを改善することができます。たとえば、たとえば、すぐに対応する必要がある重大な脅威を取り出すインシデント・トリアージ・エージェントや、優先順位が付けられたアラートを処理して、ドキュメンテーションと分析とともに適切なチームにルーティングするルーティング・エージェントなどです。
一元化されたハブにデータをルーティングすることで、企業は盲点をなくし、エージェントが活動する環境をより包括的に理解することができます。AIは、高品質で信頼できるデータを扱うときに最も効果を発揮し、一元化されたプラットフォームはデータ・ガバナンス基準の統一的な適用を保証するのに役立ちます。組織がAIソリューションを拡張する際、このプラットフォームは、データ管理と事業単位間でのエージェントのデプロイメントの一貫性を維持する上で重要な役割を果たします。
単に「AIを使う」だけで組織は次から次へと作動するアラートの問題を解消できるでしょうか。答えは「いいえ」です。しかし、十分に学習されたモデルやエージェントは、テレメトリーの統合・分析やアラートの分類を支援し、ITチームの負担を軽減することが可能です。ここには、より大きな楽観材料があります。
アラート疲労を軽減するためにAIとエージェントをうまく活用できるかどうかは、特定のユースケースをターゲットにすること、戦略的な実装、動的な環境に合わせて学習し改善していくAIの能力など、いくつかの重要な要素にかかっています。大企業のリーダーは、何が必要かを理解し、文化的な変革を進んで行い、システムを機能させるために必要なリソースを割り当て、ニーズに合わせてツールをカスタマイズできるベンダーを見つける必要があります。
