IT環境が高度化・複雑化するにつれ、従来の監視ツールだけでは対応が難しくなっています。クラウドネイティブなアーキテクチャー、マイクロサービス、コンテナ化されたアプリケーションの普及によりシステム同士が緊密に連携するようになり、可視化にはこれまで以上に総合的なアプローチが求められています。
こうしたトレンドを受けて、オブザーバビリティーは、システム・メトリクスの追跡を超えてシステムの挙動を包括的に可視化する分野へと発展してきました。オブザーバビリティー・ソリューションは、分散環境全体のテレメトリー・データを相関させることで、チームが根本原因をより迅速に特定し、問題を先回りして解決し、システムの信頼性を高めることを支援します。実際、ある組織では最新のオブザーバビリティー・ツールを活用し、サービス・レベル可用性を70%向上させました。
オブザーバビリティーへの移行は、もはや選択ではなく必然です。レガシーの監視ツールは姿を消し、今日のテクノロジー需要に応えられるオブザーバビリティー・プラットフォームへ置き換えが進んでいます。たとえば、IBM® Tivoli®は次世代オブザーバビリティー・ソリューションであるInstana®へと段階的に移行中です。
IBM Instanaのアメリカ地域セールスリーダーであるDrew Flowersの専門的見解を基に、組織が今オブザーバビリティーへ移行している理由と方法を解説します。既に移行を進めている場合でも、選択肢を評価している段階でも、本稿の考察が現状把握に役立つでしょう。
大まかに言えば、モニタリングは何が起こっているかを示し、オブザーバビリティーはなぜ起こっているのかを明らかにします。モニタリングは問題の兆候を検出し、オブザーバビリティーはより踏み込んだ診断に必要なコンテキストを提供します。
従来の監視では、CPU使用率やネットワークレイテンシーなど事前定義されたメトリクスを収集し、システム・パフォーマンスのスナップショットを提供しますが、問題の原因までは明らかにできません。たとえばパフォーマンス低下時にCPU使用率の高さが検知されても、監視だけでは根本原因は判明しません。
オブザーバビリティーは、メトリクス、イベント、ログ、トレースといった複数のテレメトリー・データ(MELTデータ)を関連付けることでシステムの知見を深め、IT環境を完全かつリアルタイムで可視化します。この可視性により、組織は問題を検出するだけでなく、その原因を特定し、障害を予測し、分散システム全体にわたる複雑な挙動を分析できます。
オブザーバビリティーは従来型の監視を超えた概念であり、システム性能の向上、レジリエンスの強化、コスト最適化につながるリアルタイムの洞察を提供します。
主要なメリットには以下のようなものがあります。
オブザーバビリティー・ソリューションは数年前から市場に存在しますが、現在は多くの組織が従来のモニタリングからオブザーバビリティーへ移行しつつあります。
オブザーバビリティーへの移行を先延ばしにすると、技術的負債が蓄積し競争力が低下するリスクがあります。一方、いち早く移行した組織はインシデント解決の高速化と運用効率の向上を実現しています。マッキンゼーの調査によれば、ある企業ではインシデント件数を90%削減し、対応時間を数時間から数秒へ短縮しました。
旧来の監視ツールが相次いで市場から姿を消していることに加え、オブザーバビリティー採用を後押ししている主な要因として、IT環境の複雑化とAIイノベーションの進展が挙げられます。
ハイブリッドクラウド・インフラ、マイクロサービス、コンテナ化されたワークロードなど、現代のIT環境が複雑化するなか、従来型の監視ツールではもはや十分に対応できません。これらのツールは安定したモノリシック・アプリケーションを前提に設計されているため、今日の企業が持つ高度なテクノロジー・エコシステムを効果的に管理することはできないのです。
従来の監視のよくある限界には、次のようなものがあります。
オブザーバビリティー・ソリューションは、テクノロジー基盤をリアルタイムで包括的に可視化し、問題の早期発見と迅速な対処を支援します。その結果、ダウンタイムの短縮による収益保護と顧客信頼の維持が容易になります。
人工知能 (AI)は、膨大なテレメトリー・データを分析し、ノイズを除去して重大な問題をリアルタイムに抽出することで、ログやアラートを手動で仕分けることなくオブザーバビリティーを変革しています。
IT運用のための人工知能(AIOps)は、機械学習を使用してパターンを検出し、誤検知率を減らして、複雑なシステム全体でイベントを相関させることで、一歩先を進んでいます。その結果、ITチームはアラート疲れに陥ることなく、本当の問題により迅速に対処することができます。
オブザーバビリティーとAIOpsを統合することで、組織は手作業を増やすことなくインシデント対応を効率化し、ダウンタイムを短縮し、システムの信頼性を向上させることができます。この移行により、チームは事後的なトラブルシューティングから事前対応型のシステム最適化へと移行し、より迅速な洞察を得て、中断回数を減らすことが可能になります。
従来の監視からオブザーバビリティーへ移行することを必要以上に難しく考える必要はありません。戦略的に取り組めば、移行を円滑に進めながら、すぐにメリットを享受できます。
移行の成否は、組織がどのパートナーやサービスを選択するかに大きく左右されます(詳細は「適切なオブザーバビリティーソリューションの選択」を参照)。しかし、成功を確実にするために役立つ重要な原則がいくつかあります。
オブザーバビリティー・プラットフォームを選定する前に、組織固有の目標と、そのプラットフォームに期待する成果を明確にしてください。これらが不明確なままだと、必要な機能を欠いたり、ユースケースに対して過度に複雑なソリューションを選択してしまうリスクがあります。
まずはご自身と関係する利害関係者に、解決すべき課題を問いかけてください。目的はMTTD/MTTRの短縮なのか、クラウドコストの効率化なのか、それともアプリケーションに対するより深い洞察の獲得なのか――重点を明確にすることが重要です。
さらに、どの程度まで自動化したいかを検討しましょう。すぐに使えるダッシュボードやAIによる推奨事項を備えたプラットフォームもあれば、手動設定とカスタマイズが必要なものもあります。
また、プラットフォームが既存ツールと統合できるかどうかも検討する必要があります。円滑な移行には、現在のDevOpsパイプライン、クラウドインフラストラクチャ、セキュリティー・フレームワークとの互換性を確保することが不可欠です。
多くの組織はいまだに、アプリケーション・パフォーマンス管理(APM)ツール、インフラストラクチャ監視、サイロ化されたログプラットフォームなどを寄せ集めた監視体制に頼っており、オブザーバビリティーに不可欠な相関分析が十分に行えません。まずは現行ツールセットを評価し、機能の重複やギャップを洗い出しましょう。
主な監査上の懸念事項は次のとおりです。
オブザーバビリティー・プラットフォーム—特にSaaSソリューション—は、ネットワーク全体のデータフローを変化させ、データ・セキュリティーポリシーや規制コンプライアンスに影響を及ぼす可能性があります。遅延や土壇場でのコンプライアンス問題を防ぐため、セキュリティー・チームを早期に参画させる必要があります。
主なセキュリティ上の懸念事項は次のとおりです。
組織はオブザーバビリティーを導入する際に求められる文化的な変革を過小評価しがちです。オブザーバビリティーはIT部門だけの話ではなく、開発・運用・セキュリティー、さらにはビジネス部門に関わる利害関係者すべてに影響を及ぼします。チーム全体の足並みがそろわなければ導入は停滞し、取得したデータも十分に活用されないおそれがあります。
チーム間の連携に関する主な考慮事項は次のとおりです。
オブザーバビリティーの成果は測定できますが、そのためには初めから明確なKPIを定義しておく必要があります。
成功を測定するための主な可観測性メトリックには、次の項目があります。
計画が完了したら、次のステップはオブザーバビリティーを実行に移すことです。移行プロセスの多くは選択したパートナーやプラットフォームに左右されますが、ここで紹介する基本プラクティスを実践すれば、スムーズな移行を実現できます。
オブザーバビリティーの導入期間は、チームの準備状況やインフラストラクチャ、オートメーション機能によって大きく異なります。2週間で導入を完了する組織もあれば、全面的な導入に3〜6か月を要する組織もあります。
移行速度に影響を及ぼす主な要因には、次のようなものがあります。
多くの組織は、一度に移行するのではなく、段階的な移行を選択します。このアプローチは時間がかかるかもしれませんが、既存のツールと並行してオブザーバビリティーを導入できるため、中断回数を最小限に抑えることができます。
段階的なロールアウトの主なステップは次のとおりです。
オブザーバビリティー・プラットフォームを完全に導入していても、チームがインサイトを正しく解釈し、行動に移せるようトレーニングする必要があります。トレーニングが不十分だと、データを誤読したり重要なインサイトを見逃したり、オブザーバビリティーを十分に活用できなくなるおそれがあります。
トレーニングを行うべき主な重点分野は次のとおりです。
導入後も作業は終わりません。投資効果を最大化するために、影響を継続的に追跡し、フィードバックを収集し、構成を微調整して、オブザーバビリティーが実際の価値を生み出していることを確認してください。
データを深く掘り下げ、チームが問題をより早く検知し、より効果的に連携して、より適切な運用上の意思決定を行えるようにします。
主なフォローアップ・アクションは次のとおりです。
オブザーバビリティーは、システムやチーム、ビジネス・ニーズに合わせて進化させる必要があります。ギャップに対処し、長期的な価値を最大限に引き出せるよう、オブザーバビリティー機能を積極的に改善、拡張します。
オブザーバビリティーを継続的に高める方法には、次のようなものがあります。
移行を最大限に活用するには、適切なオブザーバビリティー・ソリューションを選択することが重要です。単にデータを収集するだけでは不十分です。実行可能な洞察を提供し、インフラストラクチャーに適応し、組織の成長に合わせて拡張できる必要があります。
プラットフォームを評価する際に考慮すべき要素は次のとおりです。
すべてのテレメトリー・データ(メトリクス、イベント、ログ、トレース)を統合するオブザーバビリティー・プラットフォームは、シングル・ペイン・オブ・グラスと呼ばれる統合された一元的なリアルタイム・ビューを提供します。これにより、チームは問題を迅速に診断し、システムのパフォーマンスに関する包括的な洞察を得ることができます。
ITインフラストラクチャが多様化している今、ハイブリッドおよびマルチクラウド環境、オンプレミスシステム、サーバーレス機能、レガシー/モダンアプリケーションの双方をサポートできるプラットフォームを選ぶことを検討してください。
柔軟性があれば、オブザーバビリティー・ソリューションは既存アーキテクチャーにも将来のテクノロジー・ニーズにも適応できます。
基本的な監視を超えるには、AI搭載の分析機能を備えたオブザーバビリティー・ソリューションを優先的に導入し、問題をエスカレーション前に検出・診断・防止できるようにしましょう。異常検出、自動根本原因分析、予測インサイトなどの機能により、トラブルシューティングが迅速化され、プロアクティブなシステム管理が実現します。
組織が拡大するにつれて、オブザーバビリティー・プラットフォームはパフォーマンスを低下させることなく増大するデータ量を処理できなければなりません。大容量データの取り込み、コスト効率に優れたストレージ、リアルタイムのクエリー性能を備えつつ、コストを適切に管理できるスケーラブルなソリューションを優先してください。
プラットフォームの料金体系、とくにデータ取り込み量に応じた課金モデルには注意が必要です。オブザーバビリティーのニーズが拡大すると、ベンダーによっては思わぬコスト増につながることがあります。
オープンソースか商用の独自プラットフォームかを選ぶ際は、組織のニーズ、技術的専門性、そして長期的な目標を考慮する必要があります。
一般に、オープンソース・ソリューションはカスタマイズが可能ですが、セットアップと保守が必要です。商用ソリューションはコストがかかりますが、より迅速な導入と高度な自動化を提供します。
オープンソースのオブザーバビリティー・ソリューションは、柔軟性とベンダーに依存しないデータ収集を実現できるため、組織がより高度なコントロールを維持するのに役立ちます。ただし、効果的に導入するには相当の時間と専門知識が必要です。さらに、テレメトリー・データを保管・処理するための大規模なインフラストラクチャーも求められます。
あるいは、商用ソリューションを利用すれば、自動化、AIによるインサイト、継続的なサポートを備えたフルマネージド型のオブザーバビリティー環境を導入できます。こうしたプラットフォームは手動でのセットアップや保守を最小限に抑え、チームはシステム性能の向上とプラットフォームの最大活用に専念できます。
問題の原因を迅速に特定し、修正します。 リアルタイムの高精度データにより、動的なアプリケーションおよびインフラストラクチャーの環境を完全に可視化できます。
生成AIでITのオートメーションとオペレーションを強化して、ビジネスの優先事項に沿ったITインフラストラクチャーを実現します。
IBM SevOne Network Performance Managementは、複雑なネットワークに対するリアルタイムの可視性と洞察を提供する監視および分析ソフトウェアです。