モニタリングからオブザーバビリティーへの移行

執筆者

Staff Writer

IBM Think

IT環境が高度化・複雑化するにつれ、従来の監視ツールだけでは対応が難しくなっています。クラウドネイティブなアーキテクチャー、マイクロサービス、コンテナ化されたアプリケーションの普及によりシステム同士が緊密に連携するようになり、可視化にはこれまで以上に総合的なアプローチが求められています。

こうしたトレンドを受けて、オブザーバビリティーは、システム・メトリクスの追跡を超えてシステムの挙動を包括的に可視化する分野へと発展してきました。オブザーバビリティー・ソリューションは、分散環境全体のテレメトリー・データを相関させることで、チームが根本原因をより迅速に特定し、問題を先回りして解決し、システムの信頼性を高めることを支援します。実際、ある組織では最新のオブザーバビリティー・ツールを活用し、サービス・レベル可用性を70％向上させました。

オブザーバビリティーへの移行は、もはや選択ではなく必然です。レガシーの監視ツールは姿を消し、今日のテクノロジー需要に応えられるオブザーバビリティー・プラットフォームへ置き換えが進んでいます。たとえば、IBM® Tivoli®は次世代オブザーバビリティー・ソリューションであるInstana®へと段階的に移行中です。

IBM Instanaのアメリカ地域セールスリーダーであるDrew Flowersの専門的見解を基に、組織が今オブザーバビリティーへ移行している理由と方法を解説します。既に移行を進めている場合でも、選択肢を評価している段階でも、本稿の考察が現状把握に役立つでしょう。

The DX Leaders

「The DX Leaders」は日本語でお届けするニュースレターです。AI活用のグローバル・トレンドや日本の市場動向を踏まえたDX、生成AIの最新情報を毎月お届けします。

モニタリングとオブザーバビリティーの違い

大まかに言えば、モニタリングは何が起こっているかを示し、オブザーバビリティーはなぜ起こっているのかを明らかにします。モニタリングは問題の兆候を検出し、オブザーバビリティーはより踏み込んだ診断に必要なコンテキストを提供します。

従来の監視では、CPU使用率やネットワークレイテンシーなど事前定義されたメトリクスを収集し、システム・パフォーマンスのスナップショットを提供しますが、問題の原因までは明らかにできません。たとえばパフォーマンス低下時にCPU使用率の高さが検知されても、監視だけでは根本原因は判明しません。

オブザーバビリティーは、メトリクス、イベント、ログ、トレースといった複数のテレメトリー・データ（MELTデータ）を関連付けることでシステムの知見を深め、IT環境を完全かつリアルタイムで可視化します。この可視性により、組織は問題を検出するだけでなく、その原因を特定し、障害を予測し、分散システム全体にわたる複雑な挙動を分析できます。

オブザーバビリティーとモニタリングの違いはこちら

オブザーバビリティーのメリット

オブザーバビリティーは従来型の監視を超えた概念であり、システム性能の向上、レジリエンスの強化、コスト最適化につながるリアルタイムの洞察を提供します。

主要なメリットには以下のようなものがあります。

問題解決の迅速化：自動診断によりツール間の手動相関が不要になり、複雑なIT環境での平均検出時間（MTTD）と平均修復時間（MTTR）を短縮できます。
プロアクティブな問題解決：AIを活用した分析により、顧客やインフラに影響が及ぶ前に障害を予測できるため、チームは事後対応の火消し型から事前対応の運用型へと移行できます。
効率の最適化：リソース消費の詳細な可視化により、組織は使用状況を監視し、効率的に拡張し、クラウドコストを管理できます。
レジリエンスの向上：AIを活用した異常検出でインシデントを影響度にもとづき優先しアラート疲労を軽減し、自動修復によりワークフローを合理化します。
より強力なコラボレーション：サイロを解消することで、オブザーバビリティーはチームに共通のデータソースを提供し、インシデント解決の迅速化と意思決定の質向上を促進します。
ビジネスとのアラインメント：システムの健全性を主要業績評価指標（KPI）と結び付けることで、経営層はテクノロジーがオペレーションや顧客体験、収益に与える影響を可視化でき、より的確な意思決定を行えます。

今こそ移行のタイミングである理由

オブザーバビリティー・ソリューションは数年前から市場に存在しますが、現在は多くの組織が従来のモニタリングからオブザーバビリティーへ移行しつつあります。

オブザーバビリティーへの移行を先延ばしにすると、技術的負債が蓄積し競争力が低下するリスクがあります。一方、いち早く移行した組織はインシデント解決の高速化と運用効率の向上を実現しています。マッキンゼーの調査によれば、ある企業ではインシデント件数を90%削減し、対応時間を数時間から数秒へ短縮しました。

旧来の監視ツールが相次いで市場から姿を消していることに加え、オブザーバビリティー採用を後押ししている主な要因として、IT環境の複雑化とAIイノベーションの進展が挙げられます。

ITの複雑化

ハイブリッドクラウド・インフラ、マイクロサービス、コンテナ化されたワークロードなど、現代のIT環境が複雑化するなか、従来型の監視ツールではもはや十分に対応できません。これらのツールは安定したモノリシック・アプリケーションを前提に設計されているため、今日の企業が持つ高度なテクノロジー・エコシステムを効果的に管理することはできないのです。

従来の監視のよくある限界には、次のようなものがあります。

分散システム全体における可視性のギャップが、障害の見逃しや予期せぬダウンタイムを招きます
インシデント解決の遅延により、復旧が遅れ、業務停止とコスト増を招く
MTTDとMTTRが増加したことにより、サービスレベル契約（SLA）を履行し、信頼性を維持することが困難になりました
連鎖的な障害への洞察が限られているため、誤診断や障害の再発、長期にわたるパフォーマンス低下が発生します。

オブザーバビリティー・ソリューションは、テクノロジー基盤をリアルタイムで包括的に可視化し、問題の早期発見と迅速な対処を支援します。その結果、ダウンタイムの短縮による収益保護と顧客信頼の維持が容易になります。

AIイノベーションとAIOps

人工知能（AI）は、膨大なテレメトリー・データを分析し、ノイズを除去して重大な問題をリアルタイムに抽出することで、ログやアラートを手動で仕分けることなくオブザーバビリティーを変革しています。

IT運用のための人工知能（AIOps）は、機械学習を使用してパターンを検出し、誤検知率を減らして、複雑なシステム全体でイベントを相関させることで、一歩先を進んでいます。その結果、ITチームはアラート疲れに陥ることなく、本当の問題により迅速に対処することができます。

オブザーバビリティーとAIOpsを統合することで、組織は手作業を増やすことなくインシデント対応を効率化し、ダウンタイムを短縮し、システムの信頼性を向上させることができます。この移行により、チームは事後的なトラブルシューティングから事前対応型のシステム最適化へと移行し、より迅速な洞察を得て、中断回数を減らすことが可能になります。

移行を成功に導くための計画

従来の監視からオブザーバビリティーへ移行することを必要以上に難しく考える必要はありません。戦略的に取り組めば、移行を円滑に進めながら、すぐにメリットを享受できます。

移行の成否は、組織がどのパートナーやサービスを選択するかに大きく左右されます（詳細は「適切なオブザーバビリティーソリューションの選択」を参照）。しかし、成功を確実にするために役立つ重要な原則がいくつかあります。

オブザーバビリティーの目標を明確にする

オブザーバビリティー・プラットフォームを選定する前に、組織固有の目標と、そのプラットフォームに期待する成果を明確にしてください。これらが不明確なままだと、必要な機能を欠いたり、ユースケースに対して過度に複雑なソリューションを選択してしまうリスクがあります。

まずはご自身と関係する利害関係者に、解決すべき課題を問いかけてください。目的はMTTD／MTTRの短縮なのか、クラウドコストの効率化なのか、それともアプリケーションに対するより深い洞察の獲得なのか――重点を明確にすることが重要です。

さらに、どの程度まで自動化したいかを検討しましょう。すぐに使えるダッシュボードやAIによる推奨事項を備えたプラットフォームもあれば、手動設定とカスタマイズが必要なものもあります。

また、プラットフォームが既存ツールと統合できるかどうかも検討する必要があります。円滑な移行には、現在のDevOpsパイプライン、クラウドインフラストラクチャ、セキュリティー・フレームワークとの互換性を確保することが不可欠です。

既存の監視ツールとインフラストラクチャを監査する

多くの組織はいまだに、アプリケーション・パフォーマンス管理（APM）ツール、インフラストラクチャ監視、サイロ化されたログプラットフォームなどを寄せ集めた監視体制に頼っており、オブザーバビリティーに不可欠な相関分析が十分に行えません。まずは現行ツールセットを評価し、機能の重複やギャップを洗い出しましょう。

主な監査上の懸念事項は次のとおりです。

誤警報を招き、トラブルシューティングを複雑にする冗長なツールを特定する
現行のログ／トレーシング・ソリューションがオブザーバビリティー・プラットフォームと連携できているか、それとも置き換えが必要かを評価する
現在の監視アプローチで得られていないインサイト（洞察）を含む、データ・カバレッジのギャップを評価する

セキュリティーとコンプライアンスの連携

オブザーバビリティー・プラットフォーム—特にSaaSソリューション—は、ネットワーク全体のデータフローを変化させ、データ・セキュリティーポリシーや規制コンプライアンスに影響を及ぼす可能性があります。遅延や土壇場でのコンプライアンス問題を防ぐため、セキュリティー・チームを早期に参画させる必要があります。

主なセキュリティ上の懸念事項は次のとおりです。

不正アクセスやコンプライアンスリスクを防ぐために、外部データ送信に関するセキュリティーとコンプライアンスポリシーを確認してください。
認証プロセスとロールベースのアクセス制御（RBAC）を見直し、権限を持つユーザーだけがデータにアクセスできるようにします。
パフォーマンスのボトルネックなくオブザーバビリティー・データを処理できるよう、オンプレミスのインフラ準備状況を検証します。

部門横断的なチームで情報共有を徹底する

組織はオブザーバビリティーを導入する際に求められる文化的な変革を過小評価しがちです。オブザーバビリティーはIT部門だけの話ではなく、開発・運用・セキュリティー、さらにはビジネス部門に関わる利害関係者すべてに影響を及ぼします。チーム全体の足並みがそろわなければ導入は停滞し、取得したデータも十分に活用されないおそれがあります。

チーム間の連携に関する主な考慮事項は次のとおりです。

オブザーバビリティー・プラットフォームのセットアップ、管理、保守を誰が担当するのかを明確にする
プロセスの早い段階で開発者を巻き込み、フルスタックの可観測性を得られるようアプリケーションに適切な計測機構を組み込む
上級管理職を巻き込み、ビジネスパフォーマンス・顧客体験・戦略的意思決定を牽引する主要ドライバーとしてのオブザーバビリティーを強化

KPIと成功指標の設定

オブザーバビリティーの成果は測定できますが、そのためには初めから明確なKPIを定義しておく必要があります。

成功を測定するための主な可観測性メトリックには、次の項目があります。

MTTD：システム異常をどれだけ早く特定できるか
MTTR：トラブルシューティングと解決に要する時間をどれだけ短縮できるか
アップタイムとSLA順守：システムの可用性は向上していますか?
アラート効率：冗長なアラートや優先度の低いアラートは削減できているか。

IBMお客様事例

お客様のビジネス課題（顧客満足度の向上、営業力強化、コスト削減、業務改善、セキュリティー強化、システム運用管理の改善、グローバル展開、社会貢献など）を解決した多岐にわたる事例のご紹介です。

オブザーバビリティーの実践

計画が完了したら、次のステップはオブザーバビリティーを実行に移すことです。移行プロセスの多くは選択したパートナーやプラットフォームに左右されますが、ここで紹介する基本プラクティスを実践すれば、スムーズな移行を実現できます。

現実的なタイムラインの設定

オブザーバビリティーの導入期間は、チームの準備状況やインフラストラクチャ、オートメーション機能によって大きく異なります。2週間で導入を完了する組織もあれば、全面的な導入に3〜6か月を要する組織もあります。

移行速度に影響を及ぼす主な要因には、次のようなものがあります。

チームがオブザーバビリティー・ツールやワークフローに精通し、準備ができているかどうか
既存の監視ソリューションを全面的に置き換える場合でも、段階的に移行する場合でも
プラットフォームでカスタム計測が必要かどうか

段階的なロールアウトを検討する

多くの組織は、一度に移行するのではなく、段階的な移行を選択します。このアプローチは時間がかかるかもしれませんが、既存のツールと並行してオブザーバビリティーを導入できるため、中断回数を最小限に抑えることができます。

段階的なロールアウトの主なステップは次のとおりです。

オブザーバビリティー・ツールを既存の監視ツールと並行導入し、システム互換性を検証する
アプリケーションとインフラストラクチャーを段階的にインストルメント化し、包括的なデータ取得を実現する
レガシー監視ツールを段階的に廃止し、アラート戦略を磨き上げてサービスの中断を防止する

新しいアラートとデータに関するチーム教育

オブザーバビリティー・プラットフォームを完全に導入していても、チームがインサイトを正しく解釈し、行動に移せるようトレーニングする必要があります。トレーニングが不十分だと、データを誤読したり重要なインサイトを見逃したり、オブザーバビリティーを十分に活用できなくなるおそれがあります。

トレーニングを行うべき主な重点分野は次のとおりです。

MELTデータを理解し、トラブルシューティングを迅速化する
不要なノイズを防ぎ、重要なインシデントをハイライトするためにアラート設定を最適化する
事後対応のトラブルシューティングよりも、事前の観察を重視することを推奨する

移行後の計測と最適化

導入後も作業は終わりません。投資効果を最大化するために、影響を継続的に追跡し、フィードバックを収集し、構成を微調整して、オブザーバビリティーが実際の価値を生み出していることを確認してください。

オブザーバビリティーの即時的な効果測定

データを深く掘り下げ、チームが問題をより早く検知し、より効果的に連携して、より適切な運用上の意思決定を行えるようにします。

主なフォローアップ・アクションは次のとおりです。

MTTD、MTTR、アップタイム、アラート効率などの移行前後のパフォーマンス指標を比較し、初期成果を特定して改善を追跡する。
オブザーバビリティーが問題の迅速な検出、インサイトの発見、戦略的な意思決定に役立っているかどうかをチームで検証する
IT、DevOps、サイバーセキュリティの各チームが、よりシームレスに連携しているかどうかなど、部門横断的な協働を評価する

継続的な最適化

オブザーバビリティーは、システムやチーム、ビジネス・ニーズに合わせて進化させる必要があります。ギャップに対処し、長期的な価値を最大限に引き出せるよう、オブザーバビリティー機能を積極的に改善、拡張します。

オブザーバビリティーを継続的に高める方法には、次のようなものがあります。

テレメトリー構成の最適化によるデータ品質の向上と不要な収集の削減
AIを活用した予測分析などの機能を利用し、問題が発生する前に予測して防止する
トラブルシューティングを超えて、キャパシティー・プランニングやパフォーマンス最適化、ビジネス戦略の意思決定にも活用できるオブザーバビリティーへと拡張しましょう。

最適なオブザーバビリティー・ソリューションの選択

移行を最大限に活用するには、適切なオブザーバビリティー・ソリューションを選択することが重要です。単にデータを収集するだけでは不十分です。実行可能な洞察を提供し、インフラストラクチャーに適応し、組織の成長に合わせて拡張できる必要があります。

プラットフォームを評価する際に考慮すべき要素は次のとおりです。

エンドツーエンドの可視性
柔軟なデプロイメント
高度な分析と自動化
パフォーマンスを犠牲にしない拡張性
価格モデルの影響
オープンソースと商用ソリューション

エンドツーエンドの可視性

すべてのテレメトリー・データ（メトリクス、イベント、ログ、トレース）を統合するオブザーバビリティー・プラットフォームは、シングル・ペイン・オブ・グラスと呼ばれる統合された一元的なリアルタイム・ビューを提供します。これにより、チームは問題を迅速に診断し、システムのパフォーマンスに関する包括的な洞察を得ることができます。

柔軟なデプロイメント

ITインフラストラクチャが多様化している今、ハイブリッドおよびマルチクラウド環境、オンプレミスシステム、サーバーレス機能、レガシー／モダンアプリケーションの双方をサポートできるプラットフォームを選ぶことを検討してください。

柔軟性があれば、オブザーバビリティー・ソリューションは既存アーキテクチャーにも将来のテクノロジー・ニーズにも適応できます。

高度な分析と自動化

基本的な監視を超えるには、AI搭載の分析機能を備えたオブザーバビリティー・ソリューションを優先的に導入し、問題をエスカレーション前に検出・診断・防止できるようにしましょう。異常検出、自動根本原因分析、予測インサイトなどの機能により、トラブルシューティングが迅速化され、プロアクティブなシステム管理が実現します。

パフォーマンスを犠牲にしない拡張性

組織が拡大するにつれて、オブザーバビリティー・プラットフォームはパフォーマンスを低下させることなく増大するデータ量を処理できなければなりません。大容量データの取り込み、コスト効率に優れたストレージ、リアルタイムのクエリー性能を備えつつ、コストを適切に管理できるスケーラブルなソリューションを優先してください。

価格モデルの影響

プラットフォームの料金体系、とくにデータ取り込み量に応じた課金モデルには注意が必要です。オブザーバビリティーのニーズが拡大すると、ベンダーによっては思わぬコスト増につながることがあります。

オープンソースと商用ソリューション

オープンソースか商用の独自プラットフォームかを選ぶ際は、組織のニーズ、技術的専門性、そして長期的な目標を考慮する必要があります。

一般に、オープンソース・ソリューションはカスタマイズが可能ですが、セットアップと保守が必要です。商用ソリューションはコストがかかりますが、より迅速な導入と高度な自動化を提供します。

オープンソースのオブザーバビリティー・ソリューションは、柔軟性とベンダーに依存しないデータ収集を実現できるため、組織がより高度なコントロールを維持するのに役立ちます。ただし、効果的に導入するには相当の時間と専門知識が必要です。さらに、テレメトリー・データを保管・処理するための大規模なインフラストラクチャーも求められます。

あるいは、商用ソリューションを利用すれば、自動化、AIによるインサイト、継続的なサポートを備えたフルマネージド型のオブザーバビリティー環境を導入できます。こうしたプラットフォームは手動でのセットアップや保守を最小限に抑え、チームはシステム性能の向上とプラットフォームの最大活用に専念できます。

IBM Instana Observabilityの力を解き放つ

IBM Instana Observabilityを使用すれば、219％のROIを達成し、開発者がトラブルシューティングに費やす時間を90％削減できます。

今こそ監視からオブザーバビリティーへ移行するときです。まずはどこから着手すればよいでしょうか。

執筆者