Infrastructure Monitoringとは

インフラストラクチャー監視とは、企業のテクノロジー・スタックのバックエンド・コンポーネント全体についてパフォーマンス、可用性、健全性を追跡、分析、管理するプロセスです。

インフラストラクチャー監視とは、企業のテクノロジー・スタックのバックエンド・コンポーネント全体についてパフォーマンス、可用性、健全性を追跡、分析、管理するプロセスです。メモリー・チップやプロセッサーからオペレーティング・システム（OS）やアプリケーション・サーバーに至るまで、これらのコンポーネントはそれぞれ、アプリケーションやサービスをエンド・ユーザーに提供するうえで重要な役割を担っており、クラウド、オンプレミス、ハイブリッド環境にまたがって存在する可能性があります。こうしたシステムの監視は必須です。アプリケーションのダウンタイムやサービスの劣化は、ユーザー離れ、収益上の大幅な損失、企業の評判の低下につながる可能性があるからです。

インフラストラクチャー監視には、サーバー、仮想マシン、コンテナ、データベース、その他のバックエンド・コンポーネントからのデータとメトリクスを自動的に収集、集約、分析する特殊なツールが必要になります。インフラストラクチャー監視ツールは、CPUとメモリーの使用状況、ネットワーク・トラフィック、ディスク容量、応答時間、エラー率などの幅広いパラメータを網羅します。事前定義されたしきい値を超えた場合、または異常が検知された場合にはアラートまたは通知が生成されるので、ITチームは潜在的な問題を調査して、問題がエスカレートする前に対処できます。インフラストラクチャー監視の最終目標は、信頼性が高く、安全かつ効率的なITインフラストラクチャーの運用を確保することです。

インフラストラクチャー監視の過去と現在

インフラストラクチャー監視は、テクノロジーの進歩とビジネス・ニーズの変化に伴い、長年にわたって大幅に進化してきました。当初、インフラストラクチャー監視は主にサーバーやネットワーク・デバイスなどデータセンター内のハードウェア・コンポーネントに焦点を当てていました。こうした静的なコンポーネントなら、監視は比較的容易でした。

AWS、Microsoft Azure、Google Cloudなどのクラウド・プラットフォームが登場すると、インフラストラクチャー監視は、仮想化された環境、クラウド・インフラストラクチャー、コンテナ、マイクロサービス、Kubernetes、その他の最新テクノロジーにまで拡大してきました。今日のインフラストラクチャー監視ソフトウェアには、一時的なインフラストラクチャー・コンポーネントを監視する機能とともに、自動化、人工知能、リアルタイム監視、エンドツーエンドの可視化、拡張性、柔軟性、DevOps統合、可視化、分析、組み込みのセキュリティー機能が組み込まれている必要があります。

IBM Instana Observabilityを今すぐお試しください

バックエンド・コンポーネントの健全性を比類のないレベルで可視化し、問題を速やかに特定して、それに対処できるようにします

関連コンテンツ

IBMニュースレターの購読

インフラストラクチャー監視のしくみ

インフラストラクチャー監視は、組織のITインフラストラクチャーを構成する従来型およびクラウドネイティブのさまざまなコンポーネントから継続的にデータを収集し、そのデータを分析してシステムのパフォーマンス、可用性、健全性を評価することで機能します。

システム・データを収集するには、エージェントベースとエージェントレスの2つの方法があります。

エージェントベースの監視

エージェントは、エンジニアによってホスト（監視が必要なシステムまたはデバイス）にインストールされる軽量のソフトウェア層で、システムの状態に関する関連テレメトリー・データを収集します。エージェントをホストにインストールするこのプロセスは、インストルメンテーションと呼ばれます。現在の主要なインフラストラクチャー監視ソリューションを使用すると、エージェントは構成後にセンサーを使用してインフラストラクチャー・スタックの上下のコンポーネントを検知できます。

すべてが完全に計測されると、各エージェントはインフラストラクチャーの動作とステータスを反映する幅広いメトリクスと測定値の収集を開始します。これらのメトリクスには、CPUとメモリーの使用率、ネットワーク帯域幅、ディスク領域の使用量、応答時間、エラー率、トランザクション数などが含まれます。理想的には、パフォーマンス監視プラットフォームは、サンプリングなしで1秒間隔でリアルタイムでこのデータを継続的にキャプチャします。このタイプの粒度は、エージェントベースの収集の主な利点であり、問題が発生した際の特定とトラブルシューティングが容易になります。

エージェントベースの収集により、プロアクティブな監視も可能になります。CPU使用率などが特定の割合を超えたときにアラートをトリガーするしきい値を設定することで、管理者は潜在的なパフォーマンスの問題を一歩先を行くことができます。アラートはEメール、SMS経由で送信したり、SlackやPagerDutyなどの通知システムに統合したりできます。

エージェントの最大の利点は、データ収集が特に充実していることです。しかも、診断や問題の修復などの作業が自動的に実行される場合もあります。欠点として、エージェントは監視データの収集と送信のためにCPUサイクル、メモリー、ネットワーク帯域幅などのシステム・リソースを消費します。監視がリソースを大量に消費する場合や、システムのリソースが限られている場合には、システムのパフォーマンスにわずかな影響を与える可能性があります。

エージェントレス監視

エージェントベースの収集とは異なり、エージェントレス方式では、ホストに別途ソフトウェア・エージェントをインストールする必要がありません。Windows Management Instrumentation（WMI）、Simple Network Management Protocol（SNMP）、Secure Shell（SSH）、あるいはNetFlowなどの組み込みプロトコルを利用してシステム・データを収集し、インフラストラクチャー監視ソリューションに送ります。ルーター、スイッチ、ロード・バランサーなど、エージェントをインストールできない特殊なハードウェアの場合はたいてい、これが唯一のオプションです。また、利用可能なリソースが限られているレガシー・システムやデバイスでも使われます。

エージェントレス収集の利点のひとつは、必要なプロトコルまたはAPIがサポートされている限り、さまざまなオペレーティング・システムやプラットフォームで動作することです。そのため、異機種混在の環境でも対応が柔軟になります。

エージェントレスなので、パフォーマンスへの影響も軽減されます。エージェントレス監視では、個々のシステム上でソフトウェア・エージェントを実行する必要がないため、リソース消費が増えず、監視対象システムへのパフォーマンス上の影響もありません。

エージェントレス監視機能は、ネットワーク・プロトコルまたはAPIを通じて公開されるデータに依存します。したがって、これらの方法ではすべてのシステムレベルのメトリクスまたはアプリケーション固有のデータにアクセスできるわけではないため、エージェントベースの収集と比較して、利用可能なデータが制限される可能性があります。さらに、エージェントレス方式はネットワークに大きく依存しており、ネットワークがオフラインになると失敗する可能性が高くなります。

今日の複雑な最新のアーキテクチャーでは、エージェント収集方法とエージェントレス収集方法の両方が使用されます。主要なインフラストラクチャー監視ソリューションは、エージェント収集方法とエージェントレス収集方法の両方を一元管理できます。

インフラストラクチャーで監視が必要な部分

インフラストラクチャー監視は、さまざまな業種や組織にわたる各種のユースケースに対応します。インフラストラクチャー監視を利用できる一般的な方法をいくつか次に示します。

パフォーマンスの最適化：インフラストラクチャー監視は、CPUまたはメモリー使用量の最適化、ネットワーク輻輳の特定、パフォーマンス向上のためのデータベース・クエリのチューニングなど、改善すべき領域を特定するための主要なパフォーマンス・メトリクスの追跡を可能にします。
プロアクティブな問題検知：インフラストラクチャー・コンポーネントをリアルタイムで監視することで、組織はエンド・ユーザーに影響が生じたり、サービス中断が起きたりする前にプロアクティブに問題を検知できます。アラートと通知も、クリティカルなインシデントに発展する前に、潜在的なインフラストラクチャーの問題をITチームが特定してそれに対処するうえで役立つため、ITワークフローの重要なコンポーネントになっています。
キャパシティー・プランニングと拡張性：インフラストラクチャー・メトリクスを長期にわたって監視することで、組織は使用パターンを分析し、将来のリソース要件を予測して、キャパシティーの拡張を計画できます。十分に活用されていないリソースまたは過剰に活用されているリソースを特定できるので、ワークロード分散の効果が高くなります。
障害の特定と根本原因の分析：インフラストラクチャーの監視は、欠陥や、システム障害またはパフォーマンス低下の根本原因を特定する際に効果を発揮します。ITチームは、メトリクスとログを分析することで、ハードウェア障害、ソフトウェアの構成ミス、ネットワークの停止、アプリケーション・エラーといった根本的な問題を特定できます。
SLAコンプライアンス：インフラストラクチャー監視を利用すると、組織は主要業績評価指標（KPI）を追跡およびレポートして、サービス・レベル契約（SLA）要件を満たことができます。アップタイム、応答時間、可用性などのメトリクスを監視することで、SLAへの準拠を確保し、ITサービスの信頼性を実証するうえで必要なデータが提供されます。
キャパシティーの最適化とコスト管理：インフラストラクチャーのリソースと使用状況を監視することで、企業はリソース割り当てを最適化し、アイドル状態の、または使用率の低いリソースを特定し、リソースのプロビジョニングに関する情報に基づいて意思決定を下すことができます。こうした最適化によって、不要なリソースによる支出を回避したり、インフラストラクチャーのデプロイメントを適正化したりすることでコストを削減できます。
セキュリティー監視：インフラストラクチャー監視は、セキュリティー・インシデントを検知し、セキュリティー・ポリシーの遵守を確保するうえで役立ちます。システム・ログ、ネットワーク・トラフィック、セキュリティー・イベントを監視することで、組織は疑わしい活動、潜在的な侵害や脆弱性を特定し、セキュリティー・リスクを軽減する対策を適切なタイミングで講じることができます。

以上は、インフラストラクチャー監視を利用できる例のほんの一部です。理想的なユースケースは、業種、組織の規模、業務運営における監視対象システムの重要度によって異なります。

インフラストラクチャー監視のユースケース

パフォーマンスの最適化

インフラストラクチャー監視は、CPUまたはメモリー使用量の最適化、ネットワーク輻輳の特定、パフォーマンス向上のためのデータベース・クエリのチューニングなど、改善すべき領域を特定するための主要なパフォーマンス・メトリクスの追跡を可能にします。

プロアクティブな問題検知

インフラストラクチャー・コンポーネントをリアルタイムで監視することで、組織はエンド・ユーザーに影響を与えたり、サービスの中断を引き起こしたりする前に、問題をプロアクティブに検知できます。アラートと通知は、クリティカルなインシデントに発展する前に、潜在的なインフラストラクチャーの問題をITチームが特定してそれに対処するうえで役立ちます。

容量計画と拡張性

インフラストラクチャーのメトリクスを長期にわたって監視することで、組織は使用パターンを分析し、将来のリソース要件を予測して、キャパシティーの拡張を計画できます。十分に活用されていないリソースまたは過剰に活用されているリソースを特定できるので、成長を予測し、情報に基づいてスケーリングの決定を下すのに役立ちます。

障害の特定と根本原因の分析

インフラストラクチャーの監視は、障害と、システム障害またはパフォーマンス低下の根本原因を特定するのに役立ちます。IT チームはメトリクスとログを分析することで、ハードウェア障害、ソフトウェア構成ミス、ネットワーク停止、アプリケーション・エラーなど、根本的な問題を特定できます。

SLAの遵守

インフラストラクチャー監視を利用すると、組織は重要業績評価指標（KPI）を追跡およびレポートして、サービス・レベル契約（SLA）要件を満たことができます。アップタイム、応答時間、可用性などの指標を監視することで、SLAへの準拠を確保し、ITサービスの信頼性を実証するうえで必要なデータが提供されます。

容量の最適化とコスト管理

インフラストラクチャーのリソースと使用状況を監視することで、企業はリソース割り当てを最適化し、アイドル状態の、または使用率の低いリソースを特定し、リソースのプロビジョニングに関する情報に基づいて意思決定を下すことができます。こうした最適化によって、不要なリソースによる支出を回避したり、インフラストラクチャーのデプロイメントを適正化したりすることでコストを削減できます。

セキュリティー監視

インフラストラクチャー監視は、セキュリティー・インシデントを検知し、セキュリティー・ポリシーの遵守を確保するうえで役立ちます。システム・ログ、ネットワーク・トラフィック、セキュリティー・イベントを監視することで、組織は疑わしい活動、潜在的な侵害や脆弱性を特定し、セキュリティー・リスクを軽減する対策を適切なタイミングで講じることができます。

インフラストラクチャー監視のベスト・プラクティス

ビジネスのニーズが何であれ、インフラストラクチャー監視ソリューションへの投資を最大限に活用するのに役立つ、従うべきベスト・プラクティスがいくつかあります。

ベースライン・メトリクスの確立とレビュー：通常の運用中に、インフラストラクチャー・コンポーネントのベースライン・パフォーマンス・メトリクスとKPIを確立します。ベースラインとKPIは、異常や、通常動作からの逸脱を検知する際の基準点になります。インフラストラクチャーの進化に応じて、死角が生じないようにベースラインを更新および調整してください。
包括的なアラートを構成する：意味があり、実行可能で、当面の特定の問題に関連するアラートを作成します。適切なしきい値を設定し、誤検知を除外することで、アラート・ノイズの発生を回避します。問題を効率的に診断して解決するために十分な情報がアラートから提供されるようにします。
通知を整理して優先順位を付ける：特定の種類のイベントに関する通知を配信するように監視ソリューションを構成する場合には、どの通知を優先する必要があるかを決定します。サーバーの停止など、ユーザー・エクスペリエンスに影響を与える重大なインシデントには、特に緊急に対処しなければなりません。
テストを実行する：実際に緊急事態が発生するまで待っていたのでは、監視システムをテストする時間がなくなってしまいます。監視システムのテスト実行をスケジュールして、すべてが正しく機能していることを確認しましょう。
ロール固有のダッシュボードをセットアップする：今日の主要なインフラストラクチャー監視ソリューションを使用すると、各ユーザーのロールに基づいてカスタム構成のダッシュボードを作成できます。何といっても、SecOpsチームのメンバーが考慮するデータやアラートは、CFOに関わるものとは大きく異なるものです。
ベンダーのサポートに頼る：インフラストラクチャー監視ソリューションの設定や使用に関して問題や課題が発生した場合は、プロバイダーのサポートを利用しましょう。ベンダーのコンサルタント、ヘルプセンター、サポート担当者が、トラブルシューティングを解決に導きます。

以上のベスト・プラクティスに従えば、組織は堅牢で効果的なインフラストラクチャー監視フレームワークを確立できます。実用的なインサイトを提供してプロアクティブな問題解決を可能にし、ITシステムの全体的な安定性とパフォーマンスに貢献するフレームワークです。