Windows ホストの監視

Windows ホストは Instana で監視できます。 Instana Windows ホストのパフォーマンス、健全性、およびリソース使用状況に関する包括的な洞察を提供し、効率的なトラブルシューティング、パフォーマンス最適化、および問題の事前検出を可能にします。

システム情報

Instana ホストから様々なシステム詳細を取得します。 Instana のGUIの [システム ]ペインで、ホストに関する以下の詳細を確認できます:

パラメーター 説明
OS オペレーティングシステムの詳細、カーネルのバージョン、およびアーキテクチャ。
CPU CPUの詳細と個数。
GPU GPUの詳細(モデルやクロック速度など)。
メモリー GiB のシステムメモリ容量(ギガバイト単位)。
ホスト名 ホストマシンのホスト名。
FQDN 完全修飾ドメイン名。 ホストの完全なドメイン名であり、サブドメインとトップレベルドメインを含みます。
マシン ID ホストディストリビューションのインストール中に生成される、ホストの固有識別子。
ホスト ID ホストのネットワークインターフェースのMACアドレス。これはネットワークアダプタを一意に識別する識別子である。
開始時刻 ホストマシンが起動した時刻。

インターフェース

以下の詳細を確認できます:

  • インターフェース: ネットワークインターフェースとIPアドレスの一覧。
  • Instana エージェント: ホストの Instana エージェント。
  • プロセス: ホスト上で実行中のプロセスの数と詳細。

報告状況

Windows ホストの過去の実稼働状況は、 Windows ホストダッシュボードの 「レポートステータス 」チャートに表示されます。 Instana に報告するホストの状態を示す3つのカラーインジケーターを確認できます。

状況 説明 カラーインジケーター
レポート作成 ホストは Instana に中断なく報告しました。 グリーン
報告 - モニタリングの問題 ホストは Instana に、一部の中断(ネットワーク障害やエージェント監視の問題など)を伴いながら報告を行い、完全に利用可能な状態ではありませんでした。 オレンジ
レポートなし この期間中、ホストは Instana に一切レポートしていませんでした。

ホストダッシュボード上でこのデータを表示するために使用されるメトリックは、ホストを監視するエージェントから受信したメッセージを集計したものです。 ホストは、 Instana が所定の時間枠内で期待されるメッセージの少なくとも98%を受信した場合に「 報告中」 と分類される。

例えば、メトリック集計の時間ウィンドウが5分間であり、ホストのポーリングレートが1秒に1回の場合、 Instana はその時間枠内でホストから300件のメッセージを受信することを想定します。

  • 少なくとも294件のメッセージを受信した場合(300件の98%)、ホストステータスは 「Reporting 」として表示されます。
  • 受信したメッセージが294未満かつ0より多い場合、ホストステータスは 「レポーティング – 監視の問題」 として表示されます。
  • メッセージを受信しない場合、ホストの状態は 「報告なし 」として表示されます。

パフォーマンス・メトリック

ホストに対して以下のパフォーマンス指標が表示されます。

CPU使用率 - パーセンテージ

CPU使用率の値を組み合わせることで、ホスト上でCPUリソースがどのように利用されているかを詳細に把握できます。

メトリック 説明 粒度
CPU 使用率 設定した時間範囲におけるCPU使用率の合計(パーセンテージ) 1 秒

メモリー使用率

メトリック 説明 粒度
メモリー使用率 メモリ使用率(パーセンテージ) 1 秒

CPU使用率 - 合計

メトリック 説明 粒度
ユーザー ユーザー空間プロセス(アプリケーションおよびサービス)の実行に費やされたCPU時間量。 1 秒
システム カーネル空間プロセス(OSコア機能)の実行に費やされたCPU時間量。 1 秒
お待ちください (Wait) 入出力操作の完了を待機するために費やされたCPU時間。 1 秒
良好 優先度が低い(nice値が小さい)プロセスを実行するのに費やされたCPU時間量。 1 秒
スチール 同じ物理ホスト上で他の仮想マシンやコンテナを管理するハイパーバイザーによって失われるCPU時間の量。 1 秒

個々の CPU 使用率

メトリック CPU usage は、選択された期間における各CPUの以下のメトリックをパーセンテージでグラフ上に表示します:

メトリック 説明 粒度
ユーザー ユーザー空間プロセス(アプリケーションおよびサービス)の実行に費やされたCPU時間量。 1 秒
システム カーネル空間プロセス(OSコア機能)の実行に費やされたCPU時間量。 1 秒
お待ちください (Wait) 入出力操作の完了を待機するために費やされたCPU時間。 1 秒
良好 優先度が低い(nice値が小さい)プロセスを実行するのに費やされたCPU時間量。 1 秒
スチール 同じ物理ホスト上で他の仮想マシンやコンテナを管理するハイパーバイザーによって失われるCPU時間の量。 1 秒

データ・ポイント: Filesystem

個々の GPU 使用率

以下の表は値 Individual GPU usage の概要を示しています:

メトリック 説明 粒度 ユニット
GPU使用状況 GPU使用率 1 秒 %
温度 GPUの温度(摂氏) 1 秒 °C
エンコーダー エンコーダの稼働率 1 秒 %
デコーダー デコーダの活用 1 秒 %
使用メモリー メモリー使用率 1 秒 %
合計メモリー 総GPUメモリ 1 秒 バイト
伝送スループット 伝送データレート 1 秒 バイト/秒
受信スループット 受信データ速度 1 秒 バイト/秒

この指標はから収集されます nvidia-smi。 以下の表は、Nvidiaグラフィックカードのサポート対象バージョンをまとめたものです:

商標 モデル
Tesla S1070, S2050, C1060, C2050/70, M2050/70/90, X2070/90, K10, K20, K20X, K40, K80, M40, P40, P100, V100
Quadro 4000、5000、6000、7000、M2070-Q、K シリーズ、M シリーズ、P シリーズ、RTX シリーズ
GeForce さまざまなレベルのサポート。使用可能なメトリックの数は、Tesla と Quadro の製品よりも少ない。

前提条件

最新の公式NVIDIAドライバーをインストールする必要があります。

GPUサポート付き Instana エージェントの Docker コンテナの起動に関する詳細については、 「 Instana エージェントコンテナによるGPU監視の有効化」 を参照してください。

GPUメトリクスのデータ収集は、ポーリングとクエリを2つのプロセスに分割することで nvidia-smi、影響を最小限に抑えるよう慎重に設計されています。 バックグラウンドプロセスはループモードで起動され、メモリ内に保持される。 このプロセスにより、メトリクス収集のパフォーマンスが大幅に向上し、潜在的なオーバーヘッドを防止します。

センサーは、構成されているポーリング頻度 (デフォルトでは毎秒) に基づいて GPU メトリックの照会を実行します。 このソリューションにより、オーバーヘッドなしに複数のGPUに対して毎秒正確かつ最新のメトリクスを収集することが可能になります。

GPU メモリー/プロセス

以下のプロセス一覧はGPUを使用しています:

データ・ポイント 収集元 粒度
Process Name nvidia-smi 1 秒
PID nvidia-smi 1 秒
GPU nvidia-smi 1 秒
Memory nvidia-smi 1 秒

以下の表は、GPUメモリとしてサポートされているNVIDIAグラフィックスカードのバージョンをまとめたものです:

商標 モデル
Tesla S1070, S2050, C1060, C2050/70, M2050/70/90, X2070/90, K10, K20, K20X, K40, K80, M40, P40, P100, V100
Quadro 4000、5000、6000、7000、M2070-Q、K シリーズ、M シリーズ、P シリーズ、RTX シリーズ
GeForce さまざまなレベルのサポート。使用可能なメトリックの数は、Tesla と Quadro の製品よりも少ない。

メモリー

以下の表はメモリの単位を概説する:

メトリック ユニット 説明 粒度
使用中 パーセンテージ 使用中のメモリ量 1 秒

選択した期間の値がグラフ上に表示されます。

データ・ポイント: Filesystem

ファイル・システム

これらのメトリクスは、ファイルシステムのパフォーマンス、容量、使用状況に関する洞察を提供し、管理者がストレージシステムを効果的に監視および最適化することを可能にします。

メトリック 説明 粒度
デバイス 装置の名前。 60 秒
オプション ファイルシステムをマウントする際に使用されるオプションまたはパラメータ。 60 秒
無料 ファイルシステム上で利用可能な空き領域の量。 1 秒
リーク 割り当てられたが使用されていない領域で、「リーク」または無駄と見なされるもの。 1 秒
タイプ ファイル・システムのタイプ。 60 秒
容量 ファイルシステムの総容量。 60 秒
使用中 ファイルシステム上で使用されている領域の量。 1 秒
読み取り数/秒 1秒あたりの読み取り操作数。 1 秒
書き込み数/秒 1秒あたりの書き込み操作数。 1 秒
読み取りバイト数/秒 1 秒当たりに読み取られるバイト数。 1 秒
書き込みバイト数/秒 1 秒当たりに書き込まれるバイト数。 1 秒

データ・ポイント: Filesystem

* 合計、読み取り、書き込みの使用状況データポイントメトリクスは、ディスクI/O使用率をパーセンテージで表示します。

* Leaked (使用中の削除済みファイルを指し、. に相当する capacity - used - free) これらのファイルは、 lsof | grep deleted). で検索できます。

デフォルトでは、 Instana はローカルファイルシステムのみを監視します。 この configuration.yaml ファイルには、監視対象または除外対象のファイルシステムを記載できます。

この設定項目の名前はデバイス名であり、これは の出力から確認 Get-PSDrive -PSProvider FileSystemできます。

以下の例は、監視対象のファイルシステムのリストを示しています:

com.instana.plugin.host:
  filesystems:
    - 'C'
    - 'D'
 

次の例は、含まれるファイルシステムと除外されるファイルシステムを示しています:

com.instana.plugin.host:
  filesystems:
    include:
      - 'C'
      - 'D'
    exclude:
      - 'E'
 

ネットワーク・インターフェース

以下の表は、インターフェースごとのネットワークトラフィックとエラーの概要を示しています。

メトリック 説明 粒度
インターフェース 通信に使用されているネットワークインターフェース。 60 秒
Mac ネットワークインターフェースのメディアアクセス制御(MAC)アドレス。 60 秒
IP ネットワークインターフェースに割り当てられたIPアドレス。 60 秒
受信パケットのバイト数 ネットワークインターフェースが1秒間に受信する総バイト数。 1 秒
受信エラー ネットワークインターフェースでデータを受信中に発生したエラーの割合。 1 秒
送信パケットのバイト数 ネットワークインターフェースが1秒間に送信する総バイト数。 1 秒
送信エラー ネットワークインターフェース上でデータを送信中に発生したエラーの割合。 1 秒
受信済み/秒 ネットワークインターフェースが1秒間に受信するパケットの数。 1 秒
送信済み/秒 ネットワークインターフェースが1秒間に送信するパケットの数。 1 秒

データ・ポイント: Filesystem

TCP アクティビティー

これらのメトリクスは、 TCP の接続アクティビティに関する洞察を提供します。これには確立された接続、セグメント伝送レート、およびエラー発生が含まれます。

メトリック 説明 粒度
確立済み 確立された TCP 接続の数。 1 秒
オープン/秒 1秒あたりに開かれる新しい TCP 接続の数。 1 秒
着信セグメント数/秒 TCP セグメントの毎秒受信数。 1 秒
発信セグメント数/秒 1秒あたりの TCP セグメントの送信数。 1 秒
確立されたリセット 確立された TCP 接続のうち、1秒あたりにリセットされた接続の割合。 1 秒
発信リセット 1秒あたりにリセットされた TCP 接続の割合 1 秒
失敗 1秒あたりの TCP 接続試行の失敗率 1 秒
エラー TCP エラーの1秒あたりの割合 1 秒
再送信 TCP の再送信が1秒あたりに占める割合。 1 秒

データ・ポイント: Filesystem

Windows サービス一覧

Windows サービスはデフォルトでは監視されません。 この機能は、ホストエージェント configuration.yaml のファイルに が指定されている場合に winServiceRegex のみ有効になります。 は、サービス名または表示名が正規表現に winServiceRegex 一致するサービスを監視するために使用される正規表現です。 たとえば、サービス名または表示 Device 名に「」 SensorwinServiceRegex: '(Sensor|Device)' または「」を含むすべてのサービスを監視します。

メトリック 説明 粒度
サービス名 サービス名 60 秒
表示名 表示名 60 秒
PID プロセス ID 60 秒
状態 サービス状態 60 秒

メトリクスは.から収集されます Windows sc queryex

プロセス・トップ・リスト

これらのメトリクスは、実行中のプロセスに関する洞察を提供します。これには、プロセスID、プロセス名、CPU使用率、正規化されたCPU使用率、およびメモリ消費量が含まれます。 上位プロセスリストは30秒ごとに更新され、システムリソースを使用しているプロセスのみがリストに含まれます。 例えば、過去30秒間にCPU使用率が10%を超えたプロセスや、メモリ使用量(RSS)が512MBを超えたプロセスが、プロセスのトップリストに表示されます。

Linuxtop 意味論が用いられる。 100% CPUとは単一CPUコアのフル使用を指し、前月のスナップショット履歴を検索できます。 正規化されたCPUは、CPUを論理プロセッサの数で割ることで算出される。

メトリック 説明 粒度
PID オペレーティングシステムによって各プロセスに割り当てられる一意の識別子。 30 秒
プロセス名 アプリケーションまたはサービスによって定義されたプロセスの名前。 30 秒
CPU プロセスが消費するCPUリソースの量。 30 秒
CPU (標準化) プロセスのCPU使用率を正規化した値。 30 秒
メモリー プロセスが消費するメモリ量。 30 秒

データ・ポイント: Filesystem

正常性シグニチャー

各センサーについて、健康状態のシグネチャからなるナレッジベースが、入力されるメトリクスに対して継続的に評価される。 これらは、ユーザーへの影響度に応じて問題やインシデントを報告するために使用されます。

組み込みイベントは、エンティティのヘルスシグネチャの異常に基づいて課題やインシデントをトリガーし、 カスタムイベントは、エンティティの個々のメトリクスのしきい値に基づいて課題やインシデントをトリガーします。

ホストセンサーの組み込みイベントの詳細については、 「組み込みイベントリファレンス」 を参照してください。