Windows パフォーマンス・モニターを使用したリソースのグラフ作成
LSF は Windows パフォーマンス・モニターと統合されているため、LSF クラスター、ホスト、キュー、およびジョブのパフォーマンス情報をグラフ化できます。 Windows パフォーマンス・モニターを使用して、指定されたしきい値を超えたときに外部コマンドをトリガーすることもできます。
LSF モニターと呼ばれるサービスは、LSF から Windows パフォーマンス・モニターに情報を渡します。 LSF モニターは別個にインストールする必要があります。
LSF モニター統計
LSF モニターは、インストールされると、自動的に情報を Windows パフォーマンス・モニターに送信します。 Windows パフォーマンス・モニターを使用して、LSF パフォーマンス情報をグラフ化します。
ホスト、キュー、およびジョブ・オブジェクトは、複数インスタンスをサポートします。
以下の LSF 情報が使用可能です。
- クラスター情報
- ホスト情報
- キュー情報
- ジョブ情報
- 外部情報
クラスター情報
- 使用可能なサーバーの数
- 使用不可のサーバーの数
- LSF デーモン (sbatchd または RES サービス) がダウンしているサーバーの数
- ライセンス交付を受けていないサーバーの数
- クラスター内の保留中のジョブの数
- クラスター内の実行中のジョブの数
- クラスター内の中断状態のジョブの数
- 病気のジョブの数 (パスワードなしで実行依頼されたジョブ、ジョブ依存関係が満たされなかったジョブ、および 3 日を超えて保留中のジョブ)
- LIM の応答時間 (作成する時間によって測定される)ls_load呼び出し)
- mbatchd の応答時間 (作成に要した時間によって測定される)lsb_queueinfo呼び出し)
ホスト情報
- 索引のロード: r15s、 r15m、 mem、 swap、 pg、 ut
- 実行中のジョブの数
- 延期されたジョブの数
- 予約済みジョブ・スロットの数
- 外部ロード・インデックス
キュー情報
- 保留中のジョブの数
- 実行中のジョブの数
- 延期されたジョブの数
- 予約済みジョブ・スロットの数
ジョブ情報
- ジョブによって使用された CPU 時間
- ジョブによって使用されるメモリー (UNIX 上で実行されるジョブの場合のみ)
- ジョブによって使用されるスワップ・スペース (UNIX 上で実行されるジョブの場合のみ)
外部情報
- 1 つまたは 2 つの外部ロード索引の値 (LSF 管理者が構成)
LSF モニターのインストール
開始前に
LSF バージョン 4.0 以上を実行するクラスターが必要です。 Windows を実行しているすべての LSF サーバーまたはクライアントホストに LSF モニターをインストールする必要があります。 クラスターには UNIX ホストを含めることができます。 クラスター管理者のアカウントとパスワードを指定する必要があります。
このタスクについて
LSF モニター・セットアップ・プログラムは LSF とともにインストールされます (LSF モニターは 64bit ・マシンではサポートされません)。 lsfmon -install を使用して、LSF モニター・サービスを実際にインストールします。
手順
LSF モニターの構成
開始前に
変更を行う前に、レジストリーをバックアップしてください。
このタスクについて
外部ロード索引とともに、ホスト、キュー、およびジョブの情報のサンプル間隔を構成できます。
LSF モニターは、定期的に LSF から情報をサンプリングし、Windows パフォーマンス・モニターを更新します。
デフォルトでは、情報は以下の間隔でサンプリングされます。
- ホスト情報 = 30 秒
- キュー情報 = 45 秒
- ジョブ情報 = 60 秒