ホスト関連機能
以下の新機能は、ホストの管理と表示に関連しています。
圧縮ホスト・フォーマット
ホスト名またはホスト・グループを圧縮表記で指定するときに、コロン (:) を使用して数値の範囲を指定できるようになりました。 コロンは、範囲を指定するために現在使用されているハイフン (-) と同じように使用され、圧縮表記で区別なく使用できます。 先行ゼロを使用してホスト名を指定することもできます。
複数の大括弧 (サポートされる特殊文字を含む) を使用して、ホスト名の任意の場所に負でない整数の複数のセットを定義できるようになりました。 例えば、 hostA[1,3]B[1-3] には、 hostA1B1、 hostA1B2、 hostA1B3、 hostA3B1、 hostA3B2、および hostA3B3が含まれます。
圧縮表記への追加は、 -m (M) オプションまたはホスト・リストを使用して複数のホスト名を指定するコマンド、 lsf.cluster.clustername ファイル ( Hosts セクションの HOSTNAME 列)、および lsb.hosts ファイル ( Host セクションの HOST_NAME 列、 HostGroup セクションの GROUP_MEMBER 列、および ComputeUnit セクションの MEMBER 列) を含む、圧縮表記を指定できるすべてのケースに適用されます。
- bsub -m "host[1-100].example.com"
ジョブは、 host100.example.comまでの host1.example.com、 host2.example.com、 host3.example.comに実行依頼されます。
- bsub -m
"host[01-03].example.com"
ジョブは、 host01.example.com、 host02.example.com、および host03.example.comに実行依頼されます。
- bsub -m
"host[5:200].example.com"
ジョブは、 host200.example.comまでの host5.example.com、 host6.example.com、 host7.example.comに実行依頼されます。
- bsub -m
"host[05:09].example.com"
ジョブは、 host09.example.comまで host05.example.com、 host06.example.comに実行依頼されます。
- bsub -m "host[1-10,12,20-25].example.com"
ジョブは、 host10.example.comまで (を含む)、 host1.example.com、 host2.example.com、 host3.example.comに実行依頼されます。 また、 host12.example.com 、および host20.example.com と host25.example.comの間 (これらを含む) のホストにもサブミットされます。
- bsub -m
"host[1:10,20,30:39].example.com"
ジョブは、 host10.example.comまで (を含む)、 host1.example.com、 host2.example.com、 host3.example.comに実行依頼されます。 また、 host20.example.com 、および host30.example.com と host39.example.comの間 (これらを含む) のホストにもサブミットされます。
- bsub -m
"host[10-20,30,40:50].example.com"
ジョブは、 host20.example.comまで (を含む)、 host10.example.com、 host11.example.com、 host12.example.comに実行依頼されます。 また、 host30.example.com 、および host40.example.com と host50.example.comの間 (これらを含む) のホストにもサブミットされます。
- bsub -m
"host[01-03,05,07:09].example.com"
ジョブは、 host03.example.comまで (を含む) host01.example.comに実行依頼されます。 また、 host05.example.com、およびhost07.example.com と host09.example.comの間 (これらを含む) のホストにもサブミットされます。
- bsub -m
"hostA[1-2]B[1-3,5].example.com"
ジョブは、 hostA1B1.example.com、 hostA1B2.example.com、 hostA1B3.example.com、 hostA1B5.example.com、 hostA2B1.example.com、 hostA2B2.example.com、 hostA2B3.example.com、および hostA2B5.example.comに実行依頼されます。
LSF サーバーへの LSF ホスト名および IP アドレスの登録
ローカル LSF ホストの IP とホスト名を LSF サーバーに登録できるようになりました。これにより、 LSF が DNS サーバーを使用してローカル・ホストを解決する必要がなくなります。 これは、IP アドレスの変更後に DNS サーバーがこれらのホストを適切に解決できない環境で、非静的 IP アドレスを持つ LSF ホストのホスト名と IP アドレスを解決するという以前の問題に対処します。
ホスト登録を有効にするには、各 LSF サーバーの lsf.conf ファイルで LSF_REG_FLOAT_HOSTS=Y を指定するか、すべてのサーバーが LSB_SHAREDIR ディレクトリーにアクセスできる場合は 1 つの LSF サーバーでを指定します。 このパラメーターは、 LSF デーモンがホスト名または IP アドレスを検索しようとするときに、 reghostscache ファイル内のレコードを検索できるようにします。
デフォルトでは、 reghostscache ファイルは、 lsf.conf ファイルの LSB_SHAREDIR パラメーターで定義されたファイル・パスに保管されます。 reghostscache ファイルをできるだけ多くの LSF サーバーと共有できるように、 LSB_SHAREDIR パラメーターを定義します。 LSB_SHAREDIR パラメーターで定義された共有ディレクトリーにアクセスできるすべての LSF サーバーの場合、これらのサーバーの 1 つのみがローカル・ホストから登録要求を受信する必要があります。 reghostscache ファイルは、登録要求を送信する必要があるサーバーの数を減らすことによって、ネットワーク負荷を削減します。 クラスター内のすべてのホストが共有ディレクトリーにアクセスできる場合、登録はマスター LIM にのみ送信する必要があります。 マスター LIM は、他のすべてのサーバーがアクセスできる共有 reghostscache ファイルにホスト情報を記録します。 LSB_SHAREDIR パラメーターが定義されていない場合、 reghostscache ファイルは LSF_TOP ディレクトリーに配置されます。
MyHost1 192.168.1.2 S-1-5-21-5615612300-9789239785-9879786971
登録する Windows ホストのコンピューター SID は、レコードの一部として組み込まれます。 既に登録済みのホストから登録要求を受け取ったが、その SID が reghostscache ファイル内の対応するレコードの SID と一致しない場合。 この新しい登録要求は拒否されます。これにより、悪意のあるホストが別のホストの名前を模倣して、それ自体を別のホストとして登録することを防止できます。
ホスト登録を有効にした後、ローカル・ホストから lsreghost コマンドを実行して LSF ホストを登録できます。 hostregsetup ファイルへのパスを指定します。
- UNIX の場合: lsreghost -s file_path/hostregsetup
root 権限で UNIX コマンドを実行する必要があります。 ローカル・ホストを定期的に登録する場合は、このコマンドを実行するクーロン・ジョブをセットアップします。
- Windows の場合: lsreghost -i file_path\hostregsetup
Windows コマンドは、ホストの始動時に自動的に始動する Windows サービスとして lsreghost をインストールします。
hostregsetup ファイルは、ローカル・ホストが自身を登録する必要がある LSF サーバーの名前を持つテキスト・ファイルです。 ファイルの各行には、1 つの LSF サーバーのホスト名が含まれています。 空の行と #comment テキストは無視されます。
bmgroup コマンドは、 IBM® Spectrum LSF マルチクラスター機能 のリソース・リース・モデル内の専用ホストを表示します。
bmgroup コマンドは、各グループまたはユニットの計算ユニット、ホスト・グループ、ホスト名、および管理者を表示します。 リソース・リース・モデルの場合、デフォルトでは、リースされたホストを持つホスト・グループは以下のように表示されます。allremotein theHOSTS列。
これで、以下の項目を展開できます。allremotebmgroupを持つホスト・グループ内のリース・イン・ホストのリストを表示するためのキーワード。
デフォルトでは、HOSTS列には、次の形式でリースされたホストのリストが表示されるようになりました。host_name@cluster_name.
例えば、 cluster_1 が、 host_Aのみを含む master_hosts という名前のホスト・グループを定義し、 remote_hosts という名前のホスト・グループをメンバーとして定義し、 cluster_2 に host_B と host_C が含まれており、両方とも cluster_1によってリースされているとします。
GROUP_NAME HOSTS
master_hosts host_A
remote_hosts host_B@cluster_2 host_C@cluster_2GROUP_NAME HOSTS
master_hosts host_A
remote_hosts allremoteLSF on Cray の CSA は、RUR ジョブ・アカウンティングに置き換えられました。
LSF Cray Linuxとの統合では、包括的なシステム・アカウンティング (CSA) が非推奨になり、Resource Utility Reporting (RUR) に置き換えられました。
- LSF_CRAY_RUR_ACCOUNTING
- ご使用の Cray 環境で RUR が使用可能になっていない場合に RUR ジョブ・アカウンティングを使用不可にするか、またはパフォーマンスを向上させるには、 N を指定します。 デフォルト値は Y (有効) です。
- LSF_CRAY_RUR_DIR
- RUR データ・ファイルの場所。これは、任意の潜在的な最初の実行ホストからアクセス可能な共有ファイル・システムです。 デフォルト値は LSF_SHARED_DIR/<cluster_name>/craylinux/<cray_machine_name>/rur です。
- LSF_CRAY_RUR_PROLOG_PATH
- RUR プロローグ・スクリプト・ファイルへのファイル・パス。 デフォルト値は /opt/cray/rur/default/bin/rur_prologue.py です。
- LSF_CRAY_RUR_EPILOG_PATH
- RUR エピローグ・スクリプト・ファイルへのファイル・パス。 デフォルト値は /opt/cray/rur/default/bin/rur_epilogue.py です。
RUR は、ホスト・ベースのリソース使用 (LSF_HPC_EXTENSIONS="HOST_RUSAGE") をサポートしません。
LSF 管理者は、出力プラグインを含む RUR プラグインを使用可能にして、 LSF_CRAY_RUR_DIR ディレクトリーにジョブごとのアカウンティング・ファイル (rur.<job_id>) またはフラット・ファイル (rur.output) が含まれるようにする必要があります。