lsf.cluster
クラスター構成ファイル。 クラスターごとに、 lsf.cluster.cluster_nameという名前のファイルが 1 つあります。 cluster_name サフィックスは、 lsf.shared ファイルの Cluster セクションで定義されたクラスターの名前です。 このファイルには、すべての LSF ホストが、 LSF 管理者およびインストール済みの LSF 機能のリストとともにリストされています。
lsf.cluster 構成の変更
- lsadmin reconfig (LIM を再構成する場合)
- badmin mbdrestart 再始動する mbatchd
- LIM を再始動する lsadmin limrestart (変更されたすべての非管理 ホスト上)
場所
このファイルは通常、 LSF_ENVDIRによって定義されたディレクトリーにインストールされます。
構造
ParametersセクションClusterAdminsセクションHostセクションResourceMapセクションRemoteClustersセクション
「パラメーター」セクション
lsf.cluster について
- クラスター定義情報
- すべての LSF アプリケーションに影響します。 クラスター管理者、クラスターを構成するホスト、個々のホストの属性 (ホスト・タイプやホスト・モデルなど)、および lsf.sharedで定義された名前を使用するリソースを定義します。
- LIM ポリシー情報
- LIM ジョブ配置ポリシーに依存するアプリケーションに影響します。 LIM によって提供されるロード共有およびジョブ配置ポリシーを定義します。
パラメーター
- ADJUST_DURATION
- ELIM_ABORT_VALUE
- ELIM_POLL_INTERVAL
- ELIMARGS
- EXINTERVAL
- FLOAT_CLIENTS
- FLOAT_CLIENTS_ADDR_RANGE
- HOST_INACTIVITY_LIMIT
- LSF_ELIM_BLOCKTIME
- LSF_ELIM_DEBUG
- LSF_ELIM_RESTARTS
- LSF_HOST_ADDR_RANGE
- MASTER_INACTIVITY_LIMIT
- PROBE_TIMEOUT
- RETRY_LIMIT
損害査定期間
構文
ADJUST_DURATION=整数
説明
ロード調整が有効になっている期間を制御する EXINTERVAL の倍数を反映する整数。
lsplace および lsloadadj コマンドは、選択されたホストの負荷を人為的に増加させます。 この負荷の増加は、時間の経過とともに 0 に直線的に減衰します。
デフォルト
3
最小打ち切り値
構文
ELIM_ABORT_VALUE=整数説明
ELIM の打ち切りをトリガーする整数。
デフォルト
97 (トリガー打ち切り)
ポーリング間隔の除去
構文
ELIM_POLL_INTERVAL=秒
説明
LIM が外部ロード索引情報をサンプリングする時間間隔 (秒単位)。 elim 実行可能プログラムが、5 秒ごとよりも頻繁に値を報告するようにプログラムされている場合は、対応する速度で情報をサンプリングするように ELIM_POLL_INTERVAL を設定します。
有効値
0.001 から 5
デフォルト
5 秒
ELIMARGS 社
構文
除去引数 =cmd_line_args
説明
始動時に elim 実行可能プログラムが必要とするコマンド行引数を指定します。 外部ロード索引機能が有効になっている場合にのみ使用されます。
デフォルト
未定義
間隔を指定しない
構文
実行間隔 =time_in_seconds
説明
LIM デーモンがロード情報を交換する時間間隔 (秒単位)
非常にビジーなホストまたはネットワーク、あるいは多数のホストが存在するクラスターでは、負荷が LIM デーモン間の定期的な通信を妨害する可能性があります。 EXINTERVAL をより長い間隔に設定すると、動的ロードの変更に対する反応が遅くなることを犠牲にして、ネットワークの負荷を軽減し、信頼性を少し向上させることができます。
時間間隔を 5 秒未満として定義すると、 LSF によって自動的に 5 秒にリセットされることに注意してください。
デフォルト
15 秒
浮動小数点クライアント
構文
浮動クライアントの数 =number_of_floating_clients
説明
クラスター内のフローティング・クライアントの最大許容サイズを設定します。 lsf.cluster.cluster_name ファイルに FLOAT_CLIENTS が指定されていない場合、浮動 LSF クライアント・フィーチャーは使用不可になります。
LSF フローティング・クライアント機能が有効になっている場合、すべてのホストがクラスターにジョブをサブミットできます。 lsf.cluster.cluster_name ファイル内のパラメーター FLOAT_CLIENTS_ADDR_RANGE を使用して、 LSF フローティング・クライアントにできるホストを制限することができます。
デフォルト
未定義
フローティング・クライアントのアドレス範囲
構文
FLOAT_CLIENTS_ADDR_RANGE=IP_address...
説明
IPv6 アドレスを使用するには、 lsf.confでパラメーター LSF_ENABLE_SUPPORT_IPV6 を定義する必要があります。
FLOAT_CLIENT_ADDR_RANGE の値が未定義の場合、セキュリティーはなく、どのホストも LSF フローティング・クライアントにすることができます。
値が定義されている場合、セキュリティーは有効になります。 この変数の構成にエラーがある場合、デフォルトでは、どのホストも LSF フローティング・クライアントにすることはできません。
このパラメーターを定義すると、ドメインに属さないクライアント・ホストはアクセスを拒否されます。
要求側ホストが、指定された範囲内にある IP アドレスに属している場合、そのホストは浮動クライアントになるために受け入れられます。
IP アドレスは、 OR 操作を示すスペースで区切られます。
- 範囲が指定されていない場合、すべての IPv4 および IPv6 クライアントが要求を実行依頼できます。
- IPv4 範囲のみが指定され、その範囲内の IPv4 クライアントのみが要求を実行依頼できます。
- IPv6 範囲のみが指定され、その範囲内の IPv6 クライアントのみが要求を実行依頼できます。
- 指定された IPv6 および IPv4 範囲、範囲内の IPv6 および IPv4 クライアントの両方が要求を実行依頼できます。
アスタリスク (*) 文字は、任意の値が許可されることを示します。
ダッシュ (-) 文字は、値の明示的な範囲を示します。 例えば、1 から 4 は、1、2、3、4 が許可されることを示します。
* -30 や 10-* などのオープン範囲は許可されます。
10.161などの IP アドレスよりフィールド数が少ない範囲を指定すると、 10.161.*. * と見なされます。
アドレス範囲は構成時に検証されるため、必要な形式に準拠する必要があります。 いずれかのアドレス範囲が正しい形式でない場合、ホストは LSF 浮動クライアントとして受け入れられず、エラー・メッセージが LIM ログに記録されます。
このパラメーターは 2048 文字に制限されています。
IPv6 アドレスの場合、二重コロン記号 (::) は、16 ビットのゼロの複数グループを示します。 次の例に示すように、(::) を使用して、アドレス・フィルターの先行ゼロと後続ゼロを圧縮することもできます。
FLOAT_CLIENTS_ADDR_RANGE=1080::8:800:20fc:*
この定義により、アドレス 1080:0:0:0:8:800:20fc:* (3 つの先行ゼロ) を持つホストが許可されます。
1 つの IP アドレス内で二重コロン (::) を複数回使用することはできません。 (::) の前または後にゼロを使用することはできません。 例えば、 1080:0::8:800:20fc:* は有効なアドレスではありません。
ノート
FLOAT_CLIENTS_ADDR_RANGEを構成した後、 lim.log.host_name ファイルを調べて、このパラメーターが正しく設定されていることを確認してください。 このパラメーターが設定されていないか間違っている場合は、ログ・ファイルに示されます。
例
FLOAT_CLIENTS_ADDR_RANGE=100
- IPv4 ホストのみを指定するには、値を 100.* に設定します。
- IPv6 ホストのみを指定するには、値を 100:* に設定します。
FLOAT_CLIENTS_ADDR_RANGE=100-110.34.1-10.4-56
ドメインに属するすべてのクライアント・ホストは、最初の数値が 100 から 110、次に 34、次に 1 から 10 の間の数値、そして 4 から 56 の間の数値がアクセスを許可されます。 例: 100.34.9.45、 100.34.1.4、 102.34.3.20など。 IPv6 ホストは許可されません。
FLOAT_CLIENTS_ADDR_RANGE=100.172.1.13 100.*.30-54 124.24-*.1.*-34
アドレス 100.172.1.13 のドメインに属するすべてのクライアント・ホストがアクセスを許可されます。 100 から始まり、任意の数、30 から 54 までの範囲のドメインに属するすべてのクライアント・ホストがアクセスを許可されます。 124 で始まるドメインに属するすべてのクライアント・ホスト、次に 24 から 1、次に 0 から 34 までの範囲のクライアント・ホストがアクセスを許可されます。 IPv6 ホストは許可されません。
FLOAT_CLIENTS_ADDR_RANGE=12.23.45.*
12.23.45 で始まるドメインに属するすべてのクライアント・ホストが許可されます。 IPv6 ホストは許可されません。
FLOAT_CLIENTS_ADDR_RANGE=100.*43
この*文字は任意の値を示すためにのみ使用できます。 この例では、エラーが LIM ログに挿入され、どのホストも LSF 浮動クライアントになることは受け入れられません。 IPv6 ホストは許可されません。
FLOAT_CLIENTS_ADDR_RANGE=100.*43 100.172.1.13
正しいアドレス範囲が 1 つ指定されていますが、* 43 は正しい形式ではないため、行全体が無効と見なされます。 LIM ログにエラーが挿入され、LSF フローティング・クライアントになるホストは受け入れられません。 IPv6 ホストは許可されません。
FLOAT_CLIENTS_ADDR_RANGE = 3ffe
3ffe で始まるドメイン・アドレスを持つすべてのクライアント IPv6 ホストがアクセスを許可されます。 IPv4 ホストは許可されません。
FLOAT_CLIENTS_ADDR_RANGE = 3ffe:fffe::88bb:*
3ffe:fffe:0:0:0:0:88bb:*に展開します。 3ffe:fffe::88bb:* で始まるドメインに属するすべての IPv6 クライアント・ホストが許可されます。 IPv4 ホストは許可されません。
FLOAT_CLIENTS_ADDR_RANGE = 3ffe-4fff:fffe::88bb:aa-ff 12.23.45.*
3ffe から 4fffまでのドメインに属するすべての IPv6 クライアント・ホスト、次に fffe::88bb、そして aa から ff までのドメインが許可されます。 12.23.45 で始まるドメインに属するすべての IPv4 クライアント・ホストが許可されます。
FLOAT_CLIENTS_ADDR_RANGE = 3ffe-*:fffe::88bb:*-ff
3ffe から ffff までで始まり、0 から ff までで終わるドメインに属するすべての IPv6 クライアント・ホストが許可されます。 IPv4 ホストは許可されません。
デフォルト
未定義。 セキュリティーは有効になっていません。 どのドメインのどのホストも、LSF フローティング・クライアントへのアクセスを許可されます。
関連資料
LSF_ENABLE_SUPPORT_IPV6
ホスト・アクティブ化の制限
構文
HOST_INACTIVITY_LIMIT=整数
説明
すべてのパーティーが機能していることを確認するために 親 と サーバー ・ホスト LIMs の間の通信に設定した期間を EXINTERVAL で乗算した整数。
サーバー ・ホスト LIM は、EXINTERVAL から (HOST_INACTIVITY_LIMIT-1) *EXINTERVAL 秒までいつでもロード情報を送信できます。 管理 ホスト LIM は、少なくとも EXINTERVAL* (HOST_INACTIVITY_LIMIT-1) 秒ごとに各ホストにアナウンスを送信します。
HOST_INACTIVITY_LIMIT は 2 以上でなければなりません。
ホストの非アクティブ制限を増減して、 親 と 子の間の通信の許容度を調整します。 例えば、頻繁に非アクティブになるホストがある場合は、ホストの非アクティブ制限を減らします。 適切な間隔を取得するには、EXINTERVAL を調整することも必要になる場合があることに注意してください。
デフォルト
5
lsf_elim_blocktime
構文
LSF_ELIM_BLOCKTIME=秒
説明
UNIX のみ。外部ロード索引機能が有効になっている場合に使用されます。
親 外部ロード情報マネージャー (MELIM) が elim 実行可能ファイルからの完全なロード更新ストリングを待機する最大時間。 LSF_ELIM_BLOCKTIME で指定された期間の後、MELIM は elim によって送信された最後のストリングを LIM ログ・ファイル (lim.log.host_name) に書き込み、 elimを再始動します。
LSF_ELIM_BLOCKTIME を定義すると、 elim が LSF_ELIM_BLOCKTIME に指定された時間内に完全なロード更新ストリングを書き込まない場合に、MELIM が elim 実行可能プログラムを再始動するようにもトリガーされます。
有効値
負でない整数。 例えば、 elim が 1 秒間隔で名前と値のペアを書き込み、 elim が 12 個のロード索引を報告する場合、 elim がロード更新ストリング全体の書き込みを終了するまで、少なくとも 12 秒待ってください。 この場合は、LSF_ELIM_BLOCKTIME を 15 秒以上として定義してください。
値 0 は、MELIM がロード・ストリング全体を一度に受け取ることを想定していることを示します。
LSF_ELIM_BLOCKTIME をコメント化または削除すると、MELIM は完全なロード更新ストリングを 2 秒待機します。
デフォルト
4 秒
関連資料
ELIM を再始動できる回数を制限するためのLSF_ELIM_大半の再始動回数。
LSF_ELIM_DEBUG
構文
LSF_ELIM_DEBUG=Y
説明
UNIX のみ。外部ロード索引機能が有効になっている場合に使用されます。
このパラメーターが以下のように設定されている場合yロード情報マネージャー (LIM) が 親 外部ロード情報マネージャー (MELIM) から受け取ったすべての外部ロード情報は、LIM ログ・ファイル (lim.log.host_name) に記録されます。
LSF_ELIM_DEBUG を定義すると、 elim が LSF_ELIM_BLOCKTIME に指定された時間内に完全なロード更新ストリングを書き込まない場合に、MELIM が elim 実行可能プログラムを再始動するようにもトリガーされます。
デフォルト
未定義。MELIM によって送信された外部ロード情報はログに記録されません。
関連資料
LSF_ELIM_BLOCKTIME。ELIM を再始動する前に LIM が待機する時間を構成します。
ELIM を再始動できる回数を制限するためのLSF_ELIM_大半の再始動回数。
Lsf_エリリスタート
構文
LSF_ELIM_RESTARTS=整数
説明
UNIX のみ。外部ロード索引機能が有効になっている場合に使用されます。
ホスト上で 親 外部ロード情報マネージャー (MELIM) が elim 実行可能プログラムを再始動できる最大回数。 このパラメーターを定義すると、 elimに障害が発生した場合に、進行中の再始動ループが発生しないようにすることができます。 MELIM は、 elimを再始動する前に、完全なロード更新ストリングを受け取るために LSF_ELIM_BLOCKTIME を待機します。 MELIM は、ELIM_ABORT_VALUE で終了する elim 実行可能プログラムを再始動しません。
LSF_ELIM_BLOCKTIME または LSF_ELIM_DEBUG のいずれかを定義する必要があります。これらのパラメーターを定義すると、 elim 実行可能ファイルを再始動するために MELIM がトリガーされます。
有効値
負でない整数。
デフォルト
未定義。 elim の再始動回数に制限はありません。
関連資料
LSF_ELIM_BLOCKTIME、LSF_ELIM_DEBUG
lsf_host_addr_range
構文
LSF_HOST_ADDR_RANGE=IP_address...
説明
インストール後に動的に追加されたホストを使用可能にするには、 lsf.cluster.cluster_nameで LSF_HOST_ADDR_RANGE を定義し、 lsf.confで LSF_DYNAMIC_HOST_WAIT_TIME を定義する必要があります。 インストール時に動的ホストを有効にする場合は、インストール後にセキュリティーを有効にするための IP アドレス範囲を定義する必要があります。
値が定義されている場合、ホストを動的に追加および削除するためのセキュリティーが有効になり、指定された範囲内の IP アドレスを持つホストのみをクラスターに動的に追加またはクラスターから動的に削除できます。
IPv6 アドレスを使用するには、 lsf.confでパラメーター LSF_ENABLE_SUPPORT_IPV6 を定義する必要があります。
LSF_HOST_ADDR_RANGE の構成にエラーがある場合 (例えば、アドレス範囲が正しい形式ではない場合)、ホストは動的にクラスターに結合することができず、エラー・メッセージが LIM ログに記録されます。 アドレス範囲は、始動時、再構成時、または再始動時に検証されるため、必要なフォーマットに準拠する必要があります。
要求側ホストが、指定された範囲内にある IP アドレスに属している場合、そのホストは動的 LSF ホストになるために受け入れられます。
IP アドレスはスペースで区切られ、「OR」の代替と見なされます。
- 範囲が指定されていない場合、すべての IPv4 および IPv6 クライアントが許可されます。
- IPv4 範囲のみが指定され、その範囲内の IPv4 クライアントのみが許可されます。
- IPv6 範囲のみが指定され、その範囲内の IPv6 クライアントのみが許可されます。
- 指定された IPv6 および IPv4 範囲、範囲内の IPv6 および IPv4 クライアントの両方が許可されます。
アスタリスク (*) 文字は、任意の値が許可されることを示します。
ダッシュ (-) 文字は、値の明示的な範囲を示します。 例えば、1 から 4 は、1、2、3、4 が許可されることを示します。
* -30 や 10-* などのオープン範囲は許可されます。
IPv6 アドレスの場合、二重コロン記号 (::) は、16 ビットのゼロの複数グループを示します。 次の例に示すように、(::) を使用して、アドレス・フィルター内の先行ゼロと後続ゼロを圧縮することもできます。
LSF_HOST_ADDR_RANGE=1080::8:800:20fc:*
この定義により、アドレス 1080:0:0:0:8:800:20fc:* (3 つの先行ゼロ) を持つホストが許可されます。
IP アドレス内で二重コロン (::) を複数回使用することはできません。 (::) の前または後にゼロを使用することはできません。 例えば、 1080:0::8:800:20fc:* は有効なアドレスではありません。
10.161などの IP アドレスよりフィールド数が少ない範囲を指定すると、 10.161.*. * と見なされます。
このパラメーターは 2048 文字に制限されています。
ノート
LSF_HOST_ADDR_RANGE を構成した後、 lim.log.host_name ファイルを調べて、このパラメーターが正しく設定されていることを確認してください。 このパラメーターが設定されていないか間違っている場合は、ログ・ファイルに示されます。
例
LSF_HOST_ADDR_RANGE=100
- IPv4 ホストのみを指定するには、値を 100.* に設定します。
- IPv6 ホストのみを指定するには、値を 100:* に設定します。
LSF_HOST_ADDR_RANGE=100-110.34.1-10.4-56
最初の数値が 100 から 110 まで、次に 34 まで、次に 1 から 10 までの間の数値、次に 4 から 56 までの間の数値を持つアドレスを持つドメインに属するすべてのホストがアクセスを許可されます。 IPv6 ホストは許可されません。 例: 100.34.9.45、 100.34.1.4、 102.34.3.20など。
LSF_HOST_ADDR_RANGE=100.172.1.13 100.*.30-54 124.24-*.1.*-34
アドレス 100.172.1.13 のホストはアクセスを許可されます。 100 から始まり、その後に任意の数が続き、30 から 54 までの範囲のドメインに属するすべてのホストがアクセスを許可されます。 124 から始まり、24 から始まり、1 から始まり、0 から 34 までのドメインに属するすべてのホストがアクセスを許可されます。 IPv6 ホストは許可されません。
LSF_HOST_ADDR_RANGE=12.23.45.*
12.23.45 で始まるドメインに属するすべてのホストが許可されます。 IPv6 ホストは許可されません。
LSF_HOST_ADDR_RANGE=100.*43
この*文字は任意の値を示すためにのみ使用できます。 この例の形式は正しくありません。エラーが LIM ログに挿入され、どのホストも動的にクラスターに結合できなくなります。 IPv6 ホストは許可されません。
LSF_HOST_ADDR_RANGE=100.*43 100.172.1.13
正しいアドレス範囲が 1 つ指定されていますが、* 43 は正しい形式ではないため、行全体が無効と見なされます。 LIM ログにエラーが挿入され、どのホストもクラスターに動的に結合できなくなります。 IPv6 ホストは許可されません。
LSF_HOST_ADDR_RANGE = 3ffe
ドメイン・アドレスが以下で始まるすべてのクライアント IPv6 ホスト3ffeアクセスが許可されます。 IPv4 ホストは許可されません。
LSF_HOST_ADDR_RANGE = 3ffe:fffe::88bb:*
展開3ffe:fffe:0:0:0:0:88bb:*. 3ffe:fffe::88bb:* で始まるドメインに属するすべての IPv6 クライアント・ホストが許可されます。 IPv4 ホストは許可されません。
LSF_HOST_ADDR_RANGE = 3ffe-4fff:fffe::88bb:aa-ff 12.23.45.*
次で始まるドメインに属するすべての IPv6 クライアント・ホスト3ffe最大4fff、次に、fffe::88bb、および次で終わるaa最大ff許可されます。 12.23.45 で始まるドメインに属する IPv4 クライアント・ホストが許可されます。
LSF_HOST_ADDR_RANGE = 3ffe-*:fffe::88bb:*-ff
次で始まるドメインに属するすべての IPv6 クライアント・ホスト3ffe最大ffff0 で終了します。ff許可されます。 IPv4 ホストは許可されません。
デフォルト
未定義 (動的ホスト機能が使用不可)。 インストール時に動的ホストを有効にすると、セキュリティーは有効にならず、すべてのホストがクラスターに参加できます。
関連資料
LSF_ENABLE_SUPPORT_IPV6
MASTER_INACTIVITY_LIMIT (平均値の制限)
構文
MASTER_INACTIVITY_LIMIT=整数
説明
EXINTERVAL の倍数を反映する整数。 サーバー ・ホストは、(HOST_INACTIVITY_LIMIT +host_number*MASTER_INACTIVITY_LIMIT) *EXINTERVAL 秒 ( host_number は lsf.cluster.cluster_name内のホストの位置) 後に以前の 管理 ホストからの応答がない場合、 管理 ホストになろうとします。
management ホストは host_number 0 です。
デフォルト
2
タイムアウトになりました
構文
PROBE_TIMEOUT=time_in_seconds
説明
以下に使用されるタイムアウトを秒単位で指定します。connect(2) システム・コール
サーバー ・ホスト LIM は、 管理 ホストとしてテークオーバーする前に、TCP を介して最後に認識された 管理 ホストへの接続を試行します。
デフォルト
2 秒
RETRY_LIMIT (再試行限界)
構文
RETRY_LIMIT=整数
説明
サーバー または 管理 ホストが使用不可であると想定する前に 親 または 子 LIM が行う再試行回数を制御する、EXINTERVAL の倍数を反映する整数。
管理 ホストは、HOST_INACTIVITY_LIMIT 交換間隔について サーバー ・ホストからの応答を受信しない場合、 サーバー ・ホストを使用不可と宣言する前に、RETRY_LIMIT 交換間隔について サーバー ・ホストをアクティブにポーリングします。 サーバー は、HOST_INACTIVITY_LIMIT 交換間隔について management ホストからの応答を受信しない場合、 management ホストがダウンしていると想定する前に、 management ホストの RETRY_LIMIT 間隔をアクティブにポーリングします。
デフォルト
2
ClusterAdmins セクション
(オプション)ClusterAdminsセクションは、クラスターの LSF 管理者を定義します。 唯一のキーワードは ADMINISTRATORS です。
もしClusterAdminsセクションが存在しない場合、デフォルトの LSF 管理者は rootです。 1 次 LSF 管理者として root を使用することは推奨されません。
管理者
構文
管理者 =administrator_name ...
説明
UNIX ユーザー名を指定します。
UNIX ユーザー・グループ名、Windows ユーザー名、および Windows ユーザー・グループ名を指定することもできます。 Windows ユーザー・アカウントまたはユーザー・グループを指定するには、ドメイン名を大文字で指定します (DOMAIN_NAME¥user_name または DOMAIN_NAME¥user_group)。
拡張リストの最初の管理者は、1 次 LSF 管理者と見なされます。 1 次管理者は、 LSB_SHAREDIR/cluster_nameの下の作業ファイルだけでなく、LSF 構成ファイルの所有者でもあります。 1 次管理者が変更された場合は、構成ファイルの所有者と LSB_SHAREDIR/cluster_name の下のファイルも変更されていることを確認してください。
1 次 LSF 管理者以外の管理者は、LSF 構成ファイルを変更する権限がないことを除き、1 次 LSF 管理者と同じ特権を持ちます。 システム内のジョブ、キュー、またはホストに対してクラスター全体の操作を実行できます。
柔軟性を確保するために、各クラスターには、ユーザー名で識別される独自の LSF 管理者が存在する場合があります。ただし、同じ管理者が複数のクラスターに対して責任を持つことができます。
クラスター内のすべての管理者を表示するには、 lsclusters コマンドの -l オプションを使用します。
- 指定されたユーザーまたはユーザー・グループがドメイン管理者である場合は、Power Usersグループまたはドメイン管理特権を持つグループ。指定されたユーザーまたはユーザー・グループは、LSF ユーザー・ドメインに属している必要があります。
- 指定されたユーザーまたはユーザー・グループが、前のポイントで概説したよりも低いレベルの特権を持つユーザーまたはユーザー・グループである場合、そのユーザーまたはユーザー・グループは、LSF ユーザー・ドメインに属し、グローバル管理者グループに属している必要があります。
Windows ワークグループ
- 指定されたユーザーまたはユーザー・グループがワークグループ管理者でない場合は、Power Usersグループ、または各ホスト上の管理特権を持つグループ。指定されたユーザーまたはユーザー・グループは、各ホスト上のローカル管理者グループに属している必要があります。
互換性
後方互換性のために、 ClusterManager および Manager は、以下の同義語です。ClusterAdminsおよび ADMINISTRATORS。 異なる LSF バージョンのデーモンが同じファイルを共有できるようにするために、同じ lsf.cluster.cluster_name ファイル内に両方のセクションを含めることができます。
例
Begin ClusterAdmins
ADMINISTRATORS = user2 user7
End ClusterAdminsデフォルト
lsfadmin
ホスト・セクション
Host セクションは、 lsf.cluster.cluster_name の最後のセクションであり、唯一の必須セクションです。 クラスター内のすべてのホストがリストされ、各ホストの構成情報が示されます。
リストされている最初のホストが LSF 管理 ホストになるため、このセクションにリストされているホストの順序は重要です。 親 LIM はクラスターのすべての配置決定を行うため、高速マシンを management ホストとして設定します。
リストされている最初のホスト上の LIM は、このホストが稼働している場合は 管理 ホスト LIM になります。稼働していない場合は、2 番目のホスト上の LIM は、そのホストが稼働している場合は 管理 ホスト LIM になり、以降も同様になります。 また、最初のマシンがダウンした場合に management ホスト LIMs の切り替えに伴う遅延を回避するために、 management ホストが信頼できるマシンであることを確認してください。 リスト内の最初のいくつかのホストが常に同じサブネット内に存在するようにリストを配置します。 これにより、サブネット間の通信に問題がある場合に、2 番目のホストが 管理 ホストとしてテークオーバーする状況を回避できます。
ホスト・セクションの例
Host セクションには、3 つのホストの記述情報が含まれています。Begin Host
HOSTNAME model type server RESOURCES RUNWINDOW
hostA SparcIPC Sparc 1 (sunos frame) ()
hostD Sparc10 Sparc 1 (sunos) (5:18:30-1:8:30)
hostD ! ! 1 () ()
hostE ! ! 1 (linux !bigmem) ()
End Host記述フィールド
Host セクションでは、以下のフィールドが必須です。- HOSTNAME
- RESOURCES
- type
- model
- server
- nd
- RUNWINDOW
- REXPRI
ホスト名
説明
返されるホストの正式名。hostname(1)
この名前は、このクラスターに属するものとして lsf.shared にリストされている必要があります。
パターン定義
ホスト名を定義するときには、ストリング・リテラルと特殊文字を使用できます。 リスト自体がスペースで区切られているため、各項目にスペースを含めることはできません。
- ホスト名の任意の場所に負でない整数の範囲を定義するには、大括弧をハイフン ([integer1-integer2]) またはコンマ ([integer1:integer2]) と共に使用します。 最初の整数は 2 番目の整数より小さくなければなりません。
- 大括弧とコンマ ([integer1, integer2 ...]) を使用します。 ホスト名の任意の場所に個々の負でない整数を定義します。
- 大括弧とコンマ、およびハイフン またはコロン (例えば、[integer1-integer2, integer3, integer4:integer5, integer6:integer7]) を使用して、ホスト名の負でない整数の範囲を定義します。
- ホスト名の任意の場所に負でない整数の複数のセットを定義するには、(サポートされる特殊文字を使用して) 大括弧の複数のセットを使用します。 例えば、hostA[1,3 ]B[1-3]にはhostA1B1 、hostA1B2 、hostA1B3 、hostA3B1 、hostA3B2 、 そしてhostA3B3 。
モデル
説明
ホスト・モデル
この名前は、 lsf.sharedの HostModel セクションで定義する必要があります。 これにより、負荷および配置の計算で適用される CPU 速度の倍率が決まります。
オプションで、 ! モデルまたはタイプ列のキーワード。ホスト上で実行されている LIM によってホスト・モデルまたはタイプが自動的に検出されることを示します。
:NONE.
説明
ローカル・ディスクの数
これは、 ndisks 静的リソースに対応します。 ほとんどのホスト・タイプでは、LSF が自動的にディスク数を決定し、nd パラメーターは無視されます。
nd は、ファイル・システムを持つローカル・ディスクのみをカウントする必要があります。 スワッピングにのみ使用されるディスク、または NFSでマウントされたディスクはカウントしないでください。
デフォルト
LIM によって決定されたディスクの数、または LIM がこれを判別できない場合は 1
リソース
説明
このホストで使用可能な静的ブール・リソースと、静的または動的な数値およびストリング・リソース。
(fs frame hpux)Begin Host
HOSTNAME model type server RESOURCES RUNWINDOW
...
hostE ! ! 1 (linux !bigmem) ()
...
End Host大括弧は無効であり、リソース名は英数字でなければなりません。
bsub -R "bigmem" myjobbsub -R "defined(bigmem)" myjobBegin Host
HOSTNAME model type server RESOURCES #Keywords
hostA ! ! 1 (mg elimres patchrev=3 owner=user1)
hostB ! ! 1 (specman=5 switch=1 owner=test)
hostC ! ! 1 (switch=2 rack=rack2_2_3 owner=test)
hostD ! ! 1 (switch=1 rack=rack2_2_3 owner=test)
End Host静的リソース情報は、 lshostsによって表示され、排他的リソースの接頭部と感嘆符 (!) が付きます。
REXPRI (R)
説明
UNIX のみ
RES の下で実行される対話式リモート・ジョブのデフォルトの実行優先順位
範囲は -20 から 20 までです。 REXPRI は、リモート・ジョブに使用される BSD スタイルの nice 値に対応します。 0 から 39 の範囲の System V スタイルの nice 値を持つホストの場合、-20 の REXPRI は 0 の nice 値に対応し、+20 は 39 に対応します。 REXPRI の高い値は低い実行優先順位に対応します。-20 は最高の優先順位を示し、0 はログイン・セッションのデフォルトの優先順位を示し、+20 は最低の優先順位を示します。
デフォルト
0
実行時間枠
説明
対話式タスクのディスパッチ・ウィンドウ。
ホストがリモート実行に使用できない場合、ホスト状況は次のようになります。lockW(実行ウィンドウによってロックされます)。 LIM は、ディスパッチ・ウィンドウによってロックされたホスト上の対話式タスクをスケジュールしません。 実行ウィンドウは、LIM によって配置された対話式タスクにのみ適用されます。 LSF バッチ・システムは、独自の (オプションの) ホスト・ディスパッチ・ウィンドウを使用して、バッチ・サーバー・ホストでのバッチ・ジョブ処理を制御します。
フォーマット
ディスパッチ・ウィンドウは、 begin_time-end_time形式の 1 つ以上の時間ウィンドウで構成されます。 begin_time と end_timeをブランクで区切ることはできません。 時刻は [day:]hour[:minute] の形式で指定します。 フィールドが 1 つしか指定されていない場合、LSF はそれが 時間であると想定します。 hour:minuteという 2 つのフィールドが想定されます。 時間枠を区切るにはブランクを使用します。
デフォルト
常にリモート・ジョブを受け入れる
サーバー
説明
ホストが他のホストからジョブを受信できるかどうかを示します
ホストが他のホストからジョブを受信できる場合は 1 を指定し、それ以外の場合は 0 を指定します。 0 に設定されているサーバーは LSF クライアントです。 クライアント・ホストは LSF デーモンを実行しません。 クライアント・ホストは、対話式ジョブおよびバッチ・ジョブをクラスターにサブミットできますが、他のホストから送信されたジョブを実行することはできません。
デフォルト
1
タイプ
説明
lsf.shared の HostType セクションで定義されているホスト・タイプ
ホスト・タイプに使用されるストリングは、システム管理者 (例えば、SUNSOL、DEC、または HPPA) によって決定されます。 ホスト・タイプは、バイナリー互換ホストを識別するために使用されます。
ホスト・タイプは、デフォルトのリソース要件として使用されます。 つまり、配置要求でリソース要件が指定されていない場合、タスクは送信側ホストと同じタイプのホストで実行されます。
多くの場合、多くのマシン・モデルで 1 つのホスト・タイプを使用できます。 例えば、ホスト・タイプ名 SUNSOL6 は、 SunOS 6 を実行する SPARC プロセッサーを持つ任意のコンピューターに使用できます。 これには、多くの Sun モデルと、他のベンダーのかなりの数が含まれます。
オプションで、 ! モデルまたはタイプ列のキーワード。ホスト上で実行されている LIM によってホスト・モデルまたはタイプが自動的に検出されることを示します。
ResourceMap セクション
ResourceMap セクションは、クラスター内の共有リソースを定義します。 このセクションでは、共有リソースとその共有ホストとの間のマッピングを指定します。 lsf.sharedの Resources セクションでリソースを定義する場合、共有リソースと非共有リソースの区別はありません。 デフォルトでは、すべてのリソースは共有されず、各ホストに対してローカルです。 lsf.cluster.cluster_name ファイルで ResourceMap セクションを定義することにより、クラスター内のすべてのホストによって共有されるリソースを定義したり、クラスター内の一部のホストのみによって共有されるリソースを定義したりすることができます。
このセクションは、 Host セクションで定義されたホスト名に依存するため、 lsf.cluster.cluster_nameの Host セクションの後に指定する必要があります。
ResourceMap セクションの構造
最初の行は、キーワード RESOURCENAME および LOCATIONで構成されます。 後続の行には、各構成済みリソースに関連付けられているホストが記述されます。
ResourceMap セクションで定義されたリソースは、 lshosts (静的リソースの場合) コマンドおよび lsload (動的リソースの場合) コマンドの -s オプション (フィックスパック 14 以降では、 -sl オプションも使用) を使用して表示できます。
リソースの数を使用する ResourceMap セクションの例
Begin ResourceMap
RESOURCENAME LOCATION
verilog (5@[all])
local ([host1 host2] [others])
End ResourceMap
この例では、verilogおよびlocalリソース。 次の点に注意してください。verilogリソースは、 lsf.shared ファイルの RESOURCE セクションで既に定義されている必要があります。 このverilogリソースは、すべてのホストによって共有される静的数値リソースを使用します。つまり、値 (5) は、5 つのリソースがあることを示します。verilogリソース。 同様に、次のようになります。localresource は、クラスター内の 2 つのインスタンスを含む数値共有リソースです。 最初のインスタンスは、以下の 2 つのマシンによって共有されます。host1およびhost22 番目のインスタンスは、他のすべてのホストによって共有されます。
リソースの特定名を使用する ResourceMap セクションの例
Begin ResourceMap
RESOURCENAME LOCATION
fpga ([card1 card2 card3]@[all])
switch ([switch1 switch2]@[host1] 3@[others])
End ResourceMap
フィックスパック 14 以降、数値リソースの名前を定義することもできます。 リソース名を持つことができるのは、解放できない静的に減少する数値リソースのみであることに注意してください。 この例は、 fpga リソースと switch リソースを示しています。 両方のリソースが、 lsf.shared ファイルの RESOURCE セクションで既に定義されている必要があります。 fpga リソースには、 card1、 card2、および card3という 3 つの固有の名前付きリソースがあります。これらは、3 つのタイプの fpga リソースがあることを示します。
割り当てられたリソースを使用してジョブがディスパッチされると、 sbatchd は、 LSF_RESOURCE_resourcename___hostname 形式の環境変数に値 (例えば、 LSF_RESOURCE_fpga___host1=card1) を設定します。 その後、ジョブはその環境変数を検査して、どの名前と値が割り当てられているかを知ることができます。
LOCATION
説明
リソースを共有するホストを定義します。
静的リソースの場合は、ここでも初期値を定義する必要があります。 動的リソースには値を定義しないでください。
instance は、リソースのインスタンスを共有するホスト名のリストです。 予約語 all、 others、および default をインスタンスに指定できます。
all -クラスター全体にリソースのインスタンスが 1 つしかなく、このリソースがすべてのホストによって共有されていることを示します。
(2@[all ~host3 ~host4])これは、リソースの 2 つのユニットが、以下で構成されるクラスター内のすべてのサーバー・ホストによって共有されることを意味します。host1 host2 ...ホストn(以下を除く)host3およびhost4これは、大規模なクラスターがあり、少数のホストのみを除外したい場合に役立ちます。
指定には括弧が必要です。 NOT 演算子は、 all キーワードと一緒にのみ使用できます。 これは、キーワード others および defaultと一緒に使用することはできません。
others -LOCATION フィールドに明示的にリストされていない残りのサーバー・ホストが、リソースの 1 つのインスタンスを構成することを示します。
2@[host1] 4@[others] これは, システム上に 2 つの装置があることを示します。host1および他のすべてのホストによって共用される資源の 4 つの単位。
default キーワードは、クラスター内の各ホスト上のリソースのインスタンスを示します。
これは、リソースが共有されておらず、すべてのホストに対してローカルであるという特殊なケースを指定します。 default は、各ホストで使用することを意味します。 通常は、 defaultを使用する必要はありません。デフォルトでは、すべての組み込みリソースが各ホストに対してローカルであるためです。 ただし、定義したリソースは常にマップする必要があります。 異なるホスト上のリソースに異なる値を指定する必要がある場合は、非共有静的リソースに ResourceMap を使用することをお勧めします。
resourceName
説明
リソースの名前
- リソース名の先頭を数字にすることはできません
- リソース名には、以下の文字を含めることはできません。
: . ( ) [ + - * / ! & | < > @ = - リソース名は、以下の予約名のいずれにもすることはできません。
cpu cpuf io logins ls idle maxmem maxswp maxtmp type model status it mem ncpus define_ncpus_cores define_ncpus_procs define_ncpus_threads ndisks pg r15m r15s r1m swap swp tmp ut - サードパーティライブラリの infや nan キーワードとの衝突を避けるため、リソース名は infや nan (大文字でも小文字でも)で始まるべきではない。 リソース要求ストリング。例えば、以下のようなものがあります。-R "infra"または-R "nano"エラーが発生します。 使用-R "defined(infxx)"または-R "defined(nanxx)"これらのリソース名を指定します。
- リソース名は大/小文字を区別します
- リソース名の長さは最大 39 文字です
RemoteClusters セクション
オプションです。 このセクションは、 MultiCluster 環境でのみ使用されます。 デフォルトでは、ローカル・クラスターは、 lsf.sharedで指定された他のすべてのクラスターに関する情報を取得できます。 RemoteClusters セクションは、ローカル・クラスターが情報を取得できるクラスターを制限します。
クラスター同値、キャッシュ間隔、クラスター間のデーモン認証を構成する場合、またはクラスター間でパラレル・ジョブを実行する場合は、 RemoteClusters セクションが必要です。 この場合の互換性を維持するには、一部のクラスターのデフォルト動作のみを構成する場合でも、 lsf.sharedで指定されたすべてのクラスターがリストに含まれていることを確認してください。
最初の行はキーワードで構成されます。 CLUSTERNAME は必須で、その他のパラメーターはオプションです。
後続の回線はリモート・クラスターを構成します。
RemoteClusters セクションの例
Begin RemoteClusters
CLUSTERNAME EQUIV CACHE_INTERVAL RECV_FROM AUTH
cluster1 Y 60 Y KRB
cluster2 N 60 Y -
cluster4 N 60 N PKI
End RemoteClusters
clustername
説明
リモート・クラスター名
リモート・クラスター・リストを定義します。 ローカル・クラスターに認識させるクラスターを指定します。 認識されるクラスターは、 lsf.sharedでも定義する必要があります。 lsf.shared にリストされているが、ここにリストされていない追加のクラスターは、このクラスターによって無視されます。
EQUIV
説明
リモート・クラスターをローカル・クラスターと同等にするには、「Y」を指定します。 それ以外の場合は Nを指定します。 management ホスト LIM は、ロード、ホスト、または配置の情報に関するクライアントからの要求を処理する際に、すべての同等のクラスターを考慮します。
EQUIV は、LSF コマンドおよびユーティリティーのデフォルトの動作を変更し、クラスター名を指定しない場合でも、リモート・クラスターおよびローカル・クラスターに関するロード (lsload)、ホスト (lshosts)、または配置 (lsplace) の情報を自動的に返します。
キャッシュ間隔 (CACHE_INTERVAL)
説明
ロード情報キャッシュのしきい値を秒単位で指定します。 ホスト情報しきい値は、負荷情報しきい値の 2 倍の値です。
オーバーヘッドを削減し、不必要にリモート・クラスターからの情報を更新しないようにするために、 LSF は、キャッシュ内の情報がしきい値より古い場合を除き、キャッシュ内の情報を表示します。
デフォルト
60 秒
RECV から
説明
リモート・クラスターで発生する並列タスクをローカル・クラスターが受け入れるかどうかを指定します
RECV_FROM は、通常のバッチ・ジョブまたは対話式バッチ・ジョブには影響しません。
クラスター間で並列ジョブを実行する場合は、 Y を指定します。 それ以外の場合は、 Nを指定します。
デフォルト
Y
AUTH
説明
クラスター間で通信する LSF デーモンの優先認証方式を定義します。 対応する eauth プログラム (eauth.method_name) を識別するために使用されるのと同じメソッド名を指定します。 リモート・クラスターが同じ方式を使用しない場合、 LSF は 2 つのクラスター間でデフォルトのセキュリティーを使用します。
デフォルト
- (クラスター間では特権ポート (setuid) 認証のみが使用されます)