Bhosts
显示主机及其静态和动态资源。
概要
bhosts [-w | -l | -e | -o " [ 字段名称 | all ] [: [- ][ 输出宽度 ]]... [delimiter='特点']" [-json ] ] [-a ] [-attr ] [-alloc ][-x ][-X ][-R " res_req" ] [ 主机名... | 主机组... | 计算单元...]描述
缺省情况下,返回有关所有主机的以下信息: 主机名,主机状态,作业状态统计信息和作业插槽限制。
bhosts 命令显示压缩主机组和计算单元的输出。 这些主机组和计算单元由 CONDENSE 在 lsb.hosts 文件的 HostGroup 和 ComputeUnit 部分中定义。 压缩主机组和计算单元显示为单个条目,其名称由 GROUP_NAME 或 NAME 在 lsb.hosts 文件中定义。
当 EGO 向正在运行的可调整大小的作业添加更多资源时, bhosts 命令将显示所添加的资源。 当 EGO 从正在运行的可调整大小的作业中除去资源时, bhosts 命令将显示已更新的资源。
-l 和 -X 选项显示非压缩输出。
-s 选项显示有关数字共享资源及其关联主机的信息。
通过 LSF 多集群功能,显示有关可用于本地集群的主机的信息。 使用 -e 选项来查看有关导出的主机的信息。
选项
- -a
- 显示有关所有主机的信息,包括 通过 LSF 资源连接器将主机放弃到资源提供程序 (例如 EGO 或 OpenStack)。 缺省输出仅包含标准 LSF 主机。
- -申明
- 显示 CPU 和内存亲缘关系调度的主机拓扑信息。
- -阿洛克
- 显示插槽的计数器RUN,SSUSP,USUSP和RSV. 根据作业是否为互斥作业,插槽分配不同。
- -属性
- 显示有关连接到主机的属性的信息。 这些属性是使用 battr create 命令创建的,或者根据属性请求自动创建的。
- -e
- 仅限 LSF 多集群功能 。 显示有关已导出到另一个集群的资源的信息。
- -gpu[-l]
- 显示主机上的 GPU 信息。
-l 选项显示有关 GPU 的更多详细信息。
- -json
以 JSON 格式显示定制输出。
指定时, bhosts -o 将以 JSON 格式显示定制输出。
此选项仅适用于定制输出的 bhosts -o 命令的输出。 当与没有 -o 选项的 bhosts 配合使用时,此选项无效,并且未定义 LSB_BHOSTS_FORMAT 环境变量和参数。
- -l
- 以长整型多行格式显示主机信息。 除缺省字段外,还显示有关 CPU 因子,当前负载和负载阈值的信息。 还显示以下项的值:slots针对每个主机。 该slots值是主机上未使用的最大插槽数。
bhosts -l 选项还显示有关分派窗口的信息。
在 lsb.threshold 文件中启用 PowerPolicy 时, bhosts -l 命令还会显示主机电源状态。 最终电源状态为on或suspend中间电源状态为restarting,resuming和suspending. 管理员控制下的最终电源状态为closed_Power. 政策控制下的最终权力状态是ok_Power. 如果主机状态变为未知 (电源操作由于故障) ,那么电源状态显示为短划线 (-).
如果使用主机控制命令 (badmin hclose -C 或 badmin hopen -C) 的 -C 选项指定了管理员注释,那么 -l 选项将显示注释文本。 如果有任何锁定标识连接到已关闭的主机,那么将以表格格式显示这些锁定标识以及任何附加的注释。
如果已启用使用 Elasticsearch 的增强型能源记帐 (在 lsf.conf中为 LSF_ENABLE_BEAT_SERVICE ) ,那么输出将显示 当前功率 使用情况 (以瓦为单位) ,以及焦耳和 kWh中的总 能耗 。
如果将属性连接到主机,那么 -l 选项将显示有关这些属性的详细信息。
- -页眉
从输出中除去列标题。
指定时, bhosts 将显示字段的值,而不显示字段的名称。 当不需要列标题时,此选项对于脚本解析很有用。
该选项适用于不带任何选项的 bhosts 命令的输出,以及使用列标题的所有 bhosts 选项的输出,包括以下选项: - a、 -alloc、 -e、 -o、 -R、 -s、 -w、 -x、 -X。
此选项不适用于不使用列标题的 bhosts 选项的输出,包括以下选项: -aff, -json和 -l。
- -o
设置定制输出格式。
- 指定要显示的 bhosts 字段 (或别名,而不是完整字段名称) ,顺序和宽度。
- 仅指定 bhosts 字段名称或别名,以将其输出设置为无限宽度和左对齐。
- (从 FP14 开始可用) 指定 all 以显示所有字段。 指定具有应用于所有字段的输出宽度的冒号 (:)。
- 指定不带宽度的冒号 (:) 以将输出宽度设置为该字段的建议宽度。
- 指定带有宽度的冒号 (:) ,以设置要为字段显示的最大字符数。 当其值超过此宽度时, bhosts 将截断结束字符。
- 指定连字符 (-) 以在 bhosts 显示特定字段的输出时设置正确的对齐方式。 如果未指定,那么缺省值是在 bhosts 显示字段的输出时设置左对齐。
- 指定带有单元的第二个冒号 (:) ,以指定以下字段的输出的单元前缀:mem,max_mem,avg_mem,memlimit,swap,swaplimit,corelimit,stacklimit和hrusage(针对hrusage,单元前缀用于mem和swap(仅适用于资源)。
此单位为 KB (或 K) (以千字节计) , MB (或 M) (以兆字节计) , GB (或 G) (以千兆字节计) , TB (或 T) (以太字节计) , PB (或 P) (以太字节计) , EB (或 E) (以太字节计) , ZB (或 Z) (以兆字节计) 或 S (以自动将值调整为合适的单位前缀,并从单位中除去 "bytes" 后缀。 缺省值是自动将值调整为合适的单位前缀,但保留单位中的 "字节" 后缀。
显示值保留两个小数,但向上舍入第三个小数。 例如,如果单元前缀设置为 G,10M在 Cube Viewer 中显示为0.01G.
此处指定的单元前缀将覆盖 LSB_UNIT_FOR_JOBS_DISPLAY 环境变量的值,这也将覆盖 lsf.conf 文件中 LSB_UNIT_FOR_JOBS_DISPLAY 参数的值。
- 使用 delimiter= 来设置要在不同标题和字段之间显示的定界字符。 此定界符必须是单个字符。 缺省情况下,定界符是空格。
输出定制仅适用于某些 bhosts 选项的输出:- LSB_BHOSTS_FORMAT 和 都适用于不带任何选项的 命令的输出,以及带有过滤信息输出的 选项,包括以下选项: - bhosts -o bhosts bhosts a、 -alloc、 -R、 -x、 -X。
- LSB_BHOSTS_FORMAT 和 bhosts -o 不适用于使用已修改格式的 bhosts 选项的输出,包括以下选项: -aff, -e, -l, -s和 -w。
bhosts -o 选项覆盖 LSB_BHOSTS_FORMAT 环境变量,这将覆盖 lsf.conf中的 LSB_BHOSTS_FORMAT 设置。
以下是用于指定要显示的 bhosts 字段的字段名称,具有有效的宽度和任何受支持的别名 (您可以使用这些别名来代替字段名称)。 字段的计量单位是自动选择的字节单位 (例如千兆字节,兆字节等) ,具体取决于字段名称。
表 1. bhosts 的输出字段 字段名称 宽度 别名 主机名 20 名称 状态 15 日 stat Cpuf 10 吉勒乌 8 杰卢 最大值 8 Njobs 8 运行 8 苏普 8 乌苏普 8 Rsv 8 分派窗口 50 冷静 恩格珀斯 8 ng ngpus_分配 8 恩古 ngpus_excl_alloc 8 恩格克斯 ngpus_共享分配器 8 恩格斯 ngpus_共享_jexcl_分配 8 恩格希克斯 ngpus_excl_可用 8 恩格福克斯 ngpus_共享可用空间 8 恩格夫斯 指标 50 attr mig_alloc 5 注释 注: 如果与 bhosts -json 选项结合使用,那么此字段将显示主机关闭事件的完整详细信息,例如事件时间,管理员标识,锁定标识和注释,如 bhosts -l 选项中所示。128 可用内存 (从 FP14 开始可用)
15 日 保留内存 (从 FP14 开始可用)
15 日 总计内存 (从 FP14 开始可用)
15 日 字段名称和别名不区分大小写。 输出宽度的有效值为任何正整数 1-4096。
例如,
bhosts -o "host_name cpuf: jl_u:- max:-6 delimiter='^'"
此命令显示以下字段:
- 具有无限宽度且左对齐的 HOST_NAME。
- CPUF ,最大宽度为 10 个字符 (建议的宽度) ,左对齐。
- JL_U ,最大宽度为 8 个字符 (建议的宽度) ,右对齐。
- 最大宽度为 6 个字符且右对齐的 MAX。
- 该^字符显示在不同的标题和字段之间。
- -w
- 以宽格式显示主机信息。 显示字段而不截断。
对于压缩主机组和计算单元, -w选项会显示整体状态和带有ok,unavail,unreach和busy以下格式的状态:
host_group_status num_ok/num_unavail/num_unreach/num_busy
位置- host_group_status 是主机组或计算单元的总体状态。 如果组或单元中的单个主机ok,整体状态也是ok.
- num_ok, num_unavail, num_unimpact和 num_busy 是主机数ok,unavail,unreach和busy.
例如,如果有 5 个主机ok,二unavail,一unreach和三个busy在压缩主机组中hg1,将显示以下状态:hg1 ok 5/2/1/3如果主机组或计算单元中的任何主机已关闭,那么主机组的状态将显示为closed,没有其他状态:hg1 closed由于资源提供程序回收请求而关闭的 LSF 资源连接器主机的状态为closed_RC.
- -rc[-l]
- 显示从 LSF 资源连接器请求和供应的主机的当前状态,以及每个供应的主机的简要历史记录。注: 需要 LSF 修订包 4。
-rc 和 -rconly 选项使用第三方 mosquitto 消息队列应用程序。 LSF 资源连接器发布这些 bhosts 选项所显示的其他提供程序主机信息。 mosquitto 二进制文件作为 LSF 分发的一部分包含在内。
要使用 -rc 选项,必须在 lsf.conf 文件中使用 LSB_RC_EXTERNAL_HOST_FLAG 参数来启用 LSF 资源连接器。
如果使用随LSF一起分发的 MQTT 消息代理,那么必须在 lsf.conf 文件中配置 LSF_MQ_BROKER_HOSTS 和 MQTT_BROKER_HOST 参数。 LSF_MQ_BROKER_HOSTS 和 MQTT_BROKER_HOST 参数必须指定相同的主机名。 LSF_MQ_BROKER_HOSTS 参数使 LIM 能够启动 mosquitto 守护程序。
如果使用现有 MQTT 消息代理,那么必须配置 MQTT_BROKER_HOST 参数。 您可以选择使用 MQTT_BROKER_PORT 参数指定 MQTT 代理端口。
使用 ps 命令来检查 MQTT 消息代理守护程序 (mosquitto) 是否已安装并正在运行: ps -ef | grep mosquitto。
配置 EBROKERD_HOST_CLEAN_DELAY 以指定延迟 (以分钟计) ,在此之后, ebrokerd 守护程序将除去有关放弃或回收的主机的信息。 此参数允许 bhosts -rc 和 bhosts -rconly 命令在取消供应后一段时间内获取 LSF 资源连接器提供程序主机信息。
主机列表中显示了以下附加列:- RC_STATUS
- LSF 资源连接器状态。
- Preprovision_Started
- 资源连接器已启动新主机的预供应脚本。
- Preprovision_Failed
- 预供应脚本返回了错误。
- Allocated
- 主机已准备好加入 LSF 集群。
- Reclaim_Received
- 从提供程序接收到主机回收请求 (例如,针对 AWS 点实例)。
- RelinquishReq_Sent
- LSF 已开始放弃主机。
- Relinquished
- LSF 已完成放弃主机。
- Deallocated_Sent
- LSF 向提供者发送了返回请求。
- Postprovision_Started
- LSF 在返回主机后启动了配置后脚本。
- Done
- 主机生命周期已完成。
- PROV_STATUS
- 提供者状态。 此状态取决于提供者。 例如, AWS 具有暂挂,正在运行,正在关闭,已终止和其他。 请检查提供程序的文档以了解显示的状态。
- UPDATED_AT
- 最新状态更改的时间戳记。
- INSTANCE_ID
- 创建的机器实例的标识。 这将为 LSF 资源连接器主机的每个云实例提供唯一标识。
对于由资源连接器供应的主机,这些列显示相应的状态值和时间戳记。 短划线 (-) 显示在集群中其他主机的这些列中。
例如,bhosts -rc HOST_NAME STATUS JL/U MAX NJOBS RUN SSUSP USUSP RSV RC_STATUS PROV_STATUS UPDATED_ATINSTANCE_IDec2-35-160-173-192 ok - 1 0 0 0 0 0 Allocated running 2017-04-07T12:28:46CDTi-0244f608fe7b5e014lsf1.aws. closed - 1 0 0 0 0 0 - - --l 选项显示有关已供应主机的更详细信息:bhosts -rc -l HOST ec2-35-160-173-192.us-west-2.compute.amazonaws.com STATUS CPUF JL/U MAX NJOBS RUN SSUSP USUSP RSV RC_STATUS PROV_STATUS UPDATED_ATINSTANCE_IDDISPATCH_WINDOW ok 60.00 - 1 0 0 0 0 0 Allocated running 2017-04-07T12:28:46CDTi-0244f608fe7b5e014- CURRENT LOAD USED FOR SCHEDULING: r15s r1m r15m ut pg io ls it tmp swp mem slots Total 1.0 0.0 0.0 1% 0.0 33 0 3 5504M 0M 385M 1 Reserved 0.0 0.0 0.0 0% 0.0 0 0 0 0M 0M 0M - - -rconly
- 显示由 LSF 资源连接器供应的所有主机的状态,无论它们是否已加入集群。注: 需要 LSF 修订包 4。
要使用 -rconly 选项,必须使用 lsf.conf 文件中的 LSB_RC_EXTERNAL_HOST_FLAG 参数来启用 LSF 资源连接器。 如果使用随LSF一起分发的 MQTT 消息代理,那么必须在 lsf.conf 文件中配置 LSF_MQ_BROKER_HOSTS 和 MQTT_BROKER_HOST 参数。 LSF_MQ_BROKER_HOSTS 和 MQTT_BROKER_HOST 参数必须指定相同的主机名。 LSF_MQ_BROKER_HOSTS 参数使 LIM 能够启动 mosquitto 守护程序。
如果使用现有 MQTT 消息代理,那么必须配置 MQTT_BROKER_HOST 参数。 您可以选择使用 MQTT_BROKER_PORT 参数指定 MQTT 代理端口。
使用 ps 命令来检查 MQTT 消息代理守护程序 (mosquitto) 是否已安装并正在运行: ps -ef | grep mosquitto。
- -x
- 显示其作业出口速率较高且超出 lsb.hosts 文件中 EXIT_RATE 参数所配置的阈值的主机,其长度超过 lsb.params 文件中配置的 JOB_EXIT_RATE_DURATION 参数所指定值。 缺省情况下,这些主机将在下次 LSF 检查主机异常并运行 eadmin时关闭。
与 -l 选项配合使用以显示有关主机异常的详细信息。
如果没有主机超过作业出口速率,那么 bhosts -x 命令具有以下输出:
There is no exceptional host found - -X
- 显示主机组和计算单元的未压缩输出。
- --R"res_req"
- 仅显示有关满足资源需求表达式的主机的信息。注: 请勿通过使用 rusage 关键字来选择主机来指定资源需求,因为 LSF会忽略这些条件。
LSF 支持对所有负载指标 (包括静态或动态外部负载指标) 的资源需求进行排序。
- -s |-sl [资源名称 ...] [-loc]
- 显示有关指定资源的信息。 bhosts -s 选项仅显示可使用的资源。 此选项不显示有关 GPU 资源的信息 (即,此选项不显示gpu_<num>n资源)。 使用 -gpu 选项可查看主机上的 GPU 信息。.
返回资源 (例如
fpga) ,这些资源的总量和保留量 (例如3) 以及资源位置 (按主机名)(如果使用-s 选项 )。从 FP14 开始,指定 -sl 选项将返回与 -s 选项相同的资源信息,并添加以下信息:- 每个资源的特定名称 (例如,如果有三种类型的
fpga资源,那么可以分配三个名称:card1,card2和card3)。 这些名称描述特定资源,并在分派时分配给作业。 - 这些名称中的哪些已分配给资源 (例如,
card1)。
请注意,如果 lsf.cluster.clustername 文件中的 LOCATION 参数设置为 all 以指示资源由集群中的所有主机共享,那么LOCATIONbhosts -s 命令输出中的字段也会显示ALL. 要在 bhosts -s 命令输出中显示集群中所有主机的各个名称,请指定 -loc 选项和 -s 选项。
当 LSF License Scheduler 配置为使用 LSF Advanced Edition 提交和执行集群时, LSF Advanced Edition 会将 LSF License Scheduler 集群方式和项目方式功能视为共享功能。 从提交集群中的主机运行 bhosts -s 命令时,显示 "否"TOTAL和RESERVED可用于提交集群中的本地主机的令牌,但显示以下对象的可用令牌数:TOTAL以及使用的令牌数RESERVED在执行集群中。
- 每个资源的特定名称 (例如,如果有三种类型的
- host_name ... | host_group ... | 计算单元 ...
- 仅显示有关指定主机的信息。 请勿使用引号来指定多个主机。
对于主机组和计算单元,将显示成员主机的名称,而不是主机组或计算单元的名称。 请勿使用引号指定多个主机组或计算单元。
- cluster_name
- 仅限 LSF 多集群功能 。 显示有关指定集群中主机的信息。
- -h
- 将命令用法打印到 stderr 并退出。
- -V
- 将 LSF 发行版打印到 stderr 并退出。
输出: 基于主机的缺省值
显示以下字段:
- HOST_NAME
- 主机的名称。 如果主机具有正在运行的批处理作业,但该主机已从配置中除去,那么主机名将显示为lost_and_found.
对于压缩主机组,HOST_NAME值是主机组的名称。
- 状态
- 使用 LSF 多集群功能,不会对完全导出的主机显示此功能。主机和 sbatchd 守护程序的状态。 只能将批处理作业分派给具有以下功能的主机:ok状态。 主机状态具有以下值:
- 确定
- 主机可用于接受批处理作业。
对于压缩主机组,如果主机组中的单个主机ok,整体状态也显示为ok.
如果主机组或计算单元中没有任何主机okbhosts 显示它迂到的第一个主机状态作为精简主机组的整体状态。 使用 bhosts -X 命令可查看主机组或计算单元中各个主机的状态。
- 无用
- 主机已关闭,或者无法访问主机上的 LIM 和 sbatchd 守护程序。
- 无法到达
- 主机上的 LIM 正在运行,但无法访问 sbatchd 守护程序。
- 已关闭
- 不允许主机接受任何远程批处理作业。 由于多种原因,可以关闭主机。
- 封闭式_Cu_excl
- 此主机是正在运行互斥计算单元作业的计算单元的成员。
- JL/U
- 使用 LSF 多集群功能,不会对完全导出的主机显示此功能。
主机可按每个用户处理的最大作业插槽数。 短划线 (-) 表示无限制。
对于压缩主机组或计算单元,JL/U值是组或单元中所有主机可按每个用户处理的作业槽总数。
主机分配的数量不超过JL/U同时针对一个用户的作业槽。 这些作业插槽由正在运行的作业以及具有保留插槽的暂挂或暂挂作业使用。
对于先发制人的调度,记帐是不同的。 这些作业插槽由正在运行的作业和具有保留插槽的暂挂作业使用。
- 最大值
- 可用的最大作业槽数。 短划线 (-) 表示无限制。
对于压缩主机组和计算单元,MAX值是主机组或计算单元中所有主机中可用的最大作业插槽总数。
这些作业插槽由正在运行的作业以及具有保留插槽的暂挂或暂挂作业使用。
如果使用抢先调度,那么不会计入暂挂的作业。
如果作业正在等待,那么主机并不总是需要分配这么多作业插槽。 主机还必须满足其配置的装入条件才能接受更多作业。
- 新泽西州统计局
- 分派到主机的所有作业的任务数。 该NJOBS值包括正在运行的作业,已暂挂的作业和区块作业。
对于压缩主机组和计算单元,NJOBS值是分派给主机组或计算单元中任何主机的作业所使用的任务总数。
如果使用 -alloc 选项,那么 total 是RUN,SSUSP,USUSP和RSV计数器。
- RUN
- 主机上所有正在运行的作业的任务数。
对于压缩主机组和计算单元,RUN值是用于在主机组或计算单元中的任何主机上运行作业的任务总数。 如果使用 -alloc 选项,那么 total 是主机上作业的已分配插槽。
- SSUSP
- 主机上所有系统暂挂作业的任务数。
对于压缩主机组和计算单元,SSUSP值是主机组或计算单元中任何主机上所有系统暂挂作业的任务总数。 如果使用了 -alloc 选项,那么总计是主机上作业的已分配插槽。
- USUSP
- 主机上所有用户暂挂作业的任务数。 作业可以由用户或 LSF 管理员暂挂。
对于压缩主机组和计算单元,USUSP值是主机组或计算单元中任何主机上所有用户暂挂作业的任务总数。 如果使用了 -alloc 选项,那么总计是主机上作业的已分配插槽。
- RSV
- 主机上所有具有保留插槽的暂挂作业的任务数。
对于压缩主机组和计算单元,RSV值是主机组或计算单元中任何主机上具有保留插槽的所有暂挂作业的任务总数。 如果使用了 -alloc 选项,那么总计是主机上作业的已分配插槽。
输出:基于主机的-l选项
- loadSched, loadStop
- 主机的调度和暂挂阈值。 如果未定义阈值,那么将应用队列定义中的阈值。 如果主机和队列都定义了装入索引的阈值,那么将使用最严格的阈值。
迁移阈值是在 LSF 尝试将作业迁移到另一个主机之前,系统可以暂挂分派到此主机的作业的时间。
- 状态
- -l 选项显示的长格式给出了关闭主机的可能原因。 如果在 lsb.threshold 文件中启用了电源策略,那么将显示电源状态:
- 已关闭
- 主机由 LSF 管理员或 root 使用 badmin hclose 命令关闭。 不能将任何作业分派给主机,但在主机上运行的作业不受影响。
- 关闭_繁忙
- 主机超负荷。 至少一个负载指标超过配置的阈值。 超过其阈值的索引由星号 (*)。 不能将任何作业分派给主机,但在主机上运行的作业不受影响。
- 封闭式_Cu_Excl
- 此主机是正在运行专用计算单元作业 (使用 bsub -R "cu[excl]" 命令提交) 的计算单元的成员。
- 收尾 EGO
- 对于启用了 EGO的 SLA 调度,将关闭主机,因为 EGO 未将其分配给运行 LSF 作业。 从 EGO 分配的主机将显示状态 ok。
- 关闭_Excl
- 主机正在运行互斥作业 (使用 bsub -x 命令提交)。
- 已关闭
- 已达到主机上的最大作业插槽数。 不能将任何作业分派给主机,但在主机上运行的作业不受影响。
- 关闭 LIM
- 无法访问主机上的 LIM ,但 sbatchd 守护程序正在运行。
- 关闭锁定
- 主机由 EGO 管理员或 root 使用 lsadmin limlock 命令锁定。 主机上正在运行的作业由 EGO (SSUSP 状态) 暂挂。 使用 lsadmin limunlock 命令在本地主机上解锁 LIM。
- 闭风
- 主机由 lsb.hosts 文件中定义的分派窗口关闭。 不能将任何作业分派给主机,但在主机上运行的作业不受影响。
- 收尾 RC
- 由于资源提供程序回收请求, LSF 资源连接器主机已关闭。 主机也标记为closed_RC当达到最大生存时间( lsf.conf 文件中的 LSB_RC_EXTERNAL_HOST_MAX_TTL 参数)或主机空闲时间( lsf.conf文件中的 LSB_RC_EXTERNAL_HOST_IDLE_TIME 参数)时,它们才会被返回给资源提供者(如 EGO, OpenStack, Amazon Web Services )。
- 开
- 主机电源状态为on.注: 电源状态on并不意味着主机状态为ok,这取决于 lim 和 sbatchd 守护程序是否可由 管理 主机连接。
- 关
- 通过策略或手动关闭主机电源。
- 暂挂
- 主机由策略暂挂或使用 badmin hpower手动暂挂。
- 重新启动
- 当恢复操作失败时,主机正在重置。
- 恢复
- 正在从由策略或集群管理员触发的备用状态恢复主机。
- 暂挂
- 正在暂挂由策略或集群管理员触发的主机。
- 关闭电源
- 集群管理员将主机置于省电 (暂挂) 状态。
- 确定
- 主机暂挂由电源策略触发。
- CPUF
- 显示主机的 CPU 规范化因子 (请参阅 lshosts(1))。
- 分派窗口
- 显示每个主机的分派窗口。 分派窗口是可以在每个主机上运行批处理作业的一周内的时间窗口。 已启动的作业不受分派窗口的影响。 当分派窗口关闭时,不会暂挂作业。 已运行的作业将继续运行,但在窗口重新打开之前不会启动新作业。 分派窗口的缺省值是无限制或始终打开 (即,每天 24 小时,每周 7 天)。 对于分派窗口规范,请参阅DISPATCH_WINDOWS下的关键字-l选项中的选项bqueues指令返回给FTP客户的IP地址。
- 当前负载
- 显示总主机负载和保留主机负载。
- 已预留
- 您可以使用 bsub -R 选项来指定保留资源。 这些资源由在主机上运行的作业保留。
- 总计
- 总负载具有不同的含义,具体取决于负载指数是递增还是递减。
对于增加负载指标 (例如,运行队列长度, CPU 使用率,页面调度活动,登录和磁盘 I/O) ,总负载是消耗量加上保留量。 总负载计算为当前负载与保留负载之和。 当前装入是 lsload 命令显示的装入。
对于减少负载指标 (例如,可用内存,空闲时间,可用交换空间和 tmp 目录中的可用空间) ,总负载是可用量。 总负载是当前负载与保留负载之间的差值。 此差异是 lsload 命令显示的可用资源。
- 装入阈值
显示调度阈值 (loadSched) 和暂挂阈值 (loadStop)。 还会显示迁移阈值 (如果已定义) 和检查点支持 (如果主机支持检查点)。
阈值的格式与批处理作业队列的格式相同。 有关阈值和负载指数的说明,请参阅QUEUE SCHEDULING PARAMETERSbqueues 命令的 -l 选项下的关键字。
- 用于异常的阈值和负载
显示配置的阈值EXIT_RATE主机异常的主机及其当前装入值。
- 管理操作注释
如果 EGO 管理员使用 badmin 主机控制命令 hclose 或 hopen的 -C 选项指定了管理员注释,那么将显示注释文本。
- 配置的亲缘关系 CPU 列表
主机在 lsb.hosts 文件中配置为接受用于 CPU 和内存亲缘关系调度的作业。 如果 AFFINITY 参数配置为 Y,那么关键字all。 如果在以下列表中指定了 CPU 列表:AFFINITY列,将显示用于亲缘关系调度的已配置 CPU 列表。
输出:基于资源的-s选项
-s 选项显示以下资源信息: 用于调度的金额,保留的金额以及资源的关联主机。 仅显示具有数字值的资源 (共享或基于主机)。
- RESOURCE
- 资源名称。
- 总计
- 用于调度的资源的可用总量。
- 保留
- 作业保留的数量。 您可以使用以下命令来指定保留资源:bsub -R选项旁的值列表中选择 true。
- 位置
- 与资源关联的主机。
输出: 基于主机的 -aff 选项
-aff 选项显示 CPU 和内存亲缘关系调度的主机拓扑信息。 仅显示在 lsb.hosts 文件中定义的 CPULIST 参数的列表中包含 CPU 的拓扑节点。
- AFFINITY
- 如果在 lsb.hosts 文件中配置了主机以接受用于 CPU 和内存亲缘关系调度的作业,并且主机支持亲缘关系调度,AFFINITY:
Enabled。
如果在 lsb.hosts 文件中配置了主机以接受用于 CPU 和内存亲缘关系调度的作业,但主机不支持亲缘关系调度,AFFINITY: Disabled (not supported)。 如果主机是 LIM 不可用或 sbatchd 不可访问,AFFINITY: UNKNOWN。
- 主机 [内存] host_name
- 主机上的最大可用内存。 如果无法确定内存可用性,请使用短划线 (-) 为主机显示。 如果使用 -aff 选项指定了 -l 选项,那么不会显示主机名。
对于不支持亲缘关系调度的主机,短划线 (-) 为主机内存显示,并且不显示主机拓扑。
- NUMA [numa_node: recested_mem / max_mem]
- 请求的 NUMA 节点内存和总 NUMA 节点内存。 对于 NUMA 节点,请求的内存可能大于显示的最大可用内存。
套接字是具有到内存的直接管道的核心的集合。 每个套接字都包含 1 个或更多个核心。 插座不一定是物理插座,而是指机器的内存架构。
核心是能够执行计算的单个实体。
节点包含套接字。 套接字包含核心,如果核心支持多线程,那么核心可以包含线程。
如果不存在 NUMA 节点,那么不会显示输出中的 NUMA 层。 仍显示主机,套接字,核心和线程等其他相关项。
如果主机不可用,那么仅显示主机名。 短划线 (-) 显示在通常显示可用主机内存的位置。
bhosts -l -aff hostA
HOST hostA
STATUS CPUF JL/U MAX NJOBS RUN SSUSP USUSP RSV DISPATCH_WINDOW
ok 60.00 - 8 0 0 0 0 0 -
CURRENT LOAD USED FOR SCHEDULING:
r15s r1m r15m ut pg io ls it tmp swp mem slots
Total 0.0 0.0 0.0 30% 0.0 193 25 0 8605M 5.8G 13.2G 8
Reserved 0.0 0.0 0.0 0% 0.0 0 0 0 0M 0M 0M -
LOAD THRESHOLD USED FOR SCHEDULING:
r15s r1m r15m ut pg io ls it tmp swp mem
loadSched - - - - - - - - - - -
loadStop - - - - - - - - - - -
CONFIGURED AFFINITY CPU LIST: all
AFFINITY: Enabled
Host[15.7G]
NUMA[0: 100M / 15.7G]
Socket0
core0(0)
Socket1
core0(1)
Socket2
core0(2)
Socket3
core0(3)
Socket4
core0(4)
Socket5
core0(5)
Socket6
core0(6)
Socket7
core0(7)
...
Host[1.4G] hostB
NUMA[0: 1.4G / 1.4G] (*0 *1)
...请求两个核心,两个套接字或 2 CPU 运行的作业。 从同一 NUMA 节点请求两个核心运行。 但是,从同一套接字请求两个核心的作业仍处于暂挂状态。
输出: 基于 GPU 的 -gpu 选项
-gpu 选项显示主机上 GPU 的信息。
- HOST_NAME
- 主机名。
- GPU_标识
- 主机上的 GPU 标识。 每个 GPU 都显示为单独的行。
- MODEL
- 完整的型号名称,由 GPU 品牌名称和型号类型组成。
- 沉思
- 当前正在使用的 GPU 内存量。
- MRSV
- 作业保留的 GPU 内存量。
- 新泽西州统计局
- 正在使用 GPU 的作业总数。
- RUN
- 正在使用 GPU 的正在运行的作业总数。
- SUSP
- 正在使用 GPU 的暂挂作业总数。
- RSV
- 保留 GPU 的暂挂作业总数。
- 供应商
- GPU 供应商类型 (即 GPU 品牌名称)。
- NGPUS
- 主机上的 GPU 总数。
- 共享可用
- 当前可供多个作业并发使用的 GPU 总数 (即,使用 -gpu mode=shared 或 -gpu j_exclusive=no 选项提交作业时)
- 独家可用
- 作业独占使用的当前 GPU 总数 (即,使用 -gpu mode=exclusive_process 或 -gpu j_exclusive=yes 选项提交作业时)
- 静态属性
- 静态 GPU 信息。 以下字段特定于此部分:
- NVLINK/XGMI
- 与同一主机上的其他 GPU 的连接。
每个 GPU 的连接标志用斜杠 (/) 与下一个 GPU 分隔, Y 显示存在与该 GPU 的直接 NVLink (针对 Nvidia) 或 xGMI (针对 AMD) 连接。
- MIG
- 用于指示 GPU 是否支持 Nvidia 多实例 GPU (迁移) 功能的标志。
- 动态属性
- 由 LSF维护的最新 GPU 使用信息。
- GPU 作业信息
- 有关正在使用主机的 GPU 的作业的信息。 以下字段特定于此部分:
- JEXCL
- 用于指示 GPU 作业是否请求其他作业无法使用已分配的 GPU 的标志 (即,是否使用 -gpu j_exclusive=yes提交了该作业)
- RUNJOBIDS
- GPU 上正在运行的 GPU 作业的标识。
- 暂挂作业标识
- GPU 上已暂挂的 GPU 作业的标识。
- RSVJOBIDS
- 保留 GPU 的暂挂 GPU 作业的标识。
资源连接器 -rconly 选项
-rconly 选项显示特定于 LSF 资源连接器的信息。
- PUB_DNS_NAME 和 PUB_IP_ADDRESS
- 主机的公共 DNS 名称和 IP 地址。
- PRIV_DNS_NAME 和 PRIV_IP_ADDRESS
- 主机的专用 DNS 名称和 IP 地址。
- RC_状态
- LSF 资源连接器状态。
- PROV_STATUS
- 资源提供者状态。
- 标记
- 该RC_ACCOUNTlsb.queues 或 lsb.applications 文件中定义的值。
- 更新
- 最新状态更改的时间戳记。
- INSTANCE_ID
- 创建的机器实例的标识。 此标识唯一地标识 LSF中的主机。
bhosts -rconly
PROVIDER : aws
TEMPLATE : aws-vm-1
PUB_DNS_NAME PUB_IP_ADDRESS PRIV_DNS_NAME PRIV_IP_ADDRESS RC_STATUS PROV_STATUS TAG UPDATED_AT INSTANCE_ID
ec2-52-43-171-109. 52.43.171.109 ip-192-168-0-85.us 192.168.0.85 Done terminated default 2017-05-31T14:30:47CDT -
ec2-35-160-157-112 35.160.157.112 ip-192-168-0-69.us 192.168.0.69 Allocated running default 2017-05-31T14:32:00CDT - 输出: 属性 -attr 选项
-attr 选项显示有关连接到主机的属性的信息。
- 主机
- 此属性所连接到的主机的名称。
- 属性
- 属性的名称。
- TTL
- 属性的当前生存时间 (TTL) 值。
- CREATOR
- 创建属性的用户的名称。
- 描述
- 用户指定的有关属性的信息。
文件
读取 lsb.hosts 文件。
另请参阅
lsb.hosts, bqueues, lshosts, badmin, lsadmin