控制 LSF 系统守护程序
用于启动,关闭,重新启动和重新配置 LSF 系统守护程序的命令。
需要的权限
- 您必须以 root 用户或 /etc/lsf.sudoers 文件中列出的用户身份登录。
- 您必须能够在所有 LSF 主机上运行 rsh 或 ssh 命令,而不必输入密码。 请参阅操作系统文档以获取有关配置这些命令的信息。 在尝试使用 rsh 命令之前,将使用由 lsf.conf 文件中的 LSF_RSH 参数指定的 shell 命令。
LSF 系统守护程序命令
| 守护程序 | 操作 | 命令 (请注意,使用 systemctl 命令后,请继续使用这些命令而不是其他控制命令) | 许可权 |
|---|---|---|---|
| 集群中的所有守护程序 | 启动 |
|
对于所有这些命令,必须是 root 用户或在 lsf.sudoers 文件中列出的用户 |
| 关闭 |
|
||
| 重新启动 | (从 FP14 开始可用) systemctl restart lsfd | ||
sbatchd |
启动 |
|
必须是 root 用户或在启动命令的 lsf.sudoers 文件中列出的用户 |
| 关闭 |
|
对于其他命令,必须是 root 用户或 LSF 管理员 | |
| 重新启动 |
|
||
mbatchd |
关闭 |
|
必须是 root 用户或这些命令的 LSF 管理员 |
| 重新启动 | badmin mbdrestart | ||
| 重新配置 | badmin reconfig | ||
RES |
启动 |
|
必须是 root 用户或在启动命令的 lsf.sudoers 文件中列出的用户 |
| 关闭 |
|
必须是其他命令的 LSF 管理员 |
|
| 重新启动 |
|
||
LIM |
启动 |
|
必须是 root 用户或在启动命令的 lsf.sudoers 文件中列出的用户 |
| 关闭 |
|
必须是其他命令的 LSF 管理员 |
|
| 重新启动 |
|
||
| 重新启动集群中的所有主机 | lsadmin reconfig |
sbatchd 守护程序
在主机上重新启动 sbatchd 守护程序不会影响在该主机上运行的作业。
如果 sbatchd 守护程序关闭,那么主机不可用于运行新作业。 在该主机上运行的任何现有作业都将继续,但直到重新启动 sbatchd 守护程序之后才会将结果发送给用户。
LIM 和 RES 守护程序
在主机上运行的作业不受重新启动守护程序的影响。
如果守护程序未响应网络连接,那么 lsadmin 命令将显示包含主机名的错误消息。 在这种情况下,必须手动停止并重新启动守护程序。
如果当前 管理 主机上的装入信息管理器 (LIM) 和其他守护程序已关闭,那么另一个主机将自动接管为 管理 主机。
如果在主机上运行远程交互式任务时关闭了资源执行服务器 (RES) ,那么正在运行的任务将继续执行,但不会接受任何新任务。
LSF 守护程序或二进制文件不受操作系统内存不足 (OS OOM) 杀手的保护
以下 LSF 守护程序受保护,不会在支持内存不足 (OOM) 杀手的系统上停止:
- 根 RES
- 根 LIM
- root 用户 sbatchd
- pim
- melim
- mbatchd
- rla
- mbschd
- krbrenewd
- elim
- lim -2 (根)
- mbatchd -2 (根)
对于前面的守护程序, oom_adj 参数会自动设置为 -17 ,或者在启动或重新启动守护程序时, oom_score_adj 参数会设置为 -1000。 此功能可确保 LSF 守护程序在 OOM 杀手中生存,但不会在用户作业中生存。
设置 oom_adj 或 oom_score_adj 参数时,日志消息将设置为 DEBUG 级别:Set oom_adj to -17.和Set oom_score_adj to -1000.
根 RES ,根 LIM ,根 sbatchd, pim, melim和 mbatchd 守护程序会主动保护自己并记录消息。
所有日志都必须将 LSF_LOG_MASK 设置为 LOG_DEBUG 参数。
- RES 必须配置为 LSF_DEBUG_RES="LC_TRACE"
- LIM 必须配置为 LSF_DEBUG_LIM="LC_TRACE"
启用 企业网格编排器 (EGO) 时,必须在 ego.conf 文件中设置 EGO_LOG_MASK=LOG_DEBUG 参数
- sbatchd 守护程序必须配置为 LSB_DEBUG_SBD="LC_TRACE"
- pim 守护程序必须配置为 LSF_DEBUG_PIM="LC_TRACE"
- mbatchd 守护程序必须配置为 LSB_DEBUG_MBD="LC_TRACE"