控制 LSF 系统守护程序

用于启动,关闭,重新启动和重新配置 LSF 系统守护程序的命令。

需要的权限

要控制集群中的所有守护程序,需要以下许可权:
  • 您必须以 root 用户或 /etc/lsf.sudoers 文件中列出的用户身份登录。
  • 您必须能够在所有 LSF 主机上运行 rshssh 命令,而不必输入密码。 请参阅操作系统文档以获取有关配置这些命令的信息。 在尝试使用 rsh 命令之前,将使用由 lsf.conf 文件中的 LSF_RSH 参数指定的 shell 命令。

LSF 系统守护程序命令

下表列出了用于控制 LSF 守护程序的命令的概述。
表 1. 用于控制 LSF 守护程序的命令
守护程序 操作 命令 (请注意,使用 systemctl 命令后,请继续使用这些命令而不是其他控制命令) 许可权
集群中的所有守护程序 启动
  • lsfstartup
  • (从 FP14 开始可用) systemctl start lsfd
对于所有这些命令,必须是 root 用户或在 lsf.sudoers 文件中列出的用户
  关闭
  • lsfshutdown
  • (从 FP14 开始可用) systemctl stop lsfd
 
  重新启动 (从 FP14 开始可用) systemctl restart lsfd  
sbatchd 启动
  • bctrld start sbd [host_name ...|all]
必须是 root 用户或在启动命令的 lsf.sudoers 文件中列出的用户
  关闭
  • bctrld stop sbd [host_name ...|all]
对于其他命令,必须是 root 用户或 LSF 管理员
  重新启动
  • bctrld restart sbd [host_name ...|all]
mbatchd 关闭
  • bctrld stop sbd
  • badmin mbdrestart
必须是 root 用户或这些命令的 LSF 管理员
  重新启动 badmin mbdrestart  
  重新配置 badmin reconfig

RES 启动
  • bctrld start res [host_name ...|all]

必须是 root 用户或在启动命令的 lsf.sudoers 文件中列出的用户

  关闭
  • bctrld stop res [host_name ...|all]

必须是其他命令的 LSF 管理员

  重新启动
  • bctrld restart res [host_name ...|all]
LIM 启动
  • bctrld start lim [host_name ...|all]
必须是 root 用户或在启动命令的 lsf.sudoers 文件中列出的用户
  关闭
  • bctrld stop lim [host_name ...|all]

必须是其他命令的 LSF 管理员

  重新启动
  • bctrld restart lim [host_name ...|all]
  重新启动集群中的所有主机 lsadmin reconfig

sbatchd 守护程序

在主机上重新启动 sbatchd 守护程序不会影响在该主机上运行的作业。

如果 sbatchd 守护程序关闭,那么主机不可用于运行新作业。 在该主机上运行的任何现有作业都将继续,但直到重新启动 sbatchd 守护程序之后才会将结果发送给用户。

LIMRES 守护程序

在主机上运行的作业不受重新启动守护程序的影响。

如果守护程序未响应网络连接,那么 lsadmin 命令将显示包含主机名的错误消息。 在这种情况下,必须手动停止并重新启动守护程序。

如果当前 管理 主机上的装入信息管理器 (LIM) 和其他守护程序已关闭,那么另一个主机将自动接管为 管理 主机。

如果在主机上运行远程交互式任务时关闭了资源执行服务器 (RES) ,那么正在运行的任务将继续执行,但不会接受任何新任务。

LSF 守护程序或二进制文件不受操作系统内存不足 (OS OOM) 杀手的保护

以下 LSF 守护程序受保护,不会在支持内存不足 (OOM) 杀手的系统上停止:

  • 根 RES
  • 根 LIM
  • root 用户 sbatchd
  • pim
  • melim
  • mbatchd
  • rla
  • mbschd
  • krbrenewd
  • elim
  • lim -2 (根)
  • mbatchd -2 (根)

对于前面的守护程序, oom_adj 参数会自动设置为 -17 ,或者在启动或重新启动守护程序时, oom_score_adj 参数会设置为 -1000。 此功能可确保 LSF 守护程序在 OOM 杀手中生存,但不会在用户作业中生存。

设置 oom_adjoom_score_adj 参数时,日志消息将设置为 DEBUG 级别:Set oom_adj to -17.Set oom_score_adj to -1000.

根 RES ,根 LIM ,根 sbatchdpimmelimmbatchd 守护程序会主动保护自己并记录消息。

所有日志都必须将 LSF_LOG_MASK 设置为 LOG_DEBUG 参数。

此外,还必须设置以下参数:
  • RES 必须配置为 LSF_DEBUG_RES="LC_TRACE"
  • LIM 必须配置为 LSF_DEBUG_LIM="LC_TRACE"

    启用 企业网格编排器 (EGO) 时,必须在 ego.conf 文件中设置 EGO_LOG_MASK=LOG_DEBUG 参数

  • sbatchd 守护程序必须配置为 LSB_DEBUG_SBD="LC_TRACE"
  • pim 守护程序必须配置为 LSF_DEBUG_PIM="LC_TRACE"
  • mbatchd 守护程序必须配置为 LSB_DEBUG_MBD="LC_TRACE"