Nvidia Data Center GPU Manager (DCGM) 功能部件
Nvidia Data Center GPU Manager (DCGM) 是一套数据中心管理工具,允许您在加速的数据中心内管理和监控 GPU 资源。
LSF 与 Nvidia DCGM 集成,以更有效地使用 LSF 集群中的 GPU。 DCGM 通过以下方法在处理请求 GPU 资源的作业时提供其他功能:
- 为 EXCLUSIVE_PROCESS 方式作业提供 GPU 使用信息。
- 当作业分配 GPU 资源时,检查 GPU 的状态以自动过滤出运行不正常的 GPU。 这将确保作业在运行正常的 GPU 上运行。 DCGM 提供了用于检查 GPU 运行状况的机制,并且 LSF 集成了这些机制以在作业运行之前,期间和之后检查 GPU 状态以满足 GPU 需求。 如果执行主机的 DCGM 状态无效,那么 bjobs -l 命令将显示错误消息。 该作业仍在运行,但该主机无法提供 GPU 资源使用情况报告。
- 自动重新添加任何先前运行状况不佳的 GPU ,以便这些 GPU 可用于作业分配。
- 同步 GPU 自动提升功能以支持跨多个 GPU 运行的作业,包括跨单个主机上的多个 GPU 运行的作业。
通过在 lsf.conf 文件中定义 LSF_DCGM_PORT 参数来启用 DCGM 集成。 启用该参数后,必须启动 DCGM 才能使用这些功能。
注: 如果 DCGM 集成由于缺少 libdcgm.so 文件而无法按预期工作,请创建软链接以确保 libdcgm.so 文件存在并且可访问:
sudo ln -s /usr/lib64/libdcgm.so.1 /usr/lib64/libdcgm.so使用 bjobs, bhist和 bacct 命令运行 -gpu 选项,以在作业完成后显示来自 DCGM 的 GPU 使用情况信息。 -gpu 选项必须与以下命令选项配合使用:
- 对于 bjobs 命令,必须运行带有 -l 或 -UF 选项的 -gpu 选项。
- 对于 bhist 命令,必须运行带有 -l 选项的 -gpu 选项。
- 对于 bacct 命令,必须运行带有 -l 选项的 -gpu 选项。