GPU 增强功能
以下增强功能会影响 LSF GPU 支持。
NVIDIA (DCGM)集成更新
LSF, 10.1 NVIDIA (DCGM)集成,能够更有效地与 LSF 集群中的GPU协同工作。 LSF 现在与 NVIDIA 1.1集成。 此更新为 LSF的 DCGM 功能提供了以下增强功能:
- LSF 会检查 GPU 的状态,以在作业分配 GPU 资源时自动过滤掉运行不正常的 GPU ,并在 GPU 再次运行正常时自动重新添加 GPU。
- DCGM 提供了用于检查 GPU 运行状况的机制,并且 LSF 集成了这些机制以在作业运行之前,期间和之后检查 GPU 状态以满足 GPU 需求。 如果 LSF 在作业完成之前检测到 GPU 不正常,那么 LSF 将使作业重新排队。 这将确保作业在运行正常的 GPU 上运行。
- 现在,已为单 GPU 作业启用 GPU 自动提升,而不考虑是否启用 DCGM。 如果启用了 DCGM ,那么 LSF 还会在具有独占方式的作业上启用 GPU 自动升降,这些作业在一台主机上的多个 GPU 上运行。
通过在 lsf.conf 文件中定义 LSF_DCGM_PORT 参数来启用 DCGM 集成。