GPU 增强功能

以下增强功能会影响 LSF GPU 支持。

NVIDIA (DCGM)集成更新

LSF, 10.1 NVIDIA (DCGM)集成,能够更有效地与 LSF 集群中的GPU协同工作。 LSF 现在与 NVIDIA 1.1集成。 此更新为 LSF的 DCGM 功能提供了以下增强功能:

  • LSF 会检查 GPU 的状态,以在作业分配 GPU 资源时自动过滤掉运行不正常的 GPU ,并在 GPU 再次运行正常时自动重新添加 GPU。
  • DCGM 提供了用于检查 GPU 运行状况的机制,并且 LSF 集成了这些机制以在作业运行之前,期间和之后检查 GPU 状态以满足 GPU 需求。 如果 LSF 在作业完成之前检测到 GPU 不正常,那么 LSF 将使作业重新排队。 这将确保作业在运行正常的 GPU 上运行。
  • 现在,已为单 GPU 作业启用 GPU 自动提升,而不考虑是否启用 DCGM。 如果启用了 DCGM ,那么 LSF 还会在具有独占方式的作业上启用 GPU 自动升降,这些作业在一台主机上的多个 GPU 上运行。

通过在 lsf.conf 文件中定义 LSF_DCGM_PORT 参数来启用 DCGM 集成。