GPU 增强功能
以下增强功能会影响 LSF GPU 支持。
在维护 CPU 亲缘关系时放宽 GPU 亲缘关系
LSF 现在允许您放宽 GPU 亲缘关系,同时保持严格的 CPU 亲缘关系。
要放宽 GPU 作业的 GPU 亲缘关系,请在 GPU 资源需求字符串中指定 aff=no (即, bsub -gpu 命令选项, lsf.conf 文件中的 LSB_GPU_REQ 参数以及 lsb.queues 和 lsb.applications 文件中的 GPU_REQ 参数)。
缺省情况下, LSF 会维护严格的 GPU 亲缘关系 (即,缺省情况下, aff 设置为 yes )。
如果在 GPU 资源需求字符串中同时指定 gtile 值和 aff=yes ,那么将禁用严格的 GPU-CPU 亲缘关系绑定。 即, LSF 将放宽 GPU-CPU 亲缘关系绑定。
必须在 lsf.conf 文件中定义 LSB_GPU_NEW_SYNTAX=extend 以放宽 GPU 亲缘关系。
对 GPU 作业运行多个 MPS 守护程序
LSF 现在,您可以在主机上运行多个 多进程服务(MPS)守护进程,用于GPU作业,并允许您在多个GPU作业之间共享这些MPS守护进程。 NVIDIA
要定义运行和共享多个 MPS 守护程序的行为,将向 GPU 资源需求字符串 (即, bsub -gpu 命令选项, lsf.conf 文件中的 LSB_GPU_REQ 参数以及 lsb.queues 和 lsb.applications 文件中的 GPU_REQ 参数) 中的现有 mps 关键字添加新值。 这些新值为 per_socket 和 per_gpu。
mps=yes | no | per_socket | per_gpu- LSF 现在允许您通过在 GPU 资源需求中设置 mps=per_socket ,针对每个作业的每个套接字启动一个 MPS 守护程序。
- LSF 现在允许您通过在 GPU 资源需求中设置 mps=per_gpu ,针对每个作业的 GPU 启动一个 MPS 守护程序。
必须在 lsf.conf 文件中定义 LSB_GPU_NEW_SYNTAX=extend 以启用 MPS 守护程序。
NVIDIA (DCGM)集成更新
LSF,版本 10.1 Fix Pack 2 与 NVIDIA 数据中心 GPU 管理器(DCGM)集成,可更有效地与 LSF 集群中的 GPU 协同工作。 LSF 现在与 NVIDIA 1.4.6集成。
通过在 lsf.conf 文件中定义 LSF_DCGM_PORT 参数来启用 DCGM 集成。