GPU 增强功能
以下增强功能会影响 LSF GPU 支持。
GPU 自动配置
现在,可以使用自动配置来启用 LSF 的 GPU 检测。 要启用自动 GPU 配置,请在 lsf.conf 文件中配置 LSF_GPU_AUTOCONFIG=Y 。
启用后, lsload -gpu, lsload -gpuload和 lshosts -gpu 命令将显示用于监视的基于主机或基于 GPU 的资源度量。
指定其他 GPU 资源需求
LSF 现在允许您请求其他 GPU 资源需求,以允许您进一步优化分配给作业的 GPU 资源。 现有 bsub -gpu 命令选项, lsf.conf 文件中的 LSB_GPU_REQ 参数以及 lsb.queues 和 lsb.applications 文件中的 GPU_REQ 参数现在具有其他 GPU 选项来发出以下请求:
- gmodel 选项请求具有特定品牌名称,型号或总 GPU 内存的 GPU。
- gtile 选项指定每个套接字要使用的 GPU 数。
- gmem 选项保留作业所需的每个 GPU 上的指定内存量。
- nvlink 选项请求具有 NVLink 连接的 GPU。
您还可以在 lsb.queues 和 lsb.applications 文件中的 bsub -R 命令选项或 RES_REQ 参数中使用这些选项来满足复杂的 GPU 资源需求,例如复合或备用资源需求。 将 span [] 字符串中的 gtile 选项以及 rusage [] 字符串中的其他选项 (gmodel, gmem和 nvlink) 用作 ngpus_physical 资源的约束。
要指定这些新的 GPU 选项,请在 lsf.conf 文件中指定 LSB_GPU_NEW_SYNTAX=extend 。