GPU-Erweiterungen
Die folgenden Erweiterungen wirken sich auf die GPU-Unterstützung von LSF aus.
Entspannen Sie die GPU-Affinität und behalten Sie die CPU-Affinität bei.
Mit LSF können Sie jetzt die GPU-Affinität lockern und gleichzeitig die strikte CPU-Affinität beibehalten.
Um die GPU-Affinität für GPU-Jobs zu lockern, geben Sie aff=no in der Zeichenfolge für den GPU-Ressourcenbedarf an (d. h. die Befehlsoption bsub -gpu , den Parameter LSB_GPU_REQ in der Datei lsf.conf und den Parameter GPU_REQ in den Dateien lsb.queues und lsb.applications ).
Standardmäßig behält LSF die strenge GPU-Affinität bei (d. h., aff ist standardmäßig auf yes gesetzt).
Wenn Sie sowohl einen gtile -Wert als auch aff=yes in der Zeichenfolge für den GPU-Ressourcenbedarf angeben, wird die strikte Bindung der GPU-CPU-Affinität inaktiviert. Das heißt, LSF entspannt die GPU-CPU-Affinitätsbindung.
LSB_GPU_NEW_SYNTAX=extend muss in der Datei lsf.conf definiert sein, um die GPU-Affinität zu lockern.
Mehrere MPS-Dämonen für GPU-Jobs ausführen
LSF ermöglicht es Ihnen jetzt, mehrere NVIDIA auf einem Host für GPU-Aufgaben auszuführen und diese MPS-Daemons für mehrere GPU-Aufgaben gemeinsam zu nutzen.
Um das Verhalten der Ausführung und gemeinsamen Nutzung mehrerer MPS-Dämonen zu definieren, werden dem vorhandenen Schlüsselwort mps in der Zeichenfolge für den GPU-Ressourcenbedarf (d. h. der Befehlsoption bsub -gpu , dem Parameter LSB_GPU_REQ in der Datei lsf.conf und dem Parameter GPU_REQ in den Dateien lsb.queues und lsb.applications ) neue Werte hinzugefügt. Diese neuen Werte sind per_socket und per_gpu.
mps=yes | no | per_socket | per_gpu- Mit LSF können Sie jetzt einen MPS-Dämon pro Socket pro Job starten, indem Sie mps=per_socket in den GPU-Ressourcenanforderungen festlegen.
- LSF ermöglicht Ihnen jetzt, einen MPS-Dämon pro GPU pro Job zu starten, indem Sie mps=per_gpu in den GPU-Ressourcenanforderungen festlegen.
LSB_GPU_NEW_SYNTAX=extend muss in der Datei lsf.conf definiert sein, um MPS-Dämonen zu aktivieren.
NVIDIA Integration Updates
LSF, 10.1, integriert in NVIDIA (DCGM), um effektiver mit GPUs im LSF -Cluster zu arbeiten. LSF ist jetzt in 1.4.6 NVIDIA integriert.
Aktivieren Sie die DCGM-Integration, indem Sie den Parameter LSF_DCGM_PORT in der Datei lsf.conf definieren.