GPU-Erweiterungen

Die folgenden Erweiterungen wirken sich auf die GPU-Unterstützung von LSF aus.

Entspannen Sie die GPU-Affinität und behalten Sie die CPU-Affinität bei.

Mit LSF können Sie jetzt die GPU-Affinität lockern und gleichzeitig die strikte CPU-Affinität beibehalten.

Um die GPU-Affinität für GPU-Jobs zu lockern, geben Sie aff=no in der Zeichenfolge für den GPU-Ressourcenbedarf an (d. h. die Befehlsoption bsub -gpu , den Parameter LSB_GPU_REQ in der Datei lsf.conf und den Parameter GPU_REQ in den Dateien lsb.queues und lsb.applications ).

Standardmäßig behält LSF die strenge GPU-Affinität bei (d. h., aff ist standardmäßig auf yes gesetzt).

Wenn Sie sowohl einen gtile -Wert als auch aff=yes in der Zeichenfolge für den GPU-Ressourcenbedarf angeben, wird die strikte Bindung der GPU-CPU-Affinität inaktiviert. Das heißt, LSF entspannt die GPU-CPU-Affinitätsbindung.

Hinweis: Die Ausgabe von bjobs wird nicht angezeigt.aff=yesauch wenn Sie aff=yes in der Option bsub -gpu angeben.

LSB_GPU_NEW_SYNTAX=extend muss in der Datei lsf.conf definiert sein, um die GPU-Affinität zu lockern.

Mehrere MPS-Dämonen für GPU-Jobs ausführen

LSF ermöglicht es Ihnen jetzt, mehrere NVIDIA auf einem Host für GPU-Aufgaben auszuführen und diese MPS-Daemons für mehrere GPU-Aufgaben gemeinsam zu nutzen.

Um das Verhalten der Ausführung und gemeinsamen Nutzung mehrerer MPS-Dämonen zu definieren, werden dem vorhandenen Schlüsselwort mps in der Zeichenfolge für den GPU-Ressourcenbedarf (d. h. der Befehlsoption bsub -gpu , dem Parameter LSB_GPU_REQ in der Datei lsf.conf und dem Parameter GPU_REQ in den Dateien lsb.queues und lsb.applications ) neue Werte hinzugefügt. Diese neuen Werte sind per_socket und per_gpu.

mps=yes | no | per_socket | per_gpu
  • Mit LSF können Sie jetzt einen MPS-Dämon pro Socket pro Job starten, indem Sie mps=per_socket in den GPU-Ressourcenanforderungen festlegen.
  • LSF ermöglicht Ihnen jetzt, einen MPS-Dämon pro GPU pro Job zu starten, indem Sie mps=per_gpu in den GPU-Ressourcenanforderungen festlegen.

LSB_GPU_NEW_SYNTAX=extend muss in der Datei lsf.conf definiert sein, um MPS-Dämonen zu aktivieren.

NVIDIA Integration Updates

LSF, 10.1, integriert in NVIDIA (DCGM), um effektiver mit GPUs im LSF -Cluster zu arbeiten. LSF ist jetzt in 1.4.6 NVIDIA integriert.

Aktivieren Sie die DCGM-Integration, indem Sie den Parameter LSF_DCGM_PORT in der Datei lsf.conf definieren.