Dynamisches Workload-Management in DataStage

Verwenden Sie das dynamische Workload-Management, um DataStage -Workloads schneller und effizienter über die verfügbaren Compute-Pod-Ressourcen in jeder PX-Instanz auszuführen.

Eine der großen Stärken von DataStage besteht darin, dass Sie sich beim Entwerfen von Abläufen und Ausführen paralleler Jobs keine Gedanken über die zugrunde liegende Struktur Ihres Systems machen müssen, sondern über die Parallelverarbeitungsfunktionen hinaus wissen müssen. Wenn sich Ihre Compute-Pod-Ressourcen ändern, wenn Sie Ihr System aktualisieren oder verbessern oder wenn Sie den Fluss in eine andere Umgebung verschieben, müssen Sie Ihr Flussdesign nicht unbedingt ändern.

DataStage lernt über die Form und Größe des Systems aus einer Konfigurationsdatei. Die Konfigurationsdatei organisiert die für einen bestimmten Job erforderlichen Ressourcen entsprechend der Definition in der Konfigurationsdatei. Wenn dem System weitere PX-Rechenpods hinzugefügt werden oder Sie andere Systemänderungen vornehmen, ändern Sie die Datei, aber nicht die DataStage -Jobs oder -Abläufe selbst.

Beim dynamischen Workload-Management generiert DataStage eine parallele Konfigurationsdatei zur Joblaufzeit auf der Basis der PX-Instanz und der Laufzeitumgebungsdefinition. Die Anzahl der Compute-Pods, die die parallele Konfigurationsdatei enthält, wird durch die Auslastung der Compute-Pods während der Jobausführung bestimmt.

Das dynamische Workload-Management kann unter anderem auch Jobs in die Warteschlange stellen, wenn Instanzgrenzwerte erreicht sind, Rechenpods für APT_CONFIG_FILE-Umgebungsvariablen zuordnen und Rechenpods automatisch skalieren.

Wenn die automatische Skalierung aktiviert ist, werden bei Bedarf weitere Compute-Pods für die PX-Instanz bereitgestellt, um den zunehmenden Arbeitslasten gerecht zu werden. Wenn die Arbeitslast abnimmt, werden die Compute-Pods für die PX-Instanz nach unten skaliert, bis sie wieder benötigt werden. Wenn die automatische Skalierung für eine PX-Instanz aktiviert ist, wird ein Job, der in dieser PX-Instanz ausgeführt wird, automatisch über die verfügbaren Compute-Pods hinweg ausgeführt, ohne dass ein Entwicklereingriff erforderlich ist.

Sie können auch eigene dynamische oder statische Konfigurationsdateien für die Parallelverarbeitungsengine erstellen und die Umgebungsvariable APT_CONFIG_FILE so definieren, dass diese spezielle Konfigurationsdatei der Parallelverarbeitungsengine verwendet wird. Weitere Informationen finden Sie unter Umgebungsvariable APT_CONFIG_FILE in DataStage.

Das dynamische Workload-Management generiert Konfigurationsdateien für die Parallelverarbeitungsengine in Echtzeit auf der Basis der Ressourcen (Speicher und CPUs, nicht notwendigerweise die Anzahl der Jobs), die in den derzeit aktiven Compute-Pod verfügbar sind. Wenn keine Rechenpods verfügbar sind, weil sie alle ihren Ressourcengrenzwert erreicht haben und die automatische Skalierung inaktiviert ist, werden Jobs in die Warteschlange gestellt.

Sie können eine dynamische Konfigurationsdatei erstellen, die automatisch auswählt, auf welchem Compute-Pod Jobs zur Laufzeit ausgeführt werden sollen, wodurch die manuelle Konfiguration entfällt. Sie geben eine Konfigurationsdatei an, indem Sie die Umgebungsvariable APT_CONFIG_FILE festlegen.

Eine Umgebungsvariable APT_CONFIG_FILE definiert die logischen Knoten, die ein Job verwendet, um zusammen mit Plattenressourcen wie Arbeitsspeicherplatz ausgeführt zu werden. Da Sie viele verschiedene Konfigurationsdateien der Parallelverarbeitungsengine auf Platte haben können, teilt die Umgebungsvariable dem Job mit, welche Konfigurationsdatei der Parallelverarbeitungsengine verwendet werden soll. Wenn Sie APT_CONFIG_FILE nicht angeben, wird automatisch eine Konfigurationsdatei generiert, wenn der Job ausgeführt wird. Weitere Informationen finden Sie unter Umgebungsvariable APT_CONFIG_FILE in DataStage.

Das dynamische Workload-Management wird standardmäßig in DataStage ab Version 4.0.2 verwendet.