Angabe von Aufteilungs- oder Sammelmethoden (DataStage)

Sie können angeben, wie die Daten vor ihrer Verarbeitung erfasst oder partitioniert werden.

Daten partitionieren

Informationen zu dieser Task

Wenn die Stage im parallelen Modus ausgeführt wird, verarbeitet sie die Daten in Partitionen. Die Partitionierungsmethode ist standardmäßig auf "Automatisch" eingestellt. Sie können das Standardverhalten außer Kraft setzen.

Vorgehensweise

  1. Öffnen Sie die Registerkarte Partitionierung auf der Seite Eingabe .
  2. Wählen Sie eine Partitionierungsmethode aus der Liste aus:
    Option Beschreibung
    (Auto) IBM® DataStage® versucht, die beste Partitionierungsmethode zu ermitteln, abhängig von den Ausführungsmodi der aktuellen und vorhergehenden Stages und von der Anzahl der in der Konfigurationsdatei angegebenen Knoten. Dies ist die Standardpartitionierungsmethode für die meisten Stages.
    Db2 Repliziert die Db2-Partitionierungsmethode einer bestimmten Db2-Tabelle. Erfordert die Festlegung zusätzlicher Eigenschaften. Greifen Sie auf diese Eigenschaften zu, indem Sie auf die Schaltfläche 'Eigenschaften' klicken.
    Komplett Jede Datei, in die geschrieben wurde, empfängt den gesamten Datensatz.
    Hashwert Die Datensätze werden auf der Basis des Werts einer Schlüsselspalte oder von Spalten, die in der Liste Verfügbar ausgewählt wurden, in Partitionen in Hashwerte umgewandelt.
    Modulus Die Datensätze werden mithilfe einer Modulusfunktion in der Schlüsselspalte, die in der Liste Verfügbar ausgewählt wurde, partitioniert. Dies wird häufig verwendet, um eine Partitionierung für Tagfelder auszuführen.
    Zufällig Die Datensätze werden nach dem Zufallsprinzip auf der Basis der Ausgabe eines Zufallsgenerators partitioniert.
    Umlauf Die Datensätze werden bei ihrem Eintritt in die Stage auf Umlaufbasis partitioniert.
    Identisch Behält die bereits vorhandene Partitionierung bei.
    Bereich Unterteilt ein Dataset auf der Basis eines oder mehrerer Partitionierungsschlüssel in ungefähr gleich große Partitionen. Die Bereichspartitionierung ist häufig ein Vorverarbeitungsschritt für die Ausführung einer Gesamtsortierung für ein Dataset. Erfordert die Festlegung zusätzlicher Eigenschaften. Greifen Sie auf diese Eigenschaften zu, indem Sie auf die Schaltfläche 'Eigenschaften' klicken.
  3. Wenn Sie die Hash-oder Moduluspartitionierungsmethoden ausgewählt haben, geben Sie einen Schlüssel durch Klicken auf eine oder mehrere Spalten in der Liste Verfügbar an. Die ausgewählten Spalten werden in der Liste Ausgewählt angezeigt.

Daten werden erfasst

Sie können eine Erfassungsmethode angeben.

Informationen zu dieser Task

Wenn die Stage sequenziell ausgeführt wird und die vorherige Stage im Job parallel ausgeführt wird, werden die Daten erfasst, bevor sie geschrieben werden. Die Erfassungsmethode ist standardmäßig auf "Automatisch" eingestellt. Sie können das Standardverhalten außer Kraft setzen.

Vorgehensweise

  1. Öffnen Sie die Registerkarte Partitionierung auf der Seite Eingabe .
  2. Wählen Sie eine Erfassungsmethode aus der Liste aus:
    Option Beschreibung
    (Auto) Dies ist die Standarderfassungsmethode für die Stage 'Sequential File'. Wenn Sie den automatischen Modus verwenden, liest IBM DataStage normalerweise jede Zeile aus jeder Eingabepartition, sobald sie verfügbar wird.
    Sortiert Liest alle Zeilen aus der ersten Partition, dann alle Zeilen aus der zweiten Partition usw.
    Umlauf Liest eine Zeile aus der ersten Eingabepartition, dann aus der zweiten Partition usw. Nach dem Erreichen der letzten Partition beginnt die Operation wieder von vorn.
    Sortierte Zusammenführung Liest Zeilen in einer Reihenfolge, die auf einer oder mehreren Spalten der Zeile basiert. Dazu müssen Sie eine Erfassungsschlüsselspalte aus der Liste Verfügbar auswählen.
  3. Wenn Sie die Erfassungsmethode 'Sort Merge' ausgewählt haben, geben Sie einen Erfassungsschlüssel an, indem Sie auf eine oder mehrere Spalten in der Liste Verfügbar klicken. Die ausgewählten Spalten werden in der Liste Ausgewählt angezeigt.