Survive stage in „ DataStage “
Die Gruppen „ Survive stage “ duplizieren Datensätze und erstellen Ausgabedatensätze mit den besten verfügbaren Daten für jede Gruppe.
Sie können „ Survive stage “ als letzte Stufe der Datenaufbereitung verwenden, um die Ausgabe einer Abgleichstufe zu verarbeiten und zu verbessern. Der „ Survive stage “ verwendet die von Ihnen festgelegten Regeln, um die besten Spalten aus einer Gruppe von Datensätzen auszuwählen und einen Ausgabedatensatz mit den besten verfügbaren Daten der Gruppe zu erstellen.
Eingabe
Der Survive stage benötigt eine Eingangsquelle. Wenn Ihre Eingabe das Ergebnis einer Abgleichphase ist, müssen Sie eine weitere Phase (z. B. „ Funnel stage “) einrichten, um die Master- und Duplikatdatensätze zu einer Eingabequelle zusammenzufassen. Der ` Survive stage ` akzeptiert alle grundlegenden Datentypen außer Binärdaten. Die Eingabedaten müssen nicht durch eine Abgleichstufe verarbeitet werden und können aus einer Datenbank, einem Konnektor, einer Flatfile, einem Datensatz oder einer anderen Stufe stammen. Die Eingabedaten müssen zusammengehörige Datensatzgruppen mit einer oder mehreren Spalten enthalten, anhand derer jede Gruppe identifiziert werden kann.
Eigenschaften
Wählen Sie eine Spalte zur Gruppenidentifizierung aus. Die Funktion „ Survive stage “ gruppiert Datensätze mit doppelten Werten für diese Spalte. Die Funktion „ Survive stage “ sortiert Ihre Daten ebenfalls nach dem Wert der Spalte „group identification“. Wenn Sie nicht möchten, dass Ihre Daten nach der Spalte „Gruppenidentifikation“ sortiert werden, deaktivieren Sie die Option „Eingabedaten sortieren“ (standardmäßig ausgewählt). Um die Reihenfolge der Datensätze innerhalb von Gruppen zu steuern, verwenden Sie einen Sortierbefehl ( Sort stage ), um die Eingabedaten vorab zu sortieren.
Regeln festlegen
Bearbeiten Sie die Spalten der Überlebensregel, um Regeln für die anderen Spalten hinzuzufügen. Eine Regel enthält eine Reihe von Bedingungen und eine Liste mit einer oder mehreren Zielspalten. Jeder Datensatz wird anhand der Regeln geprüft. Wenn eine Spalte die Bedingungen erfüllt, wird der Spaltenwert dieses Datensatzes zum besten Kandidatenwert für die Zielspalte. Nachdem alle Datensätze in einer Gruppe getestet wurden, wird der Ausgabedatensatz aus den besten Kandidatenwerten für jede Spalte zusammengestellt.
| Verfahren | Muster |
|---|---|
| Kürzestes Feld | SIZEOF(TRIM(c."column"))<=
SIZEOF(TRIM(b."column")) |
| Längstes Feld | SIZEOF(TRIM(c."column"))>=
SIZEOF(TRIM(b."column")) |
| Am häufigsten | FREQUENCY |
| Am häufigsten (nicht leer) | FREQUENCY (Überspringt fehlende Werte, wenn die Häufigkeit gezählt wird.) |
| Ist gleich | c."column" = "DATA" |
| Ungleich | c."column" <> "DATA" |
| Größer als | c."column" >= "DATA" |
| Kleiner als | c."column" <= "DATA" |
| Mindestens eins | 1 (Mindestens ein Datensatz bleibt erhalten, unabhängig von anderen Regeln.) |
b.column ist der Wert, der als beste verfügbare Spalte gespeichert ist, während die c.column aktuelle Spalte ist, die analysiert wird. Wenn alle Spalten einen Wert enthalten, gibt diese Regel den ersten Datensatz als besten Datensatz aus.SIZEOF(TRIM(b.column)) = 0 AND SIZEOF(TRIM(c.column)) >= 0Ausgabe
Der „ Survive stage “ kann nur einen Ausgangs-Link haben, der die Ausgangsdatensätze aus jeder Gruppe erzeugt. Jeder Ausgabedatensatz kann aus einem gesamten Eingabedatensatz, ausgewählten Spalten aus dem Datensatz oder ausgewählten Spalten aus verschiedenen Datensätzen in der Gruppe bestehen.
Nehmen wir beispielsweise die folgenden Eingaben aus einer One-Source-Match-Phase, in der diese Datensätze als wahrscheinlich derselben Person zugehörig identifiziert und ihnen ein gemeinsamer qsMatchSetID Wert zugewiesen wurde.
| qsMatchSetID | Vorname | Mittlere Initiale | Familienname | Suffix |
|---|---|---|---|---|
| 9 | Jon | KALKBRENNER | Jr | |
| 9 | J | SMITHE | ||
| 9 | John | E | KALKBRENNER |
Mit dem „ Survive stage “ können Sie Regeln festlegen, die die Spalten „Given Name“, „Middle Initial “ und „Suffix“ nach ihrer Länge analysieren, wobei das längste Feld als bester Wert gilt. Sie können eine Regel festlegen, um die Spalte „Familienname“ nach Häufigkeit zu analysieren, wobei der häufigste Wert als bester Wert gilt. Die Funktion „ Survive stage “ erstellt das folgende Ergebnis als Ausgabedatensatz.
| qsMatchSetID | Vorname | Mittlere Initiale | Familienname | Suffix |
|---|---|---|---|---|
| 9 | John | E | KALKBRENNER | Jr |