Survive stage in „ DataStage “

Die Gruppen „ Survive stage “ duplizieren Datensätze und erstellen Ausgabedatensätze mit den besten verfügbaren Daten für jede Gruppe.

Sie können „ Survive stage “ als letzte Stufe der Datenaufbereitung verwenden, um die Ausgabe einer Abgleichstufe zu verarbeiten und zu verbessern. Der „ Survive stage “ verwendet die von Ihnen festgelegten Regeln, um die besten Spalten aus einer Gruppe von Datensätzen auszuwählen und einen Ausgabedatensatz mit den besten verfügbaren Daten der Gruppe zu erstellen.

Eingabe

Der Survive stage benötigt eine Eingangsquelle. Wenn Ihre Eingabe das Ergebnis einer Abgleichphase ist, müssen Sie eine weitere Phase (z. B. „ Funnel stage “) einrichten, um die Master- und Duplikatdatensätze zu einer Eingabequelle zusammenzufassen. Der ` Survive stage ` akzeptiert alle grundlegenden Datentypen außer Binärdaten. Die Eingabedaten müssen nicht durch eine Abgleichstufe verarbeitet werden und können aus einer Datenbank, einem Konnektor, einer Flatfile, einem Datensatz oder einer anderen Stufe stammen. Die Eingabedaten müssen zusammengehörige Datensatzgruppen mit einer oder mehreren Spalten enthalten, anhand derer jede Gruppe identifiziert werden kann.

Eigenschaften

Wählen Sie eine Spalte zur Gruppenidentifizierung aus. Die Funktion „ Survive stage “ gruppiert Datensätze mit doppelten Werten für diese Spalte. Die Funktion „ Survive stage “ sortiert Ihre Daten ebenfalls nach dem Wert der Spalte „group identification“. Wenn Sie nicht möchten, dass Ihre Daten nach der Spalte „Gruppenidentifikation“ sortiert werden, deaktivieren Sie die Option „Eingabedaten sortieren“ (standardmäßig ausgewählt). Um die Reihenfolge der Datensätze innerhalb von Gruppen zu steuern, verwenden Sie einen Sortierbefehl ( Sort stage ), um die Eingabedaten vorab zu sortieren.

Regeln festlegen

Bearbeiten Sie die Spalten der Überlebensregel, um Regeln für die anderen Spalten hinzuzufügen. Eine Regel enthält eine Reihe von Bedingungen und eine Liste mit einer oder mehreren Zielspalten. Jeder Datensatz wird anhand der Regeln geprüft. Wenn eine Spalte die Bedingungen erfüllt, wird der Spaltenwert dieses Datensatzes zum besten Kandidatenwert für die Zielspalte. Nachdem alle Datensätze in einer Gruppe getestet wurden, wird der Ausgabedatensatz aus den besten Kandidatenwerten für jede Spalte zusammengestellt.

Wenn Sie eine Regel hinzufügen, können Sie eine integrierte Bedingung aus der Liste der Techniken auswählen oder auf die drei vertikalen Punkte klicken und im Ausdruckseditor eine komplexe Regel erstellen. Eine einfache Regel vergleicht jede Spalte eines Datensatzes mit dem aktuell besten Wert für diese Spalte, der anhand der ausgewählten Technik bewertet wird.
Verfahren Muster
Kürzestes Feld SIZEOF(TRIM(c."column"))<= SIZEOF(TRIM(b."column"))
Längstes Feld SIZEOF(TRIM(c."column"))>= SIZEOF(TRIM(b."column"))
Am häufigsten FREQUENCY
Am häufigsten (nicht leer) FREQUENCY (Überspringt fehlende Werte, wenn die Häufigkeit gezählt wird.)
Ist gleich c."column" = "DATA"
Ungleich c."column" <> "DATA"
Größer als c."column" >= "DATA"
Kleiner als c."column" <= "DATA"
Mindestens eins 1 (Mindestens ein Datensatz bleibt erhalten, unabhängig von anderen Regeln.)
Geben Sie nur dann einen Wert für DATA an, wenn Sie „Gleich“, „Ungleich“, „Größer als“ oder „Kleiner als“ auswählen.
Eine komplexe Regel ist ein Ausdruck, den Sie im Ausdruckseditor schreiben. Um eine komplexe Regel zu definieren, wählen Sie die Spalten aus, auf die die Regel angewendet wird, die Funktionen, die auf deren Werte angewendet werden, und die Operation, mit der die Ergebnisse verglichen werden. Wählen Sie einen aktuellen Datensatz und einen besten Datensatz aus der Spaltenliste aus, wählen Sie aus der Funktionsliste aus, ob Sie SIZEOF, TRIM oder beides verwenden möchten, und wählen Sie aus der Operatorenliste einen Operator aus, um Ihre komplexe Regel zu erstellen. Die folgende Regel ist ein Beispiel für eine komplexe Regel, die beide Funktionen, den AND-Operator, den =-Operator und den >= -Operator verwendet. b.column ist der Wert, der als beste verfügbare Spalte gespeichert ist, während die c.column aktuelle Spalte ist, die analysiert wird. Wenn alle Spalten einen Wert enthalten, gibt diese Regel den ersten Datensatz als besten Datensatz aus.
SIZEOF(TRIM(b.column)) = 0 AND SIZEOF(TRIM(c.column)) >= 0

Ausgabe

Der „ Survive stage “ kann nur einen Ausgangs-Link haben, der die Ausgangsdatensätze aus jeder Gruppe erzeugt. Jeder Ausgabedatensatz kann aus einem gesamten Eingabedatensatz, ausgewählten Spalten aus dem Datensatz oder ausgewählten Spalten aus verschiedenen Datensätzen in der Gruppe bestehen.

Nehmen wir beispielsweise die folgenden Eingaben aus einer One-Source-Match-Phase, in der diese Datensätze als wahrscheinlich derselben Person zugehörig identifiziert und ihnen ein gemeinsamer qsMatchSetID Wert zugewiesen wurde.

qsMatchSetID Vorname Mittlere Initiale Familienname Suffix
9 Jon   KALKBRENNER Jr
9 J   SMITHE  
9 John E KALKBRENNER  

Mit dem „ Survive stage “ können Sie Regeln festlegen, die die Spalten „Given Name“, „Middle Initial “ und „Suffix“ nach ihrer Länge analysieren, wobei das längste Feld als bester Wert gilt. Sie können eine Regel festlegen, um die Spalte „Familienname“ nach Häufigkeit zu analysieren, wobei der häufigste Wert als bester Wert gilt. Die Funktion „ Survive stage “ erstellt das folgende Ergebnis als Ausgabedatensatz.

qsMatchSetID Vorname Mittlere Initiale Familienname Suffix
9 John E KALKBRENNER Jr