Regeln aus Datenqualitätsdefinitionen erstellen
Sie können Datenqualitätsregeln aus Datenqualitätsdefinitionen in Ihrem Projekt erstellen.
Sie können mehrere Datenqualitätsdefinitionen auf eine Tabelle anwenden oder dieselbe Definition an mehrere Spalten derselben Tabelle in einer einzigen Datenqualitätsregel binden.
Im Projekt muss mindestens eine Datenqualitätsdefinition vorhanden sein.
- Voraussetzung
- Für KI-generierte Regelbeschreibungen und Ausdruckserklärungen müssen die folgenden Projekteinstellungen aktiviert sein:
- Einstellungen für Datenintelligenz : Einsatz generativer KI-Funktionen im Projekt
- Einstellungen zur Datenqualität : die Option, Datenqualitätsregeln mit KI zu erklären
Gehen Sie wie folgt vor, um eine Datenqualitätsregel aus Datenqualitätsdefinitionen zu erstellen:
Öffnen Sie ein Projekt, klicken Sie auf Neues Asset > Datenqualität messen und überwachen .
Alternativ können Sie eine Regel direkt aus einer Datenqualitätsdefinition erstellen.
Definieren Sie Details:
Geben Sie einen Namen für die Datenqualitätsregel an.
Optional: Geben Sie eine Beschreibung an. Wenn KI-generierte Beschreibungen aktiviert sind, werden beim Speichern der Regel eine Erläuterung des Ausdrucks und eine darauf basierende Beschreibung generiert. Diese Beschreibung wird dann automatisch aktualisiert, wenn Sie eine der Regelausdrücke ändern, es sei denn, Sie haben die Beschreibung bearbeitet.
Wählen Sie die Datenqualitätsdimensionen aus, zu denen diese Datenqualitätsregel beiträgt. Datenqualitätsdimensionen beschreiben die Datenqualitätsmetriken für die Regellogik in diesem Asset. Die ausgewählten Dimensionen können als Berichtskategorie, zum Filtern oder zum Visualisieren ausgewählter Daten verwendet werden.
Sie können zwischen den folgenden Optionen wählen:
- Alle voreingestellten Dimensionen anwenden
- Die Regel trägt zu den Punktwerten aller Dimensionen bei, die in den in der Regel verwendeten Datenqualitätsdefinitionen festgelegt sind. Dies ist die Standardeinstellung.
- Nur diese Dimension anwenden
- Die Regel trägt nur zum Score der ausgewählten Dimension bei. Dimensionseinstellungen für die Datenqualitätsdefinitionen, die in dieser Regel verwendet werden, werden ignoriert. Wenn Sie diese Option wählen, aber keine Datenqualitätsdimension festlegen, werden die Datenqualitätsbewertungen der einzelnen Prüfungen der Regel in der Dimension Keine erfasst.
Optional: Ändern Sie den Typ der zu erstellenden Regel in eine SQL-basierte Regel. Fahren Sie in diesem Fall mit den Anweisungen unter SQL-basierte Regel erstellenfort.
Fügen Sie mindestens eine Datenqualitätsdefinition hinzu. Wenn Sie die Regel direkt aus einer Datenqualitätsdefinition erstellen, ist diese Definition bereits vorausgewählt. Sie können diese vorausgewählte Datenqualitätsdefinition jedoch löschen und andere auswählen.
Um Datenqualitätsdefinitionen hinzuzufügen, klicken Sie auf Hinzufügen und wählen Sie alle Datenqualitätsdefinitionen aus, die Sie zum Erstellen mehrerer Prüfungen innerhalb derselben Regel verwenden wollen. Die Schaltfläche Hinzufügen ist nur verfügbar, wenn keine Datenqualitätsdefinition ausgewählt ist. Nachdem Sie mindestens eine Definition hinzugefügt haben, können Sie weitere Definitionen mithilfe des Plussymbols hinzufügen.
Für jede Datenqualitätsdefinition im Dialog Datenqualitätsdefinition auswählen wird der konfigurierte Regelausdruck im Seitenbereich angezeigt, damit Sie die für Ihren Zweck am besten geeignete Definition auswählen können.
Wenn Sie dieselbe Definition auf verschiedene Spalten einer Tabelle anwenden möchten, können Sie die ausgewählte Datenqualitätsdefinition beliebig oft duplizieren.
Für jede bestandene oder fehlgeschlagene Prüfung wird ein separater Eintrag in der Ausgabetabelle erstellt, abhängig von der Ausgabekonfiguration.
Konfigurieren Sie Bindungen.
Wenn Ihre Regel keine zusätzliche Verarbeitung der Daten erfordert, konfigurieren Sie die Bindungen direkt.
Binden Sie für jede Datenqualitätsdefinition Daten an alle Variablen im Regelausdruck. Sie können Spaltendaten, Literalwerte oder Jobparameter an eine Variable binden. Abhängig von den konfigurierten Bindungen müssen Sie möglicherweise wie im nächsten Schritt beschrieben Joins erstellen.
Zum Ausführen Ihrer Bindungen können Sie zwischen den Datenqualitätsdefinitionen wechseln, indem Sie die Pfeile Zurück und Weiter oder die Dropdown-Liste verwenden. In der Bindungstabelle werden alle Variablen mit ihrem Datentyp angezeigt. Wählen Sie für jede Variable einen Bindungstyp und die Daten aus, an die die Variable gebunden werden soll.
Wenn Sie Spaltendaten direkt an eine Variable in der Regel binden, können Sie Daten aus allen Datenassets im Projekt verwenden, die aus einer der unterstützten Verbindungen stammen. Wenn Sie Daten aus einer Verbindung binden möchten, die mit persönlichen Berechtigungsnachweisen erstellt wurde, müssen Sie zuerst die Verbindung entsperren. Zusätzlich zu den Datenbeständen aus einer Verbindung können Sie mit Datenbeständen aus Dateien im CSV-Format arbeiten, die Sie aus dem lokalen Dateisystem oder aus dateibasierten Verbindungen zu den Datenquellen hochgeladen haben.
Wenn die Datenbindungen in Ihrer Regel eine Vorverarbeitung der Daten erfordern oder wenn Sie zusätzliche Informationen in Ihre Ausgabetabelle aufnehmen möchten, können Sie die Daten nicht direkt in der Regel binden. Aktivieren Sie stattdessen die Option Bindungen extern verwalten.
Um fortzufahren, aktivieren Sie DataStage. Alle bestehenden Datenflüsse werden entfernt und ein DataStage Fluss und ein DataStage Subfluss werden erstellt. Standardmäßig heißt der DataStage Fluss
<rule_name>_DataStage_flow, aber Sie können diesen Namen ändern. Der Subflow-Name DataStage lautet jedoch immerDataStage subflow of data rule <rule_name>. Konfigurieren Sie den Fluss DataStage, nachdem Sie die Regelkonfiguration abgeschlossen haben.Eine Regel mit externen Bindungen wird als wiederverwendbarer DataStage Subflow erstellt, den Sie einmal oder mehrmals zu einer beliebigen Anzahl von DataStage Flows hinzufügen können.
Sie können optional auswählen, dass ein DataStage Fluss erstellt werden soll, der bereits eine Instanz des Regelsubflusses enthält. Diese Bewegung ist die Standardbewegung. Der Standardname dieses generierten DataStage Flusses ist
<rule_name>_DataStage_flow, aber Sie können diesen Namen ändern. Der Subflow-Name DataStage lautet jedoch immer<rule_name>_subflow. Konfigurieren Sie den Fluss DataStage, unabhängig davon, ob es sich um einen generierten Fluss handelt oder um einen Fluss, den Sie in DataStage, erstellen, nachdem Sie die Regelkonfiguration abgeschlossen haben. Siehe Verwaltung von Regeln in einem DataStage Fluss.Wenn Sie solche komplexen Regeln erstellen und Bindungen extern verwalten, können Sie mit allen Datenbeständen arbeiten, die von Verbindungen stammen, die von DataStage unterstützt werden. Siehe DataStage Anschlüsse.
Damit eine Datenqualitätsregel mit externen Bindungen zur Datenqualitätsbewertung einer Spalte und des darin enthaltenen Assets beiträgt, haben Sie folgende Möglichkeiten:
- Definieren Sie Spalten auf der Registerkarte Stufe eines Regel-Subflows. Any Validiert die Datenqualität von Beziehungen, die im Datenqualitätsregel-Asset definiert sind und dann für die Berichterstattung über die Qualitätsbewertung ignoriert werden.
- Definieren Validiert die Datenqualität der Beziehungen für die Spalten im Datenqualitätsregel-Asset. Die Qualitätsbewertung wird nur dann in diesen Spalten angezeigt, wenn Sie im Regel-Subflow keine Spalten konfiguriert haben.
Sie können in der Regel-Subflow-Phase eine feinkörnige Auswertung konfigurieren, indem Sie für jede in der Regel verwendete Datenqualitätsdefinition verschiedene Spalten auswählen. Wenn Sie keine Berichtskonfiguration angeben und Sie Assets und Spalten mit dem Beziehungstyp Validiert die Datenqualität mit einer Regel verknüpft haben, werden für diese Assets und Spalten dieselben Bewertungen und Probleme gemeldet. Wenn Sie keine Spalten für die Berichterstattung über die Qualitätsbewertung konfiguriert haben, wird überhaupt keine Bewertung gemeldet.
Zusätzlich zum Binden einer Regelvariablen an einen einzelnen Literalwert oder eine einzelne Spalte können Sie mit Jobparametern auf Projektebene arbeiten.
Sie können die Option Parameter zu Literal verwenden, um Ihre Regelvariablen an Literalwerte zu binden, die zentral verwaltet werden und zur Laufzeit geändert werden können. Solche Parameter stellen normalerweise einen Fakt oder einen bestimmten Datenabschnitt dar. Durch die Verwendung eines Parameters anstelle des tatsächlichen Werts in einer Regel stellen Sie sicher, dass die Regel immer den aktuellsten Wert verwendet, wenn sich der Wert ändert.
Bevor Sie Regelvariablen an Jobparameter binden können, müssen Sie einen wiederverwendbaren DataStage -Parametersatz erstellen:
- Klicken Sie in Ihrem Projekt auf Neues Asset > Wiederverwendbare Parametersätze definieren.
- Definieren Sie Parameter mit Standardwerten oder Wertegruppen. Zur Verwendung in Regeln können Sie Parameter des Typs date, integer, string, float, time oder timestamp definieren. Andere Typen werden nicht unterstützt.
Wenn Sie mit Wertegruppen arbeiten, können Sie den Variablenwert für jede Jobausführung ändern. Bearbeiten Sie die Laufzeitparameterwerte und führen Sie den Job erneut aus.
Sie können auch Spalten für Bindungen als Jobparameter auf Projektebene definieren, um die Verwaltung zu vereinfachen. Spaltenparameter bestehen aus einer Asset-ID und einem Spaltennamen und werden auch in DataStage -Parametersätzen gespeichert. Sie können einen neuen Parametersatz erstellen oder einem vorhandenen Parametersatz Spaltenparameter hinzufügen. In diesem Fall müssen Sie einen Parameter des Typs Zeichenfolge erstellen und die erforderliche Asset-ID und den Spaltennamen manuell als Standardwert eingeben. Die einfachere Methode ist das Hinzufügen solcher Parameter im Bindungsschritt, wenn Sie eine Regel erstellen.
- Wählen Sie als Bindungstyp Parameter aus Spalteaus. Klicken Sie anschließend auf Parameter auswählen.
- Alle verfügbaren Parametersätze werden aufgelistet. Erweitern Sie den Eintrag, mit dem Sie arbeiten wollen.
- Klicken Sie auf das Pluszeichen, um einen Parameter hinzuzufügen.
- Geben Sie den Parameternamen an. Überspringen Sie das Feld Eingabeaufforderung . Sie wird nicht für Spaltenparameter verwendet.
- Wählen Sie ein Datenasset und eine Spalte aus. Ihre Auswahl wird als Standardwert des Parameters festgelegt.
Wertesätze können nicht mit Spaltenparametern verwendet werden. Außerdem können Sie die Spaltenparameter während der Laufzeit nicht ändern.
Wenn Sie einen Spaltenparameter aktualisieren, der in mehr als einer Regel verwendet wird, müssen Sie jede dieser Datenqualitätsregeln erneut ausführen, indem Sie sie öffnen und auf Regel ausführenklicken.
In Projekten, in denen KI-generierte Inhalte aktiviert sind, werden Erläuterungen zu den verwendeten Regelausdrücken generiert, nachdem alle Bindungen abgeschlossen sind oder wenn Sie die externe Verwaltung von Bindungen auswählen. Wenn Sie einen Ausdruck in einer Regel mit direkten Bindungen ändern, wird die Erklärung für diesen Ausdruck automatisch aktualisiert.
Erstellen Sie Verknüpfungen. Wenn für Ihre Bindungen keine Verknüpfungen erforderlich sind, können Sie mit dem nächsten Schritt fortfahren. Wenn Sie in der Ausgabetabelle Daten aus mehreren Tabellen verwenden möchten, müssen Sie Verknüpfungen zu diesen Tabellen erstellen. Wenn Sie Bindungen extern verwalten, können Sie keine Verknüpfungen in der Regelkonfiguration erstellen. Joins müssen auch im DataStage -Ablauf definiert werden.
Wenn Ihre Bindungen Joins erfordern, werden die Tabellen aufgelistet. Ein Häkchen in der Spalte Join complete wird angezeigt, nachdem Sie einen Join eingerichtet haben. Führen Sie in der Tabelle Joinschlüssel die folgenden Schritte für jeden zu definierenden Join aus:
Klicken Sie auf Schlüsselpaar hinzufügen.
Klicken Sie auf Schlüssel 1. Wählen Sie dann das erste Element aus, das Sie in der Verknüpfung verwenden wollen.
Klicken Sie auf Schlüssel 2 und wählen Sie das zweite Element aus.
Wählen Sie den Verknüpfungstyp aus:
- Inner Join
- Datensätze, in denen die ausgewählten Spalten gleiche Werte enthalten, werden in das Ausgabedataset übertragen.
- Linker Outer Join
- Alle Sätze der Spalte, die für Schlüssel 1 ausgewählt ist, werden in die Ausgabetabelle übertragen. Sätze für die Spalte, die für Schlüssel 2 ausgewählt wurde, werden nur übertragen, wenn die Werte übereinstimmen.
- Rechter Outer Join
- Alle Datensätze für die Spalte, die für Schlüssel 2 ausgewählt wurde, werden in die Ausgabetabelle übertragen. Sätze für die Spalte, die für Schlüssel 1 ausgewählt wurde, werden nur übertragen, wenn die Werte übereinstimmen.
- Vollständiger Outer Join
- Alle Datensätze aus beiden Tabellen werden in die Ausgabetabelle übertragen.
Sie können den Verknüpfungstyp jederzeit ändern. Wenn Sie jedoch Ihre Auswahl für Schlüssel 1 oder 2 ändern möchten, müssen Sie das vorhandene Schlüsselpaar löschen und ein neues erstellen.
Optional: Konfigurieren Sie die Stichprobenentnahme.
Wenn Sie nicht alle Zeilen eines Datenassets auswerten möchten oder müssen, aktivieren Sie die Datenstichprobe. So können Sie Ergebnisse auf der Basis eines Bruchteils Ihrer Daten generieren.
Bei regulären verbundenen Datenassets erfolgt die Stichprobenentnahme in der Datenquelle. In den meisten Datenbanken ist die Reihenfolge der Datensätze nicht deterministisch. Daher können die Datensätze, die in die Stichprobe aufgenommen werden, von Lauf zu Lauf variieren, was bedeutet, dass sich die Ergebnisse und der Inhalt der Ausgabetabelle (sofern konfiguriert) im Laufe der Zeit ebenfalls ändern können.
Bei abfragebasierten verbundenen Datenassets erfolgt die Stichprobenentnahme nicht in der Datenquelle, sondern in der Stage 'Sample' des DataStage -Ablaufs, der der Regel zugeordnet ist.
Legen Sie die maximale Größe der Stichprobe fest. Wählen Sie die maximale Anzahl der Datensätze aus, die Sie in Ihre Datenstichprobe einschließen wollen. Der Standardwert ist 1.000 Datensätze.
Wählen Sie eine Stichprobenmethode aus:
- Sequenziell
- Die Stichprobe enthält die ersten x Datensätze des Datenassets. Abhängig von der Größe des Datenassets kann die Zahl x bis zu dem Wert betragen, den Sie als maximal zulässige Stichprobengröße angegeben haben. Wenn Sie beispielsweise 1.000.000 Datensätze haben und einen maximalen Stichprobenumfang von 2.000 angeben, enthält die Stichprobe die ersten 2.000 Datensätze.
- Intervall
- Die Stichprobe enthält jeden nten Datensatz, bis der maximal zulässige Stichprobenumfang erreicht ist. Wenn Sie beispielsweise 1.000.000 Datensätze haben und einen Stichprobenumfang von 2.000 mit einem Intervall von 10 angeben, werden maximal 20.000 Datensätze gelesen (2.000*10), wobei jeder 10. Datensatz ausgewählt wird, um den Stichprobenumfang von 2.000 abzurufen.
- Zufällig
- Die Stichprobe enthält zufällig ausgewählte Datensätze bis zum maximal zulässigen Stichprobenumfang. Die Formel zur Auswahl von Datensätzen lautet (100/sample_percent)*sample_size*2. Die Zahl 2 wird in der Formel verwendet, um sicherzustellen, dass genügend Datensätze gelesen werden, um einen gültigen Stichprobenumfang zu generieren. Wenn Sie beispielsweise 1.000.000 Datensätze haben und einen Stichprobenumfang von 2.000 und einen Prozentsatz von 5 angeben, enthält die Stichprobe 2.000 Datensätze. Zur Erstellung der Stichprobe werden maximal 80.000 Datensätze ((100/ 5) * 2.000 * 2 = 80.000) gelesen.
- Geben Sie im Feld Prozentsatz den Prozentsatz an, den Sie zum Erstellen der Stichprobe verwenden wollen. Geben Sie einen Wert größer als 0 und bis zu 100 an.
Ausgabeeinstellungen und -inhalt konfigurieren.
Wählen Sie aus, ob die Regelausgabe in eine Datenbank geschrieben werden soll. Andernfalls werden nur einige statistische Informationen im Ausführungsprotokoll der Regel bereitgestellt. Weitere Informationen finden Sie unter Konfigurieren der Ausgabeeinstellungen für Datenqualitätsregeln.
Überprüfen Sie Ihre Konfiguration. Sie können eine Regel mit direkten Bindungen testen, bevor Sie sie im Projekt speichern, um sicherzustellen, dass Ihre Regel richtig konfiguriert ist. Die Ausgabe des Regeltests wird direkt angezeigt und entspricht Ihrer Konfiguration in den Ausgabeeinstellungen.
Um die Konfiguration zu ändern, klicken Sie auf das Symbol
„Bearbeiten“ auf der Kachel und aktualisieren Sie die Einstellungen.
Klicken Sie nach Abschluss der Überprüfung auf Erstellen. Bei einer Regel mit direkten Bindungen werden die Regel und der zugehörige DataStage Fluss zum Projekt hinzugefügt. Der Standardname des DataStage -Ablaufs lautet
DataStage flow of data rule <rulename>. Bearbeiten Sie diesen Ablauf nicht.Wenn Ihre Regel mit extern verwalteten Bindungen konfiguriert ist, werden die Regel und der zugehörige Subflow sowie je nach Konfiguration ein Standardflow DataStage dem Projekt als Assets hinzugefügt, wenn Sie auf Erstellen klicken.
Eine solche Regelung ist jedoch noch nicht einsatzbereit. Bevor Sie die Regel ausführen können, müssen Sie den Fluss DataStage bearbeiten. Für eine Regel mit einem Standardfluss DataStage können Sie auch DataStage Fluss erstellen und bearbeiten wählen. In diesem Fall werden die Regel und der Fluss DataStage und sein Unterfluss ebenfalls zum Projekt hinzugefügt, aber Sie werden direkt zur Konfiguration des Flusses DataStage geleitet. Weitere Informationen zum Konfigurieren des Flusses finden Sie unter DataStage flows.
Wenn Ihre Regel ordnungsgemäß konfiguriert ist, ohne dass Informationen fehlen, hat sie den Status Bereit. Dieser Status bedeutet, dass die Regel ausgeführt werden kann. Der Regelstatus Nicht bereit zeigt an, dass die Regel nicht ausgeführt werden kann, weil einige Abhängigkeiten geändert wurden. Beispielsweise wurde die Datenqualitätsdefinition aktualisiert oder eine Tabelle, die in den Bindungen der Regel verwendet wird, entfernt. Der Status Nicht bereit wird auch für Regeln mit extern verwalteten Bindungen angezeigt, wenn der zugehörige DataStage -Ablauf nicht konfiguriert ist. Nach der Konfiguration des Ablaufs können Sie die Regel validieren, indem Sie im Überlaufmenü die Option Validieren auswählen. Wenn die Validierung erfolgreich ist, wird der Status auf Bereitgesetzt und Sie können die Regel ausführen.
Eine Regel ist nach Änderungen am Datenasset, das von der Regel analysiert wird, möglicherweise nicht mehr gültig. Daher kann es sinnvoll sein, den Regelstatus in jedem Fall zu validieren, bevor Sie eine Regel manuell ausführen.
Verwaltung von Regeln in einem DataStage Fluss
So fügen Sie eine Datenqualitätsregel zu einem DataStage Fluss hinzu:
Öffnen Sie den Fluss, mit dem Sie arbeiten möchten.
Wählen Sie unter Connectors > Asset browser die Datenqualitätsregel aus, die Sie hinzufügen möchten. Die Regel wird als Subflow hinzugefügt.
Konfigurieren Sie im Hauptablauf die Vor- und Nachverarbeitung nach Bedarf und verbinden Sie die Knoten mit dem Regelsubablauf.
Um Knoteneigenschaften wie die Eingabe- oder Ausgabespalten zu bearbeiten, doppelklicken Sie auf den Regelknoten. Die eigentliche Regelkonfiguration können Sie nicht ändern.
Wählen Sie auf der Registerkarte Stufe die Spalten aus, für die Sie die Qualitätsbewertung melden möchten. Sie können fein abgestufte Auswertungen konfigurieren, indem Sie für jede in der Regel verwendete Datenqualitätsdefinition verschiedene Spalten auswählen. Wenn Sie in der Regel-Subflow-Phase keine Berichtskonfiguration angeben und Sie Assets und Spalten mit dem Beziehungstyp Validiert die Datenqualität von mit einer Regel verknüpft haben, werden für diese Assets und Spalten dieselben Bewertungen und Probleme gemeldet. Wenn Sie keine Spalten für die Berichterstattung über die Qualitätsbewertung konfiguriert haben, wird überhaupt keine Bewertung gemeldet.
Um die Logik oder andere Aspekte der Datenqualitätsregel zu aktualisieren, öffnen Sie das Regel-Asset im Projekt. Änderungen, die Sie am Datenqualitätsregel-Asset vornehmen, werden in allen DataStage Abläufen berücksichtigt, in denen die Regel enthalten ist.
Speichern Sie Ihren Fluss.
Weitere Informationen
- Datenqualitätsassets
- Datenqualitätsdefinitionen verwalten
- Unterstützte Connectors für Kuration und Datenqualität
- Parameter und Parametersätze erstellen und verwenden
- SQL-basierte Regeln erstellen
- IBM Knowledge Catalog API: Datenqualitätsregel erstellen
- IBM Knowledge Catalog API: Datenqualitätsregel validieren
- IBM Knowledge Catalog API: Auflistung aller Datenqualitätsdefinitionen oder einer Teilmenge von ihnen
- IBM Knowledge Catalog API: Datenqualitätsdefinition abrufen