SQL-basierte Datenqualitätsregeln erstellen

Sie können SQL-basierte Datenqualitätsregeln erstellen, um die Qualität der Daten in Ihrem Projekt zu bewerten. Verwenden Sie solche Regeln zum Messen von Fehlern, anstatt die Einhaltung bestimmter Qualitätskriterien zu bewerten.

Damit eine SQL-basierte Datenqualitätsregel zu den Datenqualitätsbewertungen einer Spalte und des darin enthaltenen Assets beiträgt, fügen Sie diese Spalte als verwandtes Element zur entsprechenden Regel hinzu. Verwenden Sie den Beziehungstyp Validiert die Datenqualität von . Für alle Spalten, die mit diesem Beziehungstyp verknüpft sind, werden dieselbe Punktzahl und dieselben Probleme gemeldet.

Voraussetzung

Für KI-generierte Regelbeschreibungen und Ausdruckserklärungen müssen die folgenden Projekteinstellungen aktiviert sein:

Einstellungen für Datenintelligenz : Einsatz generativer KI-Funktionen im Projekt
Einstellungen zur Datenqualität : die Option, Datenqualitätsregeln mit KI zu erklären

So erstellen Sie eine SQL-basierte Datenqualitätsregel:

Öffnen Sie ein Projekt, klicken Sie auf Neues Asset > Datenqualität messen und überwachen .
Definieren Sie Details:
- Geben Sie einen Namen für die Datenqualitätsregel an.
- Optional: Geben Sie eine Beschreibung an. Wenn KI-generierte Beschreibungen aktiviert sind, werden beim Speichern der Regel eine Erläuterung des Ausdrucks und eine darauf basierende Beschreibung generiert. Diese Beschreibung wird dann automatisch aktualisiert, wenn Sie die SQL-Anweisung ändern, es sei denn, Sie haben die Beschreibung bearbeitet.
- Optional: Wählen Sie eine Datenqualitätsdimension aus, um die primäre Datenqualitätsmetrik für die Regellogik in diesem Asset zu beschreiben. Die ausgewählte Dimension kann als Berichtskategorie, zum Filtern oder zum Visualisieren ausgewählter Daten verwendet werden.
  
  Wenn Sie Ihre Regel aus einer Datenqualitätsdefinition erstellen, ist möglicherweise bereits eine Datenqualitätsdimension festgelegt. Sie können sie beibehalten, die Dimensionseinstellung löschen oder eine andere Dimension auswählen.
Wählen Sie die Logik der SQL-Abfrage aus.
Geben Sie die Quelle der zu prüfenden Daten an, indem Sie eine vorhandene Verbindung auswählen oder eine neue erstellen. Informationen zu unterstützten Datenquellen finden Sie unter Unterstützte Datenquellen für Kuration und Datenqualität.

Wenn Sie eine vorhandene Verbindung auswählen und diese Verbindung mit persönlichen Berechtigungsnachweisen erstellt wurde, müssen Sie die Verbindung entsperren.
Erstellen Sie Ihre SQL-Abfrage. Sie können die SQL-Abfrage selbst erstellen oder eine reine Textabfrage eingeben und diese mit Hilfe eines der verfügbaren Modelle in SQL umwandeln lassen.

Die Möglichkeit, mit reinen Textabfragen zu arbeiten, ist die technische Vorschaufunktion. Technologievorschaufunktionen sind für die Entwicklung und für Tests verfügbar, aber nicht für den Einsatz in der Produktion gedacht.

Um mit einfachen Textabfragen arbeiten zu können, muss das Projekt für natürliche Sprachabfragen aktiviert sein. Dies ist jedoch nur einmalig operation.For erforderlich. Weitere Informationen finden Sie unter „Einstellungen für Datenintelligenz-Tools “.

Sie können den Modellen zusätzlichen Kontext für eine genauere und kontextbewusste SQL-Ausgabe zur Verfügung stellen, indem Sie Abfragebeispiele hochladen. Weitere Informationen finden Sie unter Bereitstellen zusätzlicher Kontextinformationen für Text-zu-SQL-Konvertierungen.

Beachten Sie: Es kann nicht garantiert werden, dass die generierten Abfragen bei jedem Durchlauf identisch sind, sodass es zu Abweichungen kommen kann.
1. Geben Sie im Freitextfeld der Registerkarte „SQL“ Ihre Textabfrage ein, wählen Sie eines der verfügbaren Modelle () aus und generieren Sie die SQL-Anweisung. Aufgrund der Funktionsweise von SQL-basierten Regeln sollten Sie darauf achten, eine Abfrage einzugeben, die die Ausnahmesätze zurückgibt. Zum Beispiel: "Das Bestelldatum liegt in der Zukunft" oder "Der Kunde ist unter 18 Jahre alt".
  
  Tipp: Das meta-llama/llama-3-3-70b model ist besser darin, Anweisungen zur Konvertierung von Text in SQL zu befolgen, und liefert daher möglicherweise genauere Ergebnisse als Granite Modelle.
  
  Wenn Sie Ihre Textabfrage eingeben, können Sie zusätzliche Informationen angeben, die als benutzerdefinierte Eingabeaufforderung für das Modell dienen. Stellen Sie diesen zusätzlichen Informationen den Haftungsausschluss Note: voran.
2. Kopieren Sie die generierte SQL-Anweisung in den SQL-Bereich. Sie können die SQL-Abfrage bei Bedarf noch aktualisieren.
Unabhängig davon, ob Sie die Abfrage selbst erstellen oder eine generierte Abfrage verwenden, stellen Sie sicher, dass die SELECT-Anweisung die folgenden Bedingungen erfüllt:
- Die Anweisung gibt nur Spalten mit eindeutigen Namen zurück. Spalten mit doppelten Namen führen zu Gültigkeitsfehlern.
- Die Anweisung gibt die Anzahl der Datensätze zurück, die Ihre Datenqualitätsbedingung nicht erfüllen. SQL-basierte Regeln funktionieren anders als Regeln, die aus Datenqualitätsdefinitionen erstellt wurden. Sie geben die Datensätze, die die Anweisung SELECT zurückgibt, als failed oder Not metzurück. Außerdem entspricht die Gesamtzahl der gemeldeten Datensätze der Anzahl der zurückgegebenen Datensätze und nicht der Anzahl der geprüften Datensätze.
Angenommen, Sie haben eine Tabelle db2admin.credit_card mit 31 Zeilen und möchten überprüfen, wie viele Datensätze mit dem Kartentyp AMEX in der Tabelle enthalten sind. Der Unterschied ist wie folgt:

Datenqualitätsregel aus einer Datenqualitätsdefinition
Sie suchen nach Datensätzen, bei denen der Kartentyp AMEX ist.
Ausdruck in der Datenqualitätsdefinition: Col = 'AMEX'
Ausdruck in der Datenqualitätsregel gebunden: credit_card.card_type = 'AMEX'
Beispielergebnis: Total: 31 | Met: 4 (12.9%) Not met: 27 (87.1%)

SQL-basierte Datenqualitätsregel
Sie suchen nach Datensätzen, bei denen der Kartentyp nicht AMEX ist.
SELECT-Anweisung: select card_type from db2admin.credit_card where card_type <> 'AMEX'
Beispielergebnis: Total: 27 | Met: 0 (0%) Not met: 27 (100%)

Überprüfen Sie auch die Gruppe der SQL-Beispielanweisungen für Datenqualitätsregeln. Diese Beispiele veranschaulichen, wie SQL-Regeln geschrieben werden, um Datensätze zurückzugeben, die Ihre Qualitätskriterien nicht erfüllen. Sie können die bereitgestellten Anweisungen in Ihre eigenen Datenqualitätsregeln kopieren und nach Bedarf anpassen.
- Beachten Sie die folgenden Konventionen für die Angabe von Spalten-, Tabellen-und Schemanamen in Ihrer Anweisung SELECT:
  - Bei Tabellen-und Schemanamen in PostgreSQL -Datenquellen muss die Groß-/Kleinschreibung beachtet werden. Möglicherweise müssen Sie die Namen wie im folgenden Beispiel in Anführungszeichen einschließen: "schema". "tabellenname"
  - Vermeiden Sie SELECT * -Abfragen. Solche Abfragen können Gültigkeitsfehler verursachen, wenn sich Spaltennamen ändern. Grenzen Sie die Spaltenauswahl ein.
  - Wenn der Spaltenname nicht mit einem alphabetischen Zeichen beginnt oder andere Zeichen als alphabetische Zeichen, numerische Zeichen oder Unterstreichungszeichen enthält, verwenden Sie einen Aliasnamen für den Spaltennamen.
Sie können die SQL-Anweisungen jederzeit testen. Beachten Sie, dass der Test nur die Namen der von Ihrer Abfrage ausgewählten Spalten zurückgibt. Es erfolgt keine tatsächliche Verarbeitung. Eine Gültigkeitsprüfung wird ausgeführt, wenn Sie auf Weiterklicken. Sie können erst fortfahren, wenn Ihre Abfrage diese Prüfung besteht.

In Projekten, in denen KI-generierte Inhalte aktiviert sind, wird beim Speichern der Regel eine Erläuterung zur SQL-Anweisung generiert. Die Erklärung wird bei jeder Änderung der SQL-Anweisung aktualisiert.
Ausgabeeinstellungen und -inhalt konfigurieren.

Wählen Sie aus, ob die Regelausgabe in eine Datenbank geschrieben wird. Andernfalls werden nur einige statistische Informationen im Ausführungsprotokoll der Regel bereitgestellt. Weitere Informationen finden Sie unter Konfigurieren der Ausgabeeinstellungen für Datenqualitätsregeln.
Überprüfen Sie Ihre Konfiguration. Um sicherzustellen, dass Ihre Regel ordnungsgemäß konfiguriert ist, können Sie sie testen, bevor Sie sie im Projekt speichern. Die Ausgabe des Regeltests wird direkt angezeigt und entspricht Ihrer Konfiguration in den Ausgabeeinstellungen.

Um Änderungen an der Konfiguration vorzunehmen, klicken Sie auf das Symbol „Bearbeiten“ auf der Kachel und aktualisieren Sie die Einstellungen. Wenn Ihre Überprüfung abgeschlossen ist, klicken Sie auf Erstellen. Die Regel und der zugehörige DataStage-Fluss werden dem Projekt hinzugefügt. Der Standardname des DataStage Flusses ist DataStage flow of data rule <rulename>.

Wenn Ihre Regel ordnungsgemäß konfiguriert ist, ohne dass Informationen fehlen, hat sie den Status Bereit. Dieser Status bedeutet, dass die Regel ausgeführt werden kann. Der Regelstatus Nicht bereit gibt an, dass die Regel aufgrund von SQL-Syntaxfehler, geänderten Abhängigkeiten oder anderen Regeldefinitionsproblemen nicht ausgeführt werden kann. Beispielsweise wurde das Kennwort für den Zugriff auf die Datenquelle geändert. Dieser Status ist eher bei Datenqualitätsregeln zu sehen, die mit Hilfe von IBM Knowledge Catalog API: Datenqualitätsregel erstellen erstellt wurden. Stellen Sie beim Erstellen von Datenqualitätsregeln mithilfe der API sicher, dass auch die Regel getestet und validiert wird.

Um zu bestätigen, dass eine Regel noch gültig ist, bevor Sie sie manuell ausführen können, können Sie den Regelstatus überprüfen, indem Sie im Überlaufmenü Validieren auswählen.

Weitere Informationen

Nächste Schritte

Datenqualität bewerten