Datenqualität verwalten
Messen, überwachen und pflegen Sie die Qualität Ihrer Daten, um sicherzustellen, dass die Daten Ihren Erwartungen und Standards für bestimmte Anwendungsfälle entsprechen.
Daten guter Qualität befinden sich in einem Zustand, der normalerweise als für die Verwendung geeignet, fehlerfreioder den Erwartungen und Anforderungen gerechtdefiniert werden kann. Die Datenqualität wird anhand der Standardqualitätsdimensionen Genauigkeit, Vollständigkeit, Konsistenz, Aktualität, Eindeutigkeitund Gültigkeitsowie aller angepassten Qualitätsdimensionen gemessen.
Die Datenqualitätsanalyse liefert Antworten auf folgende Fragen:
- Wie gut ist die Gesamtqualität eines Datenassets?
- Welches Datenasset hat die bessere Qualität?
- Wie hat sich die Qualität eines Datenassets im Laufe der Zeit verändert?
- Entspricht der Datenbestand meinen Qualitätsansprüchen?
Anforderungen und Einschränkungen
Für das Datenqualitätsmanagement gelten die folgenden Anforderungen und Einschränkungen.
Erforderliche Services
Für das Datenqualitätsmanagement sind folgende Services erforderlich:
- IBM watsonx.data intelligence
- DataStage oder DataStage as a Service Anywhere
Mit DataStage, können Sie Datenqualitätsregeln in den unterstützten Regionen ausführen. Mit DataStage as a Service Anywhere können Sie Datenqualitätsregeln außerhalb von IBM Cloud ausführen, indem Sie Remote-Engines verwenden. Weitere Informationen zum Einrichten von Remote-Engines finden Sie in der Dokumentation zuDataStage as a Service Anywhere.
Datenqualitätstools
Sie arbeiten mit den folgenden Tools:
- Metadatenanreicherung
- Datenqualitätsdefinitionen
- Datenqualitätsregeln
Datenformate
Die folgenden Datenformate werden unterstützt:
- Tabellen aus relationalen und nicht relationalen Datenquellen
- Delta Lake und Iceberg-Tabellen von bestimmten Dateispeicher-Konnektoren
- Anreicherung von Metadaten: Dateien, die aus dem lokalen Dateisystem oder aus dateibasierten Verbindungen zu den Datenquellen hochgeladen werden, mit den Formaten CSV, TSV, Avro, Parquet, Microsoft Excel (bei Arbeitsmappen, die aus dem lokalen Dateisystem hochgeladen werden, wird nur das erste Blatt einer Arbeitsmappe profiliert)
- Regeln für die Datenqualität: Dateien, die aus dem lokalen Dateisystem oder aus dateibasierten Verbindungen zu den Datenquellen hochgeladen werden, mit den Formaten Avro, CSV, Parquet, ORC; für Datenbestände, die aus dem lokalen Dateisystem hochgeladen werden, nur CSV
Informationen zu unterstützten Connectors finden Sie unter Unterstützte Datenquellen für Kuration und Datenqualität.
Datenmenge
Datenqualitätsmanagementtasks können für Daten beliebiger Größe ausgeführt werden.
Erforderliche Berechtigungen
Ihre Rollen bestimmen, welche Tasks für das Datenqualitätsmanagement Sie ausführen können:
- Um Metadatenanreicherungs-Assets oder Datenqualitätsdefinitionen und -regeln anzeigen zu können, müssen Sie im Projekt mindestens die Rolle Betrachter haben.
- Um die Metadatenanreicherung zu erstellen, zu bearbeiten, zu löschen oder auszuführen, müssen Sie im Projekt die Rolle Admin oder Editor haben.
- Zum Erstellen, Bearbeiten oder Löschen von Datenqualitätsdefinitionen und -regeln benötigen Sie die Rolle Administrator oder die Rolle Editor im Projekt. Darüber hinaus müssen Sie die Benutzerberechtigung Datenqualitäts-Assets verwalten haben.
- Um Datenqualitätsregeln auszuführen, müssen Sie im Projekt die Rolle Admin oder Editor und die Benutzerberechtigung Datenqualitätsregeln ausführen haben.
- Um die Daten, die zu Datenqualitätsproblemen geführt haben (die Ausgabetabelle), im Regelverlauf oder auf der Seite Datenqualität anzeigen zu können, müssen Sie über die Benutzerberechtigung Drilldown zu Ausgabedetails verfügen. Der Datenbestand im Projekt, der für die Ausgabetabelle erstellt wird, ist jedoch für jeden zugänglich, der auf die Verbindung zugreifen kann. Um den Zugriff auf diesen Datenbestand einzuschränken, sollte die Verbindung zu der Datenquelle, in der die Ausgabetabelle gespeichert ist, mit persönlichen Zugangsdaten eingerichtet werden.
- Um SLA-Regeln für die Datenqualität zu erstellen, zu bearbeiten oder zu löschen, müssen Sie über diese Benutzerberechtigungen verfügen:
- Auf Governance-Artefakte zugreifen
- SLA-Regeln für Datenqualität verwalten
Arbeitsbereiche
Sie können Datenqualitätsmanagementtasks in Projekten ausführen. Informationen zur schreibgeschützten Datenqualität sind in Katalogen verfügbar.
Datenqualitätsanalyse und -überwachung
Verwenden Sie Datenqualitätsanalyse und -überwachung, um Daten anhand bestimmter Kriterien auszuwerten. Verwenden Sie diese Bewertungskriterien im Laufe der Zeit wiederholt, um wichtige Änderungen in der Qualität der zu validierenden Daten zu sehen.
Sie können die Datenqualität im Rahmen der Metadatenanreicherung analysieren, indem Sie die Datenqualitätsprüfungen nutzen, die automatisch für Ihre Daten generiert werden. Sie können auch Datenqualitätsprüfungen entwerfen, die einzeln durchgeführt werden.
Nach dem Entwurf einer Datenqualitätsprüfung haben Sie folgende Möglichkeiten:
Erstellen Sie eine Datenqualitätsdefinition, die die Logik der Datenprüfung unabhängig von der Datenquelle definiert. Die Definition enthält logische Variablen oder Verweise, die Sie verknüpfen oder binden , wenn Sie eine Datenqualitätsregel erstellen, die ausgeführt werden kann.
Nachdem Sie eine Datenqualitätsregel mit den erforderlichen Bindungen basierend auf einer ausgewählten Datenqualitätsdefinition erstellt haben, kann diese Regel ausgeführt werden. Die Regel erzeugt relevante Statistiken und kann je nach Regelkonfiguration eine Ausgabetabelle generieren.
Erstellen Sie eine SQL-basierte Datenqualitätsregel.
Die Funktionalität einer Datenqualitätsregel kann von einem einfachen Einzelspaltentest bis zur Auswertung mehrerer Spalten innerhalb und zwischen Datenquellen reichen.
Datenqualität bewerten
Um festzustellen, ob Ihre Daten von guter Qualität sind, prüfen Sie, wie weit die Daten Ihren Erwartungen entsprechen, und identifizieren Sie Anomalien in den Daten. Die Bewertung der Daten auf Qualität hilft Ihnen darüber hinaus, Struktur und Inhalt der Daten zu verstehen.
Überwachung der Datenqualität
Um sicherzustellen, dass wichtige Daten die Qualitätserwartungen Ihres Unternehmens erfüllen, sollten Sie SLA-Regeln für die Datenqualität implementieren, die Ihre Daten auf die Einhaltung der Standards hin überwachen und bei erkannten Datenqualitätsproblemen für Abhilfe sorgen können.