Datenqualität verwalten
Messen, überwachen und pflegen Sie die Qualität Ihrer Daten, um sicherzustellen, dass die Daten Ihren Erwartungen und Standards für bestimmte Anwendungsfälle entsprechen.
Daten guter Qualität befinden sich in einem Zustand, der normalerweise als für die Verwendung geeignet, fehlerfreioder den Erwartungen und Anforderungen gerechtdefiniert werden kann. Die Datenqualität wird anhand der Standardqualitätsdimensionen Genauigkeit, Vollständigkeit, Konsistenz, Aktualität, Eindeutigkeitund Gültigkeitsowie aller angepassten Qualitätsdimensionen gemessen.
Die Datenqualitätsanalyse liefert Antworten auf folgende Fragen:
- Wie gut ist die Gesamtqualität eines Datenassets?
- Welches Datenasset hat die bessere Qualität?
- Wie hat sich die Qualität eines Datenassets im Laufe der Zeit verändert?
- Entspricht der Datenbestand meinen Qualitätsansprüchen?
Anforderungen und Einschränkungen
Für das Datenqualitätsmanagement gelten die folgenden Anforderungen und Einschränkungen.
Erforderliche Services
Für das Datenqualitätsmanagement sind folgende Services erforderlich:
- IBM watsonx.data intelligence
- DataStage oder DataStage as a Service Anywhere
Mit DataStage, können Sie Datenqualitätsregeln in den unterstützten Regionen ausführen. Mit DataStage as a Service Anywhere können Sie Datenqualitätsregeln außerhalb von IBM Cloud ausführen, indem Sie Remote-Engines verwenden. Weitere Informationen zum Einrichten von Remote-Engines finden Sie in der Dokumentation zuDataStage as a Service Anywhere.
Datenqualitätstools
Sie arbeiten mit den folgenden Tools:
- Metadatenanreicherung
- Datenqualitätsdefinitionen
- Datenqualitätsregeln
- „ IBM Knowledge Catalog “-API für Datenverträge
Datenformate
Die folgenden Datenformate werden unterstützt:
- Tabellen aus relationalen und nicht relationalen Datenquellen
- Delta Lake und Iceberg-Tabellen von bestimmten Dateispeicher-Konnektoren
- Anreicherung von Metadaten: Dateien, die aus dem lokalen Dateisystem oder über dateibasierte Verbindungen zu den Datenquellen hochgeladen wurden, in den Formaten „ CSV “, TSV, Avro, Parquet und Microsoft Excel (Bei Arbeitsmappen, die aus dem lokalen Dateisystem hochgeladen wurden, wird nur das erste Blatt der Arbeitsmappe erfasst.)
- Regeln zur Datenqualität: Dateien, die aus dem lokalen Dateisystem oder über dateibasierte Verbindungen zu den Datenquellen hochgeladen werden, in den Formaten Avro, CSV, Parquet und ORC; bei Datenbeständen, die aus dem lokalen Dateisystem hochgeladen werden, gilt ausschließlich CSV
Informationen zu unterstützten Connectors finden Sie unter Unterstützte Datenquellen für Kuration und Datenqualität.
Datenmenge
Datenqualitätsmanagementtasks können für Daten beliebiger Größe ausgeführt werden.
Erforderliche Berechtigungen
Ihre Rollen bestimmen, welche Tasks für das Datenqualitätsmanagement Sie ausführen können:
- Um Metadatenanreicherungs-Assets oder Datenqualitätsdefinitionen und -regeln anzeigen zu können, müssen Sie im Projekt mindestens die Rolle Betrachter haben.
- Um die Metadatenanreicherung zu erstellen, zu bearbeiten, zu löschen oder auszuführen, müssen Sie im Projekt die Rolle Admin oder Editor haben.
- Zum Erstellen, Bearbeiten oder Löschen von Datenqualitätsdefinitionen und -regeln benötigen Sie die Rolle Administrator oder die Rolle Editor im Projekt. Darüber hinaus müssen Sie die Benutzerberechtigung Datenqualitäts-Assets verwalten haben.
- Um Datenqualitätsregeln auszuführen, müssen Sie im Projekt die Rolle Admin oder Editor und die Benutzerberechtigung Datenqualitätsregeln ausführen haben.
- Um die Daten, die zu Problemen mit der Datenqualität geführt haben (die Ausgabetabelle), im Ausführungsverlauf oder auf der Seite „Datenqualität“ anzuzeigen, benötigen Sie die Benutzerberechtigung „Details zum Problem aufrufen “. Der Datenbestand im Projekt, der für die Ausgabetabelle erstellt wird, ist jedoch für jeden zugänglich, der auf die Verbindung zugreifen kann. Um den Zugriff auf diesen Datenbestand einzuschränken, sollte die Verbindung zu der Datenquelle, in der die Ausgabetabelle gespeichert ist, mit persönlichen Zugangsdaten eingerichtet werden.
- Um SLAs zur Datenqualität zu erstellen, zu bearbeiten oder zu löschen, benötigen Sie folgende Benutzerberechtigungen:
- Auf Governance-Artefakte zugreifen
- SLA-Regeln für Datenqualität verwalten
Arbeitsbereiche
Sie können Datenqualitätsmanagementtasks in Projekten ausführen. Informationen zur schreibgeschützten Datenqualität sind in Katalogen verfügbar.
Datenqualitätsanalyse und -überwachung
Verwenden Sie Datenqualitätsanalyse und -überwachung, um Daten anhand bestimmter Kriterien auszuwerten. Verwenden Sie diese Bewertungskriterien im Laufe der Zeit wiederholt, um wichtige Änderungen in der Qualität der zu validierenden Daten zu sehen.
Sie können die Datenqualität im Rahmen der Metadatenanreicherung analysieren, indem Sie die Datenqualitätsprüfungen nutzen, die automatisch für Ihre Daten generiert werden. Sie können auch Datenqualitätsprüfungen entwerfen, die einzeln durchgeführt werden.
Nach dem Entwurf einer Datenqualitätsprüfung haben Sie folgende Möglichkeiten:
Erstellen Sie eine Datenqualitätsdefinition, die die Logik der Datenprüfung unabhängig von der Datenquelle definiert. Die Definition enthält logische Variablen oder Verweise, die Sie verknüpfen oder binden , wenn Sie eine Datenqualitätsregel erstellen, die ausgeführt werden kann.
Nachdem Sie eine Datenqualitätsregel mit den erforderlichen Bindungen basierend auf einer ausgewählten Datenqualitätsdefinition erstellt haben, kann diese Regel ausgeführt werden. Die Regel erzeugt relevante Statistiken und kann je nach Regelkonfiguration eine Ausgabetabelle generieren.
Erstellen Sie eine SQL-basierte Datenqualitätsregel.
Die Funktionalität einer Datenqualitätsregel kann von einem einfachen Einzelspaltentest bis zur Auswertung mehrerer Spalten innerhalb und zwischen Datenquellen reichen.
Neben der manuellen Einrichtung und Anwendung von Datenqualitätsregeln können Sie Datenverträge erstellen und durchsetzen.
Datenqualität bewerten
Um festzustellen, ob Ihre Daten von guter Qualität sind, prüfen Sie, wie weit die Daten Ihren Erwartungen entsprechen, und identifizieren Sie Anomalien in den Daten. Die Bewertung der Daten auf Qualität hilft Ihnen darüber hinaus, Struktur und Inhalt der Daten zu verstehen.
Überwachung der Datenqualität
Um sicherzustellen, dass wichtige Daten den Qualitätsanforderungen Ihres Unternehmens entsprechen, sollten Sie SLAs für die Datenqualität einführen, die die Einhaltung der Standards überwachen und Maßnahmen zur Behebung festgestellter Datenqualitätsprobleme vorsehen.