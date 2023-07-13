Die Datenqualität ist im Wesentlichen das Maß für die Datenintegrität. Genauigkeit, Vollständigkeit, Konsistenz, Gültigkeit, Einzigartigkeit und Aktualität eines Datensatzes sind die Messgrößen für die Datenqualität, mit denen Unternehmen die Nützlichkeit und Effektivität der Daten für einen bestimmten Geschäftsanwendungsfall bestimmen.

Wie Sie die Datenqualität bestimmen

Datenqualitätsanalysten bewerten einen Datensatz anhand der oben aufgeführten Dimensionen und vergeben eine Gesamtbewertung. Wenn Daten in allen Dimensionen einen hohen Rang einnehmen, gelten sie als qualitativ hochwertige Daten, die für den beabsichtigten Anwendungsfall oder die Anwendung zuverlässig und vertrauenswürdig sind. Zur Messung und Pflege hochwertiger Daten verwenden Unternehmen Regeln zur Datenqualität, die auch als Datenvalidierungsregeln bezeichnet werden, um sicherzustellen, dass die Datensätze die vom Unternehmen festgelegten Kriterien erfüllen.

Die Vorteile einer guten Datenqualität

Mehr Effizienz

Geschäftsanwender und Data Scientists müssen keine Zeit mit dem Auffinden oder Formatieren von Daten in verteilten Systemen verschwenden. Stattdessen können sie leichter auf Datensätze zugreifen und diese mit größerer Zuversicht analysieren. Es wird zusätzliche Zeit eingespart, die sonst mit der Bearbeitung unvollständiger oder ungenauer Daten verschwendet worden wäre.

Höherer Datenwert

Da die Daten einheitlich formatiert und für den Benutzer oder die Anwendung kontextualisiert sind, können Unternehmen einen Mehrwert aus Daten ziehen, die andernfalls vielleicht verworfen oder ignoriert worden wären.

Verbesserte Zusammenarbeit und bessere Entscheidungsfindung

Qualitativ hochwertige Daten beseitigen Inkongruenzen zwischen Systemen und Abteilungen und sorgen für konsistente Daten über Prozesse und Verfahren hinweg. Die Zusammenarbeit und Entscheidungsfindung zwischen den Stakeholdern wird verbessert, da sie sich alle auf die gleichen Daten stützen.

Geringere Kosten und verbesserte Einhaltung gesetzlicher Vorschriften

Qualitativ hochwertige Daten sind leicht zu finden und zugänglich. Da keine Datensätze neu erstellt oder nachverfolgt werden müssen, werden die Arbeitskosten gesenkt und Fehler bei der manuellen Dateneingabe werden unwahrscheinlicher. Und da hochwertige Daten problemlos in der richtigen Umgebung gespeichert und in obligatorischen Berichten erfasst und zusammengestellt werden können, kann ein Unternehmen die Einhaltung der Vorschriften besser sicherstellen und behördliche Strafen vermeiden.

Verbesserte Mitarbeiter- und Customer Experience

Hochwertige Daten liefern genauere, tiefergehende Erkenntnisse, die ein Unternehmen nutzen kann, um Mitarbeitern und Kunden eine personalisiertere und wirkungsvollere Erfahrung zu bieten.

Die sechs Dimensionen der Datenqualität

Um die Datenqualität zu bestimmen und eine Gesamtbewertung zu vergeben, bewerten Analysten einen Datensatz anhand dieser sechs Dimensionen, die auch als Datenmerkmale bezeichnet werden:

Genauigkeit: Sind die Daten nachweislich korrekt und spiegeln sie den realen Wissensstand wider? Vollständigkeit: Umfassen die Daten alle relevanten und verfügbaren Informationen? Gibt es fehlende Datenelemente oder leere Felder? Konsistenz: Stimmen die entsprechenden Datenwerte an verschiedenen Standorten und Umgebungen überein? Gültigkeit: Werden die Daten im richtigen Format für den beabsichtigten Verwendungszweck erfasst? Einzigartigkeit: Werden Daten dupliziert oder überlappen sich diese mit anderen Daten? Aktualität: Sind die Daten aktuell und bei Bedarf sofort verfügbar?

Je höher die Punktzahl eines Datensatzes in jeder dieser Dimensionen ist, desto höher ist seine Gesamtbewertung. Eine hohe Gesamtbewertung zeigt an, dass ein Datensatz zuverlässig, leicht zugänglich und relevant ist.

Wie man die Datenqualität verbessert

Einige gängige Methoden und Initiativen, die Unternehmen zur Verbesserung der Datenqualität einsetzen, sind:

Datenprofilierung

Data Profiling, auch als Bewertung der Datenqualität bekannt, bezeichnet den Prozess der Prüfung der Daten eines Unternehmens in ihrem aktuellen Zustand. Dies geschieht, um Fehler, Ungenauigkeiten, Lücken, inkonsistente Daten, Duplikate und Barrieren bei der Zugänglichkeit aufzudecken. Eine beliebige Anzahl von Datenqualitätstools kann verwendet werden, um Datensätze zu profilieren und korrekturbedürftige Datenanomalien zu erkennen.

Datenbereinigung

Unter Datenbereinigung versteht man die Beseitigung von Problemen mit der Datenqualität und Unstimmigkeiten, die bei der Datenprofilierung festgestellt wurden. Dazu gehört auch die Deduplizierung von Datensätzen, damit mehrere Dateneinträge nicht versehentlich an mehreren Orten vorhanden sind.

Datenstandardisierung

Hierbei handelt es sich um den Prozess, bei dem verteilte Datenbestände und unstrukturierte Big Data in ein einheitliches Format gebracht werden. So wird sichergestellt, dass die Daten unabhängig von der Datenquelle vollständig und einsatzbereit sind. Zur Standardisierung von Datensätzen werden Business Rules angewendet, um sicherzustellen, dass die Datensätze den Standards und Bedürfnissen eines Unternehmens entsprechen.

Geokodierung

Geokodierung ist der Prozess des Hinzufügens von Standortmetadaten zu den Datensätzen eines Unternehmens. Durch die Kennzeichnung von Daten mit geografischen Koordinaten, die nachverfolgen, woher sie stammen, wo sie waren und wo sie sich befinden, kann ein Unternehmen sicherstellen, dass nationale und globale Standards für geografische Daten eingehalten werden. Geografische Metadaten können einem Unternehmen beispielsweise dabei helfen, sicherzustellen, dass die Verwaltung von Kundendaten mit der DSGVO konform bleibt.

Zuordnen oder Verknüpfen

Dies ist die Methode zum Identifizieren, Zusammenführen und Auflösen doppelter oder redundanter Daten.

Überwachung der Datenqualität

Die Aufrechterhaltung einer guten Datenqualität erfordert ein kontinuierliches Datenqualitäts-Management. Die Überwachung der Datenqualität ist die Praxis, zuvor bewertete Datensätze erneut aufzurufen und auf der Grundlage der sechs Dimensionen der Datenqualität neu zu bewerten. Viele Datenanalysten verwenden ein Datenqualitäts-Dashboard, um Datenqualitäts-KPIs zu visualisieren und zu verfolgen.

Batch- und Echtzeit-Validierung

Dies ist die Bereitstellung von Datenvalidierungsregeln für alle Anwendungen und Datentypen in großem Maßstab, um sicherzustellen, dass alle Datensätze bestimmten Standards entsprechen. Dies kann periodisch als Batch-Prozess oder kontinuierlich in Echtzeit durch Prozesse wie die Erfassung von Änderungsdaten erfolgen.

Master Data Management

Master Data Management (MDM) bezeichnet die Erstellung und Pflege einer unternehmensweiten, zentralisierten Datenregistry, in der alle Daten katalogisiert und nachverfolgt werden. Dies gibt dem Unternehmen einen zentralen Ort, an dem es seine Datensätze schnell einsehen und auswerten kann, unabhängig davon, wo sich diese Daten befinden oder welchen Typ sie haben. So würden sich beispielsweise Kundendaten, Informationen zur Lieferkette und Marketingdaten alle in einer MDM-Umgebung befinden.