Startseite
Themen
Datenzuverlässigkeit
Datenzuverlässigkeit bezieht sich auf die Vollständigkeit und Genauigkeit von Daten als Maß für deren zeitliche und quellenübergreifende Konsistenz und Fehlerfreiheit.
Je zuverlässiger die Daten sind, desto vertrauenswürdiger sind sie auch. Das Vertrauen in Daten bietet eine solide Grundlage für aussagekräftige Erkenntnisse und fundierte Entscheidungen, ob in der akademischen Forschung, der Geschäftsanalyse oder der öffentlichen Verwaltung.
Ungenaue oder unzuverlässige Daten können dagegen zu falschen Schlussfolgerungen, fehlerhaften Modellen und Fehlentscheidungen führen. Aus diesem Grund richten immer mehr Unternehmen die Position des Chief Data Officers ein – eine Zahl, die sich unter den größten börsennotierten Unternehmen zwischen 2019 und 2021 verdoppelt hat.1
Die Risiken mangelhafter Daten in Verbindung mit den Wettbewerbsvorteilen präziser Daten bedeuten, dass Initiativen zur Datenzuverlässigkeit für jedes Unternehmen Priorität haben sollten. Um erfolgreich zu sein, sollte man verstehen, worauf es bei der Bewertung und Verbesserung der Zuverlässigkeit ankommt (was zu einem großen Teil auf die Datenbeobachtbarkeit zurückzuführen ist) und dann klare Verantwortlichkeiten und Ziele für die Verbesserung festlegen.
Die Implementierung einer durchgängigen Datenbeobachtbarkeit hilft Data-Engineering-Teams, die Zuverlässigkeit ihrer Daten im gesamten Datenbestand zu gewährleisten, indem sie Probleme identifizieren, adressieren und lösen, bevor sie sich ausbreiten können.
Erfahren Sie, wie Sie mit proaktiver Datenbeobachtbarkeit Probleme mit Daten früher erkennen und schneller lösen können.
Um die Zuverlässigkeit Ihrer Daten zu messen, müssen drei zentrale Faktoren berücksichtigt werden:
1. Sind sie gültig?
Die Gültigkeit von Daten hängt davon ab, ob sie auf die richtige Weise gespeichert und formatiert sind und ob sie das messen, was sie messen sollen. Wenn Sie beispielsweise neue Daten über ein bestimmtes reales Phänomen erfassen, sind die Daten nur dann gültig, wenn sie dieses Phänomen genau widerspiegeln und nicht durch äußere Faktoren beeinflusst werden.
2. Sind sie vollständig?
Die Vollständigkeit der Daten gibt an, ob etwas in den Informationen fehlt. Auch wenn die Daten gültig sind, können sie unvollständig sein, wenn wichtige Felder fehlen, die das Verständnis der Informationen verfälschen könnten. Unvollständige Daten können zu verzerrten oder falschen Analysen führen.
3. Sind sie einzigartig?
Bei der Einzigartigkeit der Daten wird geprüft, ob es Duplikate im Datensatz gibt. Diese Einzigartigkeit ist wichtig, um eine Überrepräsentation zu vermeiden, die ungenau wäre.
Um noch einen Schritt weiter zu gehen, berücksichtigen einige Datenteams auch verschiedene andere Faktoren, darunter:
Die Messung der Zuverlässigkeit von Daten ist wichtig, damit Teams Vertrauen in ihre Datensätze aufbauen und potenzielle Probleme frühzeitig erkennen können. Regelmäßige und effektive Datentests können dabei helfen, Probleme schnell zu identifizieren, um die Ursache des Problems zu ermitteln und Maßnahmen zur Behebung zu ergreifen.
Eine moderne Datenplattform wird nicht nur durch Technologie unterstützt, sondern auch durch DevOps, DataOps und die agile Philosophie. Obwohl DevOps und DataOps völlig unterschiedliche Ziele verfolgen, ähneln beide der agilen Philosophie, die auf die Beschleunigung von Projektarbeitszyklen abzielt.
DevOps konzentriert sich auf die Produktentwicklung, während DataOps sich auf die Erstellung und Pflege einer verteilten Datenarchitektur konzentriert, die einen geschäftlichen Mehrwert aus den Daten zieht.
Agile ist eine Philosophie für die Softwareentwicklung, die Geschwindigkeit und Effizienz anstrebt, ohne jedoch den „menschlichen“ Faktor zu eliminieren. Sie legt den Schwerpunkt auf persönliche Gespräche, um die Kommunikation zu maximieren, und betont gleichzeitig die Automatisierung als Mittel zur Fehlerminimierung.
Datenzuverlässigkeit und Datenvalidität sind zwei unterschiedliche Aspekte der Datenqualität.
Im Zusammenhang mit der Datenverwaltung spielen beide Eigenschaften eine entscheidende Rolle bei der Gewährleistung der Integrität und des Nutzens der vorliegenden Daten.
Obwohl Datenzuverlässigkeit und Datenvalidität miteinander verbunden sind, sind sie nicht austauschbar. So können Sie beispielsweise über einen äußerst zuverlässigen Datenerfassungsprozess verfügen (der konsistente und wiederholbare Ergebnisse liefert). Wenn die erfassten Daten jedoch nicht validiert sind (d. h. nicht den erforderlichen Regeln oder Formaten entsprechen), werden die Daten im Endergebnis dennoch von geringer Qualität sein.
Umgekehrt können Sie über vollkommen valide Daten verfügen (die alle Format- und Integritätsregeln erfüllen). Wenn jedoch der Prozess der Datenerfassung nicht zuverlässig ist (er liefert bei jeder Messung oder Beobachtung andere Ergebnisse), werden Nutzen und Vertrauenswürdigkeit dieser Daten fraglich.
Um die Zuverlässigkeit der Daten zu gewährleisten, muss eine einheitliche Methode für die Erfassung und Verarbeitung aller Arten von Daten festgelegt und genau befolgt werden. Um die Validität der Daten zu gewährleisten, müssen strenge Datenvalidierungsprotokolle vorhanden sein. Dazu gehören z.–B. Datentypprüfungen, Bereichsprüfungen, Prüfungen der referenziellen Integrität und andere. Mit diesen Protokollen wird sichergestellt, dass die Daten das richtige Format haben und alle notwendigen Regeln einhalten.
Alle Initiativen zur Datenzuverlässigkeit stellen in vielen Bereichen der Forschung und Datenanalyse beträchtliche Probleme und Herausforderungen dar, darunter:
Die Art und Weise der Datenerfassung kann die Zuverlässigkeit der Daten stark beeinflussen. Wenn die Methode zur Datenerfassung fehlerhaft oder verzerrt ist, sind die Daten nicht zuverlässig. Außerdem können Messfehler bei der Datenerfassung, bei der Dateneingabe oder bei der Verarbeitung oder Analyse der Daten auftreten.
Daten müssen im Zeitverlauf und in verschiedenen Kontexten konsistent sein, um als zuverlässig zu gelten. Inkonsistente Daten können durch Änderungen der Messmethoden, Definitionen oder der zur Datenerfassung verwendeten Systeme entstehen.
Menschliches Versagen ist immer eine potenzielle Quelle für Unzuverlässigkeit. Dies kann auf vielerlei Weise geschehen, z. B. durch falsche Dateneingabe, inkonsistente Datenkodierung und Fehlinterpretation von Daten.
In einigen Fällen kann sich das, was gemessen wird, im Laufe der Zeit ändern. Und dies kann wiederum zu Problemen hinsichtlich der Zuverlässigkeit führen. Ein Modell des maschinellen Lernens zur Vorhersage des Verbraucherverhaltens kann zum Beispiel bei seiner ersten Erstellung zuverlässig sein, mit der Veränderung des zugrunde liegenden Verbraucherverhaltens jedoch ungenau werden.
Inkonsistente Verfahren im Bereich der Data-Governance und ein Mangel an Datenaufsicht können zu einem Mangel an Verantwortlichkeit für die Qualität und Zuverlässigkeit der Daten führen.
Wenn sich Datenquellen ändern oder aktualisiert werden, kann dies die Zuverlässigkeit der Daten beeinträchtigen, insbesondere bei Änderungen der Datenformate oder -strukturen. Auch die Integration von Daten aus verschiedenen Datenquellen kann zu Problemen mit der Datenzuverlässigkeit in Ihrer modernen Datenplattform führen.
Doppelte Datensätze oder Einträge können zu Ungenauigkeiten führen und die Ergebnisse verfälschen. Die Identifizierung und Handhabung von Duplikaten ist eine Herausforderung für die Zuverlässigkeit der Daten.
Die Bewältigung dieser Probleme und Herausforderungen erfordert eine Kombination aus Prozessen zur Datenqualität, Data-Governance, Datenvalidierung und Verfahren zur Datenverwaltung.
Die Gewährleistung der Zuverlässigkeit Ihrer Daten ist ein grundlegender Aspekt einer soliden Datenverwaltung. Im Folgenden finden Sie einige bewährte Verfahren zur Erhaltung und Verbesserung der Datenzuverlässigkeit in Ihrem gesamten Datenbestand:
Bei der Datenbeobachtbarkeit geht es darum, den Zustand der Daten in Ihrem System zu verstehen. Sie umfasst eine Vielzahl von Aktivitäten, die über die bloße Beschreibung eines Problems hinausgehen. Datenbeobachtbarkeit kann bei der Identifizierung, Fehlersuche und Behebung von Datenproblemen in nahezu Echtzeit helfen.
Die Datenbeobachtbarkeit ist von entscheidender Bedeutung, wenn es darum geht, Problemen mit schlechten Daten vorzubeugen, die im Mittelpunkt der Datenzuverlässigkeit stehen. Bei genauerer Betrachtung umfasst die Datenbeobachtbarkeit Aktivitäten wie Überwachung, Benachrichtigung, Nachverfolgung, Vergleiche, Analysen, Protokollierung, SLA-Verfolgung und Datenabstammung. All diese Aktivitäten tragen dazu bei, die Datenqualität, einschließlich der Datenzuverlässigkeit, von Anfang bis Ende zu verstehen.
Wenn sie richtig umgesetzt ist, kann die Datenbeobachtbarkeit die Zuverlässigkeit der Daten verbessern. Auf diese Weise können Probleme frühzeitig erkannt werden, sodass das gesamte Datenteam schneller reagieren, das Ausmaß der Auswirkungen verstehen und die Zuverlässigkeit wiederherstellen kann.
Durch die Implementierung von Verfahren und Tools zur Datenbeobachtbarkeit können Unternehmen die Zuverlässigkeit ihrer Daten verbessern und sicherstellen, dass diese über den gesamten Lebenszyklus hinweg korrekt, konsistent und vertrauenswürdig sind. Dies ist besonders in datengesteuerten Umgebungen wichtig, in denen qualitativ hochwertige Daten direkte Auswirkungen auf Business Intelligence, datengestützte Entscheidungen und Geschäftsergebnisse haben können.
IBM Databand ist eine Beobachtbarkeitssoftware für Data-Pipelines und -Warehouses, die Metadaten automatisch erfasst, um historische Baselines zu erstellen, Unregelmäßigkeiten zu erkennen und Warnungen zu sichten, um Probleme mit der Datenqualität zu beheben.
IBM DataStage unterstützt ETL- und ELT-Muster und ermöglicht eine flexible und nahezu Echtzeit-Datenintegration sowohl On-Premise als auch in der Cloud.
IBM Knowledge Catalog ist ein intelligenter Datenkatalog für das Zeitalter der KI, mit dem Sie Daten, Wissensressourcen und ihre Beziehungen abrufen, kuratieren, kategorisieren und teilen können – wo auch immer sie sich befinden.
Jetzt können Sie Analysen und KI mit einem zweckmäßigen Datenspeicher skalieren, der auf einer offenen Lakehouse-Architektur aufbaut und durch Abfragen, Governance und offene Datenformate für den Zugriff auf und die gemeinsame Nutzung von Daten unterstützt wird.
Erfahren Sie, was Datenbeobachtbarkeit wirklich ist, warum sie so wichtig ist, wie sie sich zusammen mit modernen Datensystemen entwickelt hat und welche Best Practices es für die Implementierung eines Frameworks für die Datenbeobachtbarkeit gibt.
Die Sicherstellung qualitativ hochwertiger Daten liegt in der Verantwortung der Datenspezialisten und des gesamten Unternehmens. In diesem Beitrag erfahren Sie, wie wichtig Datenqualität ist, wie Sie Ihre Daten prüfen und überwachen und wie Sie sich die Unterstützung der wichtigsten Stakeholder sichern können.
Wenn es um Datenqualität geht, gibt es eine ganze Reihe wichtiger Metriken, darunter Vollständigkeit, Konsistenz, Konformität, Genauigkeit, Integrität, Aktualität, Verfügbarkeit und Kontinuität, um nur einige zu nennen.
1. In data we trust , PwC, 28. April 2022