Datenzuverlässigkeit bezieht sich auf die Vollständigkeit und Genauigkeit von Daten als Maß für deren zeitliche und quellenübergreifende Konsistenz und Fehlerfreiheit.
Je zuverlässiger die Daten sind, desto vertrauenswürdiger sind sie auch. Das Vertrauen in Daten bietet eine solide Grundlage für aussagekräftige Erkenntnisse und fundierte Entscheidungen, ob in der akademischen Forschung, der Geschäftsanalyse oder der öffentlichen Verwaltung.
Ungenaue oder unzuverlässige Daten können zu falschen Schlussfolgerungen, fehlerhaften Modellen und schlechter Entscheidungsfindung führen. Aus diesem Grund führen immer mehr Unternehmen Chief Data Officers ein. Ihre Anzahl hat sich bei den führenden börsennotierten Unternehmen zwischen 2019 und 2021 verdoppelt .1
Die Risiken mangelhafter Daten in Verbindung mit den Wettbewerbsvorteilen präziser Daten bedeuten, dass Initiativen zur Datenzuverlässigkeit für jedes Unternehmen Priorität haben sollten. Um erfolgreich zu sein, muss man verstehen, worauf es bei der Bewertung und Verbesserung der Zuverlässigkeit ankommt (was zu einem großen Teil auf die Daten-Observability zurückzuführen ist) und dann klare Verantwortlichkeiten und Ziele für die Verbesserung festlegen.
Die Implementierung einer durchgängigen Datenbeobachtbarkeit hilft Data-Engineering-Teams, die Zuverlässigkeit ihrer Daten im gesamten Datenbestand zu gewährleisten, indem sie Probleme identifizieren, adressieren und lösen, bevor sie sich ausbreiten können.
Um die Zuverlässigkeit Ihrer Daten zu messen, müssen Sie drei zentrale Faktoren berücksichtigen:
Die Gültigkeit von Daten hängt davon ab, ob sie richtig gespeichert und formatiert sind und das messen, was sie messen sollen. Werden beispielsweise neue Daten über ein bestimmtes reales Phänomen erfasst, sind die Daten nur dann gültig, wenn sie dieses Phänomen ohne Beeinflussung durch äußere Faktoren genau wiedergeben.
Vollständigkeit der Daten gibt an, ob etwas in den Informationen fehlt. Auch wenn die Daten gültig sind, können sie unvollständig sein, wenn z. B. wichtige Felder fehlen, die das Verständnis der Informationen verfälschen könnten. Unvollständige Daten können zu verzerrten oder falschen Analysen führen.
Bei der Eindeutigkeit wird geprüft, ob der Datensatz Duplikate enthält. Eindeutigkeit ist wichtig, um Überrepräsentation zu vermeiden, die zu Ungenauigkeiten führt.
Manche Datenteams gehen noch einen Schritt weiter und berücksichtigen weitere Faktoren, darunter Folgende:
Die Zuverlässigkeit von Daten zu messen, ist wichtig, um Vertrauen in die Datensätze aufzubauen und potenzielle Probleme frühzeitig zu erkennen. Regelmäßige und effektive Datentests können dabei helfen, Probleme schnell zu identifizieren, um die Ursache des Problems zu ermitteln und Maßnahmen zur Behebung zu ergreifen.
Eine moderne Datenplattform wird nicht nur durch Technologie unterstützt, sondern auch durch DevOps, DataOps und die agile Philosophie. Obwohl DevOps und DataOps völlig unterschiedliche Ziele verfolgen, ähneln beide der agilen Philosophie, die auf die Beschleunigung von Projektarbeitszyklen abzielt.
DevOps konzentriert sich auf die Produktentwicklung, während DataOps sich auf die Erstellung und Pflege einer verteilten Datenarchitektur konzentriert, die einen geschäftlichen Mehrwert aus den Daten zieht.
Agilität ist eine Philosophie für die Softwareentwicklung, die Geschwindigkeit und Effizienz fördert, ohne jedoch den „menschlichen“ Faktor zu eliminieren. Der Schwerpunkt liegt auf persönlichen Gesprächen, um die Kommunikation zu maximieren, während gleichzeitig die Automatisierung als Mittel zur Minimierung von Fehlern hervorgehoben wird.
Datenzuverlässigkeit und Datenvalidität sind zwei unterschiedliche Aspekte der Datenqualität.
Im Zusammenhang mit der Datenverwaltung spielen beide Eigenschaften eine entscheidende Rolle bei der Gewährleistung der Integrität und des Nutzens der vorliegenden Daten.
Obwohl Datenzuverlässigkeit und Datenvalidität miteinander verbunden sind, sind sie nicht austauschbar. So können Sie beispielsweise über einen äußerst zuverlässigen Datenerfassungsprozess verfügen (der konsistente und wiederholbare Ergebnisse liefert). Wenn die erfassten Daten jedoch nicht validiert sind (d. h. nicht den erforderlichen Regeln oder Formaten entsprechen), werden die Daten im Endergebnis dennoch von geringer Qualität sein.
Umgekehrt können Sie über vollkommen valide Daten verfügen (die alle Format- und Integritätsregeln erfüllen). Wenn jedoch der Prozess der Datenerfassung nicht zuverlässig ist (er liefert bei jeder Messung oder Beobachtung andere Ergebnisse), werden Nutzen und Vertrauenswürdigkeit dieser Daten fraglich.
Um die Zuverlässigkeit der Daten zu gewährleisten, muss eine einheitliche Methode für die Erfassung und Verarbeitung aller Arten von Daten festgelegt und genau befolgt werden. Um die Validität der Daten zu gewährleisten, müssen strenge Datenvalidierungsprotokolle vorhanden sein. Dazu gehören z.–B. Datentypprüfungen, Bereichsprüfungen, Prüfungen der referenziellen Integrität und andere. Mit diesen Protokollen wird sichergestellt, dass die Daten das richtige Format haben und alle notwendigen Regeln einhalten.
Alle Initiativen zur Datenzuverlässigkeit stellen in vielen Bereichen der Forschung und Datenanalyse beträchtliche Probleme und Herausforderungen dar, darunter:
Die Art und Weise der Datenerfassung kann die Zuverlässigkeit der Daten stark beeinflussen. Wenn die Methode zur Datenerfassung fehlerhaft oder verzerrt ist, sind die Daten nicht zuverlässig. Außerdem können Messfehler bei der Datenerfassung, bei der Dateneingabe oder bei der Verarbeitung oder Analyse der Daten auftreten.
Daten müssen im Zeitverlauf und in verschiedenen Kontexten konsistent sein, um als zuverlässig zu gelten. Inkonsistente Daten können durch Änderungen der Messmethoden, Definitionen oder der zur Datenerfassung verwendeten Systeme entstehen.
Menschliches Versagen ist immer eine potenzielle Quelle für Unzuverlässigkeit. Dies kann auf vielerlei Weise geschehen, z. B. durch falsche Dateneingabe, inkonsistente Datenkodierung und Fehlinterpretation von Daten.
In einigen Fällen kann sich das, was gemessen wird, im Laufe der Zeit ändern. Und dies kann wiederum zu Problemen hinsichtlich der Zuverlässigkeit führen. Ein Modell des maschinellen Lernens zur Vorhersage des Verbraucherverhaltens kann zum Beispiel bei seiner ersten Erstellung zuverlässig sein, mit der Veränderung des zugrunde liegenden Verbraucherverhaltens jedoch ungenau werden.
Inkonsistente Verfahren im Bereich der Data-Governance und ein Mangel an Datenaufsicht können zu einem Mangel an Verantwortlichkeit für die Qualität und Zuverlässigkeit der Daten führen.
Wenn sich Datenquellen ändern oder aktualisiert werden, kann dies die Zuverlässigkeit der Daten beeinträchtigen, insbesondere bei Änderungen der Datenformate oder -strukturen. Auch die Integration von Daten aus verschiedenen Datenquellen kann zu Problemen mit der Datenzuverlässigkeit in Ihrer modernen Datenplattform führen.
Doppelte Datensätze oder Einträge können zu Ungenauigkeiten führen und die Ergebnisse verfälschen. Die Identifizierung und Handhabung von Duplikaten ist eine Herausforderung für die Zuverlässigkeit der Daten.
Die Gewährleistung der Zuverlässigkeit Ihrer Daten ist ein grundlegender Aspekt einer soliden Datenverwaltung. Im Folgenden finden Sie einige bewährte Verfahren zur Erhaltung und Verbesserung der Datenzuverlässigkeit in Ihrem gesamten Datenbestand:
Bei der Datenbeobachtbarkeit geht es darum, den Zustand der Daten in Ihrem System zu verstehen. Sie umfasst eine Vielzahl von Aktivitäten, die über die bloße Beschreibung eines Problems hinausgehen. Datenbeobachtbarkeit kann bei der Identifizierung, Fehlersuche und Behebung von Datenproblemen in nahezu Echtzeit helfen.
Die Datenbeobachtbarkeit ist von entscheidender Bedeutung, wenn es darum geht, Problemen mit schlechten Daten vorzubeugen, die im Mittelpunkt der Datenzuverlässigkeit stehen. Bei genauerer Betrachtung umfasst die Datenbeobachtbarkeit Aktivitäten wie Überwachung, Benachrichtigung, Nachverfolgung, Vergleiche, Analysen, Protokollierung, SLA-Verfolgung und Datenabstammung. All diese Aktivitäten tragen dazu bei, die Datenqualität, einschließlich der Datenzuverlässigkeit, von Anfang bis Ende zu verstehen.
Wenn sie richtig umgesetzt ist, kann die Datenbeobachtbarkeit die Zuverlässigkeit der Daten verbessern. Auf diese Weise können Probleme frühzeitig erkannt werden, sodass das gesamte Datenteam schneller reagieren, das Ausmaß der Auswirkungen verstehen und die Zuverlässigkeit wiederherstellen kann.
Durch die Implementierung von Verfahren und Tools zur Daten-Observability können Unternehmen die Zuverlässigkeit ihrer Daten verbessern und sicherstellen, dass diese über den gesamten Lebenszyklus hinweg korrekt, konsistent und vertrauenswürdig sind. Dies ist besonders in datengesteuerten Umgebungen wichtig, in denen qualitativ hochwertige Daten direkte Auswirkungen auf Business Intelligence, datengestützte Entscheidungen und Geschäftsergebnisse haben können.
Entwerfen Sie eine Datenstrategie, die Datensilos beseitigt, die Komplexität reduziert und die Datenqualität verbessert, um außergewöhnliche Kunden- und Mitarbeitererfahrungen zu schaffen.
Watsonx.data ermöglicht es Ihnen, Analysen und KI mit all Ihren Daten zu skalieren, unabhängig davon, wo sie sich befinden, und zwar über einen offenen, hybriden und kontrollierten Datenspeicher.
Erschließen Sie den Wert von Unternehmensdaten mit IBM Consulting und bauen Sie ein erkenntnisgesteuertes Unternehmen auf, das Ihnen geschäftliche Vorteile verschafft.
1 In data we trust, PwC, 28. April 2022