Was ist Datenzuverlässigkeit?

Was ist Datenzuverlässigkeit?

Datenzuverlässigkeit bezieht sich auf die Vollständigkeit und Genauigkeit von Daten als Maß für deren zeitliche und quellenübergreifende Konsistenz und Fehlerfreiheit.

Je zuverlässiger die Daten sind, desto vertrauenswürdiger sind sie auch. Das Vertrauen in Daten bietet eine solide Grundlage für aussagekräftige Erkenntnisse und fundierte Entscheidungen, ob in der akademischen Forschung, der Geschäftsanalyse oder der öffentlichen Verwaltung.

Ungenaue oder unzuverlässige Daten können zu falschen Schlussfolgerungen, fehlerhaften Modellen und schlechter Entscheidungsfindung führen. Aus diesem Grund führen immer mehr Unternehmen Chief Data Officers ein. Ihre Anzahl hat sich bei den führenden börsennotierten Unternehmen zwischen 2019 und 2021 verdoppelt .1

Die Risiken mangelhafter Daten in Verbindung mit den Wettbewerbsvorteilen präziser Daten bedeuten, dass Initiativen zur Datenzuverlässigkeit für jedes Unternehmen Priorität haben sollten. Um erfolgreich zu sein, muss man verstehen, worauf es bei der Bewertung und Verbesserung der Zuverlässigkeit ankommt (was zu einem großen Teil auf die Daten-Observability zurückzuführen ist) und dann klare Verantwortlichkeiten und Ziele für die Verbesserung festlegen.

Die Implementierung einer durchgängigen Datenbeobachtbarkeit hilft Data-Engineering-Teams, die Zuverlässigkeit ihrer Daten im gesamten Datenbestand zu gewährleisten, indem sie Probleme identifizieren, adressieren und lösen, bevor sie sich ausbreiten können.

3D-Design aus Kugeln, die auf einer Schiene rollen

Die neuesten Erkenntnisse und Insights zu KI

Entdecken Sie von Experten kuratierte Erkenntnisse und Neuigkeiten zu KI, Cloud und mehr im wöchentlichen Newsletter Think. 

Wie Datenzuverlässigkeit gemessen wird

Um die Zuverlässigkeit Ihrer Daten zu messen, müssen Sie drei zentrale Faktoren berücksichtigen:

1. Sind die Daten gültig?

Die Gültigkeit von Daten hängt davon ab, ob sie richtig gespeichert und formatiert sind und das messen, was sie messen sollen. Werden beispielsweise neue Daten über ein bestimmtes reales Phänomen erfasst, sind die Daten nur dann gültig, wenn sie dieses Phänomen ohne Beeinflussung durch äußere Faktoren genau wiedergeben.

2. Sind die Daten vollständig?

Vollständigkeit der Daten gibt an, ob etwas in den Informationen fehlt. Auch wenn die Daten gültig sind, können sie unvollständig sein, wenn z. B. wichtige Felder fehlen, die das Verständnis der Informationen verfälschen könnten. Unvollständige Daten können zu verzerrten oder falschen Analysen führen.

3. Sind die Daten eindeutig?

Bei der Eindeutigkeit wird geprüft, ob der Datensatz Duplikate enthält. Eindeutigkeit ist wichtig, um Überrepräsentation zu vermeiden, die zu Ungenauigkeiten führt.

Manche Datenteams gehen noch einen Schritt weiter und berücksichtigen weitere Faktoren, darunter Folgende:

  • ob und wann die Datenquelle geändert wurde
  • welche Änderungen an den Daten vorgenommen wurden
  • wie oft die Daten aktualisiert wurden
  • woher die Daten ursprünglich stammen
  • wie oft die Daten verwendet wurden

Die Zuverlässigkeit von Daten zu messen, ist wichtig, um Vertrauen in die Datensätze aufzubauen und potenzielle Probleme frühzeitig zu erkennen. Regelmäßige und effektive Datentests können dabei helfen, Probleme schnell zu identifizieren, um die Ursache des Problems zu ermitteln und Maßnahmen zur Behebung zu ergreifen.

AI Academy

Ist Datenverwaltung das Geheimnis generativer KI?

Erfahren Sie, warum qualitativ hochwertige Daten für den erfolgreichen Einsatz generativer KI unerlässlich sind.

Datenzuverlässigkeit und Datenqualität im Vergleich

Eine moderne Datenplattform wird nicht nur durch Technologie unterstützt, sondern auch durch DevOps, DataOps und die agile Philosophie. Obwohl DevOps und DataOps völlig unterschiedliche Ziele verfolgen, ähneln beide der agilen Philosophie, die auf die Beschleunigung von Projektarbeitszyklen abzielt.

DevOps konzentriert sich auf die Produktentwicklung, während DataOps sich auf die Erstellung und Pflege einer verteilten Datenarchitektur konzentriert, die einen geschäftlichen Mehrwert aus den Daten zieht.

Agilität ist eine Philosophie für die Softwareentwicklung, die Geschwindigkeit und Effizienz fördert, ohne jedoch den „menschlichen“ Faktor zu eliminieren. Der Schwerpunkt liegt auf persönlichen Gesprächen, um die Kommunikation zu maximieren, während gleichzeitig die Automatisierung als Mittel zur Minimierung von Fehlern hervorgehoben wird.

Datenzuverlässigkeit und Datenvalidität im Vergleich

Datenzuverlässigkeit und Datenvalidität sind zwei unterschiedliche Aspekte der Datenqualität.

Im Zusammenhang mit der Datenverwaltung spielen beide Eigenschaften eine entscheidende Rolle bei der Gewährleistung der Integrität und des Nutzens der vorliegenden Daten.

  • Datenzuverlässigkeit konzentriert sich auf die Einheitlichkeit und Wiederholbarkeit von Daten bei verschiedenen Beobachtungen oder Messungen. Im Wesentlichen sollten zuverlässige Daten bei jeder Wiederholung einer bestimmten Messung oder Beobachtung die gleichen oder zumindest sehr ähnliche Ergebnisse liefern. Es soll sichergestellt werden, dass die Daten im Laufe der Zeit und über verschiedene Kontexte hinweg stabil und einheitlich sind.

  • Datenvalidität im Sinne von Datenvalidierung betrifft die Genauigkeit, Struktur und Integrität der Daten. Sie stellt sicher, dass alle neuen Daten korrekt formatiert sind, den erforderlichen Regeln entsprechen und dass sie genau und fehlerfrei sind. Eine Datumsspalte sollte zum Beispiel Datumsangaben enthalten und keine alphanumerischen Zeichen. Ungültige Daten können zu einer Vielzahl von Problemen führen, darunter Anwendungsfehler, falsche Ergebnisse bei der Datenanalyse und eine insgesamt schlechte Datenqualität.

Obwohl Datenzuverlässigkeit und Datenvalidität miteinander verbunden sind, sind sie nicht austauschbar. So können Sie beispielsweise über einen äußerst zuverlässigen Datenerfassungsprozess verfügen (der konsistente und wiederholbare Ergebnisse liefert). Wenn die erfassten Daten jedoch nicht validiert sind (d. h. nicht den erforderlichen Regeln oder Formaten entsprechen), werden die Daten im Endergebnis dennoch von geringer Qualität sein.

Umgekehrt können Sie über vollkommen valide Daten verfügen (die alle Format- und Integritätsregeln erfüllen). Wenn jedoch der Prozess der Datenerfassung nicht zuverlässig ist (er liefert bei jeder Messung oder Beobachtung andere Ergebnisse), werden Nutzen und Vertrauenswürdigkeit dieser Daten fraglich.

Um die Zuverlässigkeit der Daten zu gewährleisten, muss eine einheitliche Methode für die Erfassung und Verarbeitung aller Arten von Daten festgelegt und genau befolgt werden. Um die Validität der Daten zu gewährleisten, müssen strenge Datenvalidierungsprotokolle vorhanden sein. Dazu gehören z.–B. Datentypprüfungen, Bereichsprüfungen, Prüfungen der referenziellen Integrität und andere. Mit diesen Protokollen wird sichergestellt, dass die Daten das richtige Format haben und alle notwendigen Regeln einhalten.

Probleme und Herausforderungen bei der Datenzuverlässigkeit

Alle Initiativen zur Datenzuverlässigkeit stellen in vielen Bereichen der Forschung und Datenanalyse beträchtliche Probleme und Herausforderungen dar, darunter:

Erfassung und Messung von Daten

Die Art und Weise der Datenerfassung kann die Zuverlässigkeit der Daten stark beeinflussen. Wenn die Methode zur Datenerfassung fehlerhaft oder verzerrt ist, sind die Daten nicht zuverlässig. Außerdem können Messfehler bei der Datenerfassung, bei der Dateneingabe oder bei der Verarbeitung oder Analyse der Daten auftreten.

Datenkonsistenz

Daten müssen im Zeitverlauf und in verschiedenen Kontexten konsistent sein, um als zuverlässig zu gelten. Inkonsistente Daten können durch Änderungen der Messmethoden, Definitionen oder der zur Datenerfassung verwendeten Systeme entstehen.

Menschliches Versagen

Menschliches Versagen ist immer eine potenzielle Quelle für Unzuverlässigkeit. Dies kann auf vielerlei Weise geschehen, z. B. durch falsche Dateneingabe, inkonsistente Datenkodierung und Fehlinterpretation von Daten.

Veränderungen im Laufe der Zeit

In einigen Fällen kann sich das, was gemessen wird, im Laufe der Zeit ändern. Und dies kann wiederum zu Problemen hinsichtlich der Zuverlässigkeit führen. Ein Modell des maschinellen Lernens zur Vorhersage des Verbraucherverhaltens kann zum Beispiel bei seiner ersten Erstellung zuverlässig sein, mit der Veränderung des zugrunde liegenden Verbraucherverhaltens jedoch ungenau werden.

Data-Governance und Kontrolle

Inkonsistente Verfahren im Bereich der Data-Governance und ein Mangel an Datenaufsicht können zu einem Mangel an Verantwortlichkeit für die Qualität und Zuverlässigkeit der Daten führen.

Änderung der Datenquellen

Wenn sich Datenquellen ändern oder aktualisiert werden, kann dies die Zuverlässigkeit der Daten beeinträchtigen, insbesondere bei Änderungen der Datenformate oder -strukturen. Auch die Integration von Daten aus verschiedenen Datenquellen kann zu Problemen mit der Datenzuverlässigkeit in Ihrer modernen Datenplattform führen.

Duplizierung von Daten

Doppelte Datensätze oder Einträge können zu Ungenauigkeiten führen und die Ergebnisse verfälschen. Die Identifizierung und Handhabung von Duplikaten ist eine Herausforderung für die Zuverlässigkeit der Daten.

Schritte zur Sicherstellung der Datenzuverlässigkeit

Die Gewährleistung der Zuverlässigkeit Ihrer Daten ist ein grundlegender Aspekt einer soliden Datenverwaltung. Im Folgenden finden Sie einige bewährte Verfahren zur Erhaltung und Verbesserung der Datenzuverlässigkeit in Ihrem gesamten Datenbestand:

  1. Standardisierung der Datenerfassung: Legen Sie klare, standardisierte Verfahren für die Datenerfassung fest. Dies kann dazu beitragen, Abweichungen zu verringern und die Konsistenz im Zeitverlauf zu gewährleisten.

  2. Schulung im Bereich Datenerhebung: Personen, die Daten erheben, sollten angemessen geschult werden, um die Methoden, Tools und Protokolle zur Minimierung menschlicher Fehler zu verstehen. Sie sollten sich der Bedeutung zuverlässiger Daten und der Folgen unzuverlässiger Daten bewusst sein.

  3. Regelmäßige Audits: Regelmäßige Datenaudits sind entscheidend, um Unstimmigkeiten oder Fehler zu erkennen, die die Zuverlässigkeit beeinträchtigen könnten. Bei diesen Audits sollte es darum gehen, Fehler zu finden, aber auch darum, die Ursachen von Fehlern zu ermitteln und Korrekturmaßnahmen zu ergreifen.

  4. Verwendung zuverlässiger Instrumente: Verwenden Sie Tools und Instrumente, die auf ihre Zuverlässigkeit getestet wurden. Wenn Sie z. B. Stream Processing verwenden, testen und überwachen Sie Event-Streams, um sicherzustellen, dass Daten weder fehlen noch dupliziert werden.

  5. Datenbereinigung: Verwenden Sie einen rigorosen Datenbereinigungsprozess. Dazu gehören die Identifizierung und der Umgang mit Sonderfällen, fehlenden Werten und Unstimmigkeiten. Verwenden Sie systematische Methoden für den Umgang mit fehlenden oder problematischen Daten.

  6. Pflege eines Datenlexikons: Ein Datenlexikon ist ein zentralisiertes Repository mit Informationen über Daten, wie z. B. Datentypen, Bedeutungen, Beziehungen zu anderen Daten, Herkunft, Verwendung und Format. Es unterstützt die Konsistenz der Daten und stellt sicher, dass alle Beteiligten die Daten auf dieselbe Weise verwenden und interpretieren.

  7. Gewährleistung der Reproduzierbarkeit der Daten: Die Dokumentation aller Schritte der Datenerfassung und -verarbeitung stellt sicher, dass andere Ihre Ergebnisse reproduzieren können, was ein wichtiger Aspekt der Zuverlässigkeit ist. Dazu gehören klare Erklärungen der verwendeten Methoden und eine Versionskontrolle für Daten und Code.

  8. Implementierung von Data-Governance: Gute Richtlinien für Data-Governance können die Zuverlässigkeit der Daten verbessern. Dazu gehören klare Richtlinien und Verfahren darüber, wer auf Daten zugreifen und sie ändern darf, sowie die Führung klarer Aufzeichnungen über alle an Datensätzen vorgenommenen Änderungen.

  9. Datensicherung und -wiederherstellung: Durch regelmäßige Datensicherungen können Datenverluste vermieden werden. Außerdem sollten Sie sicherstellen, dass es ein zuverlässiges System zur Datenwiederherstellung im Falle eines Datenverlustes gibt.

Verbesserung der Datenzuverlässigkeit durch Daten-Observability

Bei der Datenbeobachtbarkeit geht es darum, den Zustand der Daten in Ihrem System zu verstehen. Sie umfasst eine Vielzahl von Aktivitäten, die über die bloße Beschreibung eines Problems hinausgehen. Datenbeobachtbarkeit kann bei der Identifizierung, Fehlersuche und Behebung von Datenproblemen in nahezu Echtzeit helfen.

Die Datenbeobachtbarkeit ist von entscheidender Bedeutung, wenn es darum geht, Problemen mit schlechten Daten vorzubeugen, die im Mittelpunkt der Datenzuverlässigkeit stehen. Bei genauerer Betrachtung umfasst die Datenbeobachtbarkeit Aktivitäten wie Überwachung, Benachrichtigung, Nachverfolgung, Vergleiche, Analysen, Protokollierung, SLA-Verfolgung und Datenabstammung. All diese Aktivitäten tragen dazu bei, die Datenqualität, einschließlich der Datenzuverlässigkeit, von Anfang bis Ende zu verstehen.

Wenn sie richtig umgesetzt ist, kann die Datenbeobachtbarkeit die Zuverlässigkeit der Daten verbessern. Auf diese Weise können Probleme frühzeitig erkannt werden, sodass das gesamte Datenteam schneller reagieren, das Ausmaß der Auswirkungen verstehen und die Zuverlässigkeit wiederherstellen kann.

Durch die Implementierung von Verfahren und Tools zur Daten-Observability können Unternehmen die Zuverlässigkeit ihrer Daten verbessern und sicherstellen, dass diese über den gesamten Lebenszyklus hinweg korrekt, konsistent und vertrauenswürdig sind. Dies ist besonders in datengesteuerten Umgebungen wichtig, in denen qualitativ hochwertige Daten direkte Auswirkungen auf Business Intelligence, datengestützte Entscheidungen und Geschäftsergebnisse haben können.

Weiterführende Lösungen
Software und Lösungen für die Datenverwaltung

Entwerfen Sie eine Datenstrategie, die Datensilos beseitigt, die Komplexität reduziert und die Datenqualität verbessert, um außergewöhnliche Kunden- und Mitarbeitererfahrungen zu schaffen.

Lösungen für Datenmanagement erkunden
IBM watsonx.data

Watsonx.data ermöglicht es Ihnen, Analysen und KI mit all Ihren Daten zu skalieren, unabhängig davon, wo sie sich befinden, und zwar über einen offenen, hybriden und kontrollierten Datenspeicher.

IBM watsonx.data entdecken
Beratungsservices für Daten und Analysen

Erschließen Sie den Wert von Unternehmensdaten mit IBM Consulting und bauen Sie ein erkenntnisgesteuertes Unternehmen auf, das Ihnen geschäftliche Vorteile verschafft.

Analyse-Services entdecken
Machen Sie den nächsten Schritt

Entwerfen Sie eine Datenstrategie, die Datensilos beseitigt, die Komplexität reduziert und die Datenqualität verbessert, um außergewöhnliche Kunden- und Mitarbeitererfahrungen zu schaffen.

Lösungen für Datenmanagement erkunden IBM watsonx.data entdecken
Fußnoten

1 In data we trust, PwC, 28. April 2022