Was sind schlechte Daten?

Schlechte Daten – Definition

Schlechte Daten sind Informationen, die die Entscheidungsfindung beeinträchtigen, weil sie ungenau, unvollständig, inkonsistent, veraltet, dupliziert, ungültig oder verzerrt sind.

Die Ursachen schlechter Daten sind vielfältig. Manchmal liegt es an einer mangelhaften Datenarchitektur, in anderen Fällen sind menschliche Fehler die Ursache. Unabhängig von der Ursache können die Folgen der Nutzung solcher Daten in Unternehmen von kleineren Unannehmlichkeiten, wie dem Versand von Steuerunterlagen an die falsche Adresse, bis hin zu schwerwiegenden Risiken wie Verstößen gegen regulatorische Vorgaben, Reputationsschäden und finanziellen Verlusten reichen.

Eine besondere Gefahr schlechter Daten liegt in ihrer Unauffälligkeit. Im Gegensatz zu einem Systemausfall können ihre Auswirkungen lange unbemerkt bleiben, bis bereits erheblicher Schaden entstanden ist. Unternehmen können jahrelang unbewusst mit schlechten Daten arbeiten. Ein Vertriebsteam würde beispielsweise sofort bemerken, wenn sein Salesforce-Dashboard nicht lädt, doch es könnte deutlich länger dauern, bis auffällt, dass die angezeigten Daten falsch sind.

Da die Datenmengen rasant wachsen und Führungskräfte Daten zunehmend nutzen, um künstliche Intelligenz (KI) und Entscheidungsfindung zu unterstützen, ist eine hohe Datenqualität wichtiger denn je. Durch eine starke Data Governance, bewährte Verfahren im Datenqualitätsmanagement und Daten-Observability-Tools können Unternehmen sicherstellen, dass ihre Daten-Assets Wachstum fördern, statt zu unsichtbaren Belastungen zu werden.

Arten schlechter Daten

Schlechte Daten lassen sich anhand zentraler Dimensionen der Datenqualität grob kategorisieren:

  • Ungenaue Daten
  • Unvollständige Daten
  • Inkonsistente Daten
  • Veraltete Daten
  • Duplizierte Daten
  • Ungültige Daten
  • Verzerrte Daten

Ungenaue Daten

Datengenauigkeit beschreibt, wie präzise Daten reale Ereignisse und Werte abbilden. Sind Daten ungenau, enthalten sie Fehler und eignen sich nicht als verlässliche Grundlage für Entscheidungen. Beispielsweise können ungenaue Kundendaten (etwa zur Preisgestaltung) das Verständnis eines Unternehmens für seine Zielgruppe verzerren und zu Fehlentscheidungen führen, die die Kundenzufriedenheit beeinträchtigen.

Unvollständige Daten

Unvollständige Daten weisen fehlende Datensätze oder Werte auf, was sich auf die Datenverarbeitung und -analyse auswirkt. Größere Lücken können sogar Verzerrungen verursachen, da die Analyseergebnisse möglicherweise nicht repräsentativ für den tatsächlichen Datensatz sind. Fehlen beispielsweise bei den meisten Einträgen einer Kundendatenbank die Kontaktinformationen, entgehen dem Vertrieb wertvolle Möglichkeiten zur Kundenansprache.

Inkonsistente Daten

Inkonsistente Daten sind nicht standardisiert und zwischen verschiedenen Datensätzen und Systemen nur eingeschränkt kompatibel. Abweichungen bei Datumsformaten, Benennungskonventionen und Maßeinheiten können bei Nutzern für Verwirrung sorgen, Datensilos innerhalb bestimmter Plattformen schaffen und Fehler in Berichten oder Analysen verursachen.

Veraltete Daten

Veraltete Daten sind Informationen, die nicht mehr aktuell sind. Dadurch können Entscheidungsträger auf irrelevante Informationen zurückgreifen, die die tatsächlichen Bedingungen nicht mehr widerspiegeln. Die Datenaktualität ist eine Metrik dafür, wie häufig Datenbankinformationen aktualisiert werden. Lange Zeiträume zwischen Aktualisierungen können dazu führen, dass Daten veralten.

Duplizierte Daten

Duplizierte Daten (oder redundante Daten) beziehen sich auf wiederholte Einträge in einem Datensatz – eindeutige Daten sollen nur einmal vorhanden. Sie können Analysen verzerren, indem bestimmte Datenwerte oder Trends überrepräsentiert werden. (Es ist wichtig zu beachten, dass es im Datenbankdesign auch Anwendungsfälle für bewusst eingesetzte Datenredundanz gibt, um hohe VerfügbarkeitDatenintegrität und Konsistenz sicherzustellen.

Ungültige Daten

Ungültige Daten sind Informationen, die nicht den System- oder Business Rules entsprechen (etwa zulässigen Wertbereichen, erforderlichen Formaten und definierten Datentypen). Beispiele hierfür sind Daten mit nicht unterstützten Sonderzeichen oder Telefonnummern ohne die erforderlichen Bindestriche.

Verzerrte Daten

Obwohl Verzerrung selbst keine Dimension der Datenqualität ist, stellt sie einen wichtigen Faktor dar, den Stakeholder berücksichtigen sollten, da sie mehrere dieser Dimensionen beeinflusst. Verzerrte Daten sind verzerrt oder nicht repräsentativ für tatsächliche Ereignisse, Bevölkerungsgruppen oder Bedingungen. Sie können zu unfairen, ungenauen und unzuverlässigen Ergebnissen führen und bei der Verwendung in Systemen für maschinelles Lernen (ML) und künstliche Intelligenz (KI) schwerwiegende Folgen für Einzelpersonen, Unternehmen und die Gesellschaft haben.

AI Academy

Ist Datenverwaltung das Geheimnis generativer KI?

Erfahren Sie, warum qualitativ hochwertige Daten für den erfolgreichen Einsatz generativer KI unerlässlich sind.

Welche Auswirkungen haben schlechte Daten?

Schlechte Daten sind das Gegenteil guter Daten. Während hochwertige Daten Wachstum und Innovation fördern, bremsen minderwertige Daten den Fortschritt.

Unternehmen verlassen sich auf Daten, um fundierte Entscheidungen zu treffen, umsetzbare Erkenntnisse zu gewinnen und Prognosen für interne Abläufe sowie Customer Experience zu erstellen. Entscheidungen auf Basis schlechter Daten können zu verpassten Chancen, betrieblichen Ineffizienzen und Reputationsschäden führen. In Branchen wie dem Finanz- oder Gesundheitswesen, in denen Daten Grundlage weitreichender Entscheidungen sind, können schlechte Daten schwerwiegende oder sogar katastrophale Folgen haben.

Man stelle sich eine klinische Studie mit inkonsistenten Patientendaten vor. Forscher hätten Schwierigkeiten, Ergebnisse miteinander zu vergleichen, was die Entwicklung möglicher Behandlungen verzögern könnte. Im Finanzwesen können ungenaue oder fehlende Daten hohe Compliance-Kosten verursachen. Fehlerhafte Finanzberichte können zu Verstößen gegen Vorschriften wie den Sarbanes-Oxley Act (SOX) führen, die mit Geldstrafen von bis zu 1 Million US-Dollar und Freiheitsstrafen von bis zu 10 Jahren geahndet werden können.

Im Zusammenhang mit künstlicher Intelligenz verschärfen sich die Risiken schlechter Daten zusätzlich. Werden KI- oder ML-Modelle mit ungenauen, inkonsistenten oder verzerrten Daten trainiert, spiegeln ihre Ergebnisse diese Fehler wider. Um die Investitionen in KI und ML optimal zu nutzen, müssen Unternehmen sicherstellen, dass ihre Daten KI-fähig sind.

Unity Technologies ist ein anschauliches Beispiel für die Folgen schlechter Daten in KI- und ML-Systemen. Im Jahr 2022 hat der Algorithmus des Videospielunternehmens für die Platzierung von Werbung schlechte Daten von einem großen Kunden verarbeitet. Die Leistung des Algorithmus verschlechterte sich so stark, dass er vollständig neu entwickelt werden musste. Der Vorfall trug zu einem Kursverlust der Unity-Aktie von 37 % bei und verursachte geschätzte Auswirkungen auf das Unternehmen in Höhe von 110 Millionen US-Dollar.

Andererseits können hochwertige und präzise Daten ein großer Vorteil für KI-Initiativen sein. Forschungen des IBM Institute for Business Value ergaben, dass Unternehmen mit vertrauenswürdigen Daten nahezu doppelt so hohe Renditen aus ihren KI-Funktionen erzielten. Kurz gesagt: Hochwertige Daten sind eine unverzichtbare Voraussetzung für jede KI- oder datengesteuerte Strategie.

Was sind die Ursachen schlechter Daten?

Für schlechte Daten gibt es nicht die eine Ursache. Sie können durch Technologie, Prozesse oder Menschen verursacht werden – in der Regel durch eine Kombination mehrerer Faktoren. Zu den häufigsten Ursachen schlechter Datenqualität gehören:

  • Systemausfälle
  • Datenverfall
  • Unzuverlässige Datenerfassung
  • Schwache Data Governance
  • Menschliche Fehler
  • Probleme bei der Datenintegration oder -migration
Systemausfälle

Schlecht konzipierte Datenarchitekturen können zu Datensilos , Leistungsproblemen und Softwarefehlern führen, die Datenkonsistenz und -zuverlässigkeit beeinträchtigen. Fallen Systeme aus, können Dateien beschädigt oder unvollständig bleiben, was zu fehlenden Werten und Ungenauigkeiten in nachgelagerten Prozessen führt.

Datenverfall

Viele Arten von Geschäftsdaten (etwa Metriken zum Kundenverhalten) unterliegen einem natürlichen Verfall, wenn sie nicht regelmäßig aktualisiert werden. Sind Datenbanken veraltet, beruhen daraus gewonnene Erkenntnisse und Entscheidungen auf überholten und wahrscheinlich ungenauen Informationen.

Unzuverlässige Datenerfassung

Schlechte Daten können bereits bei der Erfassung entstehen, und zwar nicht nur durch minderwertige Datenquellen oder Anbieter. Auch Verzerrungen, inkonsistente Methoden, fehlerhafte Werkzeuge oder ungenaue Messungen bei der Dateneingabe und -verarbeitung können die Datenqualität beeinträchtigen.

Schwache Data Governance

Als Disziplin definiert und implementiert Data Governance Richtlinien, Standards und Verfahren für den gesamten Datenlebenszyklus. Werden diese Praktiken uneinheitlich oder ohne klare Verantwortlichkeiten angewendet, verschlechtert sich die Datenqualität schnell.

Menschliche Fehler

Menschliche Fehler sind eine häufige Ursache schlechter Daten. Tippfehler bei der manuellen Dateneingabe, inkonsistente Codierungen, Verzerrungen oder Fehlinterpretationen können zu Datenungenauigkeiten führen. Zeitdruck, unzureichende Schulungen und schlecht gestaltete Systeme verstärken diese Probleme zusätzlich.

Probleme bei der Integration oder Migration

Datenmigration oder Datenintegration ohne geeignete Prozesse, Planung und Technologie kann zu Datenverlusten, Inkonsistenzen und Ungenauigkeiten führen. Diese Probleme entstehen häufig durch inkompatible Datenformate und -strukturen oder durch nicht berücksichtigte Abhängigkeiten.

Wie man schlechte Daten verhindert

In einer idealen Welt würden schlechte Daten bereits an der Quelle erkannt und niemals in nachgelagerte Systeme oder Datenanalyse-Workflows gelangen. In der Realität kann sich die Datenqualität jedoch an jedem Punkt des Lebenszyklus und aus unterschiedlichsten Gründen verschlechtern.

Die Vermeidung schlechter Daten in allen Phasen erfordert eine umfassende Strategie, die Risiken in jeder Phase berücksichtigt. Eine solche Strategie kann folgende Maßnahmen umfassen:

  • Governance und Strategie
  • Überwachung und Transparenz
  • Bereinigung und Sanierung
  • Datenkompetenz und Datenfertigkeiten

Governance und Strategie

Der Aufbau einer starken Data Governance ist ein entscheidender erster Schritt, um schlechte Daten zu vermeiden. Sie definiert und setzt die Richtlinien, Standards und Verfahren durch, um während des gesamten Datenlebenszyklus genaue und hochwertige Daten sicherzustellen. Robuste Governance-Frameworks helfen Unternehmen, Ungenauigkeiten zu erkennen und zu beheben, bevor diese Auswirkungen auf die Entscheidungsfindung und die betriebliche Effizienz haben.

Eine effektive Data Governance sollte die umfassendere Datenstrategie eines Unternehmens ergänzen und stärken. Sie arbeitet typischerweise mit anderen Disziplinen wie Datenverwaltung, Datensicherheit und Datenarchitektur zusammen, um Daten konsistent und zuverlässig zu halten.

Überwachung und Transparenz

Schlechte Daten lassen sich nicht beheben, wenn ihre Existenz unbekannt ist. Unternehmen können verschiedene Verfahren einsetzen, um Transparenz über den Zustand ihrer Daten zu gewinnen und diesen kontinuierlich zu überwachen:

  • Datenabstammung: Mithilfe dieser Tools lässt sich nachvollziehen, wie Daten (und ihre Metadaten) während ihres gesamten Lebenszyklus verarbeitet, verändert und weitergegeben werden – von ihrer Herkunft bis zu ihrem endgültigen Ziel. Die Transparenz der Datenabstammung unterstützt Ursachenanalyse und die Einhaltung gesetzlicher Vorgaben.

  • Datenprüfungen: Die regelmäßige Überprüfung und Analyse von Unternehmensdaten hilft dabei, ein klares Bild der Datenlandschaft zu erstellen. Datenprüfungen unterstützen Unternehmen dabei, Daten zu entdecken, zu klassifizieren und zu überwachen, um Risiken, Ungenauigkeiten und Inkonsistenzen aufzudecken.

  • Datenprofilierung: Bei der Datenprofilierung werden Daten analysiert, um Einblicke in ihre Struktur und Qualität zu gewinnen und damit die Teams Sanierungsmaßnahmen planen können. Dies wird in der Regel von Data Engineers durchgeführt, die dafür verschiedene Business Rules und Analysealgorithmen einsetzen.

  • Daten-Observability: Daten-Observability-Tools nutzen Automatisierung und intelligente Verfahren, um Datenprobleme nahezu in Echtzeit zu erkennen, zu analysieren und zu beheben, bevor sie sich auf Unternehmensprozesse auswirken können.

Bereinigung und Sanierung

Sobald Datenfehler und ihre Ursachen identifiziert wurden, müssen die schlechten Daten korrigiert werden. Datenbereinigungsprozesse beheben häufige Probleme der Datenqualität wie duplizierte Datensätze, fehlende Werte, Inkonsistenzen, Syntaxfehler, irrelevante Daten und strukturelle Fehler. Zu den gängigen Techniken gehören Standardisierung, der Umgang mit Ausreißern und fehlenden Werten, Deduplizierung sowie Datenvalidierung.

Datenteams setzen zunehmend KI ein, um viele dieser Schritte zu automatisieren und zu optimieren, insbesondere Standardisierung und Deduplizierung.

Datenkompetenz und Datenfertigkeiten

Datenkompetente Unternehmen sind in der Lage, Daten zu lesen, zu verstehen, zu nutzen und darüber zu kommunizieren, um bessere Entscheidungen zu treffen. Die Fähigkeit, Daten kritisch zu bewerten, verbessert zudem die allgemeine Datenqualität: Mitarbeiter mit grundlegenden Datenkenntnissen erkennen Verzerrungen, Inkonsistenzen, Ungenauigkeiten oder fehlende Werte deutlich besser.

Alexandra Jonker

Staff Editor

IBM Think

Tom Krantz

Staff Writer

IBM Think

3D-Rendering einer Spirale aus mehreren nebeneinander angeordneten Symbolen, darunter eine Kamera, ein Lautstärkeregler und ein Klemmbrett
Weiterführende Lösungen
IBM® StreamSets

Erstellen und verwalten Sie intelligente Streaming-Datenpipelines über eine intuitive grafische Benutzeroberfläche, die eine nahtlose Datenintegration in Hybrid- und Multicloud-Umgebungen ermöglicht.

StreamSets erkunden
IBM watsonx.data

Watsonx.data ermöglicht es Ihnen, Analysen und KI mit all Ihren Daten zu skalieren, unabhängig davon, wo sie sich befinden, und zwar über einen offenen, hybriden und kontrollierten Datenspeicher.

IBM watsonx.data entdecken
Beratungsservices für Daten und Analysen

Erschließen Sie den Wert von Unternehmensdaten mit IBM Consulting® und bauen Sie ein erkenntnisgesteuertes Unternehmen auf, das Ihnen geschäftliche Vorteile verschafft.

Analyse-Services entdecken
Machen Sie den nächsten Schritt

Entwerfen Sie eine Datenstrategie, die Datensilos beseitigt, die Komplexität reduziert und die Datenqualität verbessert, um außergewöhnliche Kunden- und Mitarbeitererfahrungen zu schaffen.

  1. Lösungen für Datenmanagement erkunden
  2. IBM watsonx.data entdecken