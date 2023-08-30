8 Techniken und Metriken zur Überwachung der Datenqualität

Zwei weibliche Biologieforscherinnen diskutieren gemessene Daten

Was ist Datenqualitätsüberwachung?

Die Überwachung der Datenqualität bezieht sich auf die Bewertung, Messung und Verwaltung der Daten eines Unternehmens hinsichtlich Genauigkeit, Konsistenz und Zuverlässigkeit. Sie nutzt verschiedene Techniken, um Probleme der Datenqualität zu identifizieren und zu lösen, sodass hochwertige Daten für Geschäftsprozesse und die Entscheidungsfindung verwendet werden. 

Die Bedeutung der Datenqualität kann nicht hoch genug eingeschätzt werden, da schlechte Daten zu falschen Schlussfolgerungen, ineffizienten Abläufen und einem mangelnden Vertrauen in die von den Unternehmenssystemen bereitgestellten Informationen führen können. Durch Überwachung kann sichergestellt werden, dass Probleme mit der Datenqualität frühzeitig erkannt werden, bevor sie sich auf den Geschäftsbetrieb und die Kunden eines Unternehmens auswirken können.

In diesem Artikel erfahren Sie mehr über die wichtigsten Dimensionen der Datenqualität, spezifische Metriken und Techniken zur Überwachung der Datenqualität:

 

Branchen-Newsletter

Die neuesten Tech-News – von Experten bestätigt

Bleiben Sie mit dem Think-Newsletter über die wichtigsten – und faszinierendsten – Branchentrends in den Bereichen KI, Automatisierung, Daten und darüber hinaus auf dem Laufenden. Weitere Informationen finden Sie in der IBM Datenschutzerklärung.

Vielen Dank! Sie haben ein Abonnement abgeschlossen.

Ihr Abonnement wird auf Englisch geliefert. In jedem Newsletter finden Sie einen Abmeldelink. Hier können Sie Ihre Abonnements verwalten oder sich abmelden. Weitere Informationen finden Sie in unserer IBM Datenschutzerklärung.

Dimensionen der Datenqualität

Im Folgenden sind die wichtigsten Aspekte der Datenqualität aufgeführt, die typischerweise durch die Datenqualitätsüberwachung berücksichtigt werden:

  1. Genauigkeit: Damit wird der Grad der Richtigkeit gemessen, wenn Werte mit ihrer wahren Darstellung verglichen werden.
  2. Vollständigkeit: Es wird bewertet, inwieweit alle erforderlichen Daten vorhanden und verfügbar sind.
  3. Konsistenz: Das bezieht sich auf die Einheitlichkeit der Daten in verschiedenen Quellen oder Systemen.
  4. Aktualität: Hier wird bewertet, wie aktuell die Informationen in Bezug auf ihren Verwendungszweck sind.
  5. Gültigkeit: Dies bezieht sich auf die Einhaltung vordefinierter Formate, Regeln oder Standards für jedes Attribut innerhalb eines Datensatzes.
  6. Einzigartigkeit: Damit wird sichergestellt, dass keine doppelten Datensätze in einem Datensatz vorhanden sind.
  7. Integrität: Dies hilft, referenzielle Beziehungen zwischen Datensätzen ohne unterbrochene Verknüpfungen aufrechtzuerhalten.
AI Academy

Ist Datenverwaltung das Geheimnis generativer KI?

Erfahren Sie, warum qualitativ hochwertige Daten für den erfolgreichen Einsatz generativer KI unerlässlich sind.
Zur Episode wechseln

Wichtige Metriken zur Überwachung

Jenseits der Dimensionen der Datenqualität gibt es spezifische Metriken, die auf Qualitätsprobleme mit Ihren Daten hinweisen können. Das Nachverfolgen dieser wichtigen Metriken ermöglicht die frühzeitige Identifizierung und Lösung von Problemen, bevor sie sich auf Geschäftsentscheidungen oder die Customer Experience auswirken.

Fehlerquote

Die Fehlerquote misst den Anteil der Einträge mit Fehlern in einem Datensatz. Eine hohe Fehlerquote deutet auf eine schlechte Datenqualität hin und könnte zu falschen Erkenntnissen oder einer fehlerhafter Entscheidungsfindungen führen. Teilen Sie die Anzahl der Datensätze mit Fehlern durch die Gesamtzahl der Einträge, um die Fehlerquote zu berechnen.

Doppelte Rekordrate

Doppelte Datensätze können auftreten, wenn mehrere Einträge für eine einzelne Entität aufgrund von Systemfehlern oder menschlichen Fehlern erstellt werden. Diese Duplikate verschwenden nicht nur Speicherplatz, sondern verzerren auch die Analyseergebnisse und behindern effektive Entscheidungsfindung. Die Rate doppelter Datensätze berechnet den Prozentsatz doppelter Einträge innerhalb eines bestimmten Datensatzes im Vergleich zu allen Datensätzen.

Anteil der validen Adressen

Eine genaue Adresse ist für Unternehmen, die auf standortbasierte Dienstleistungen wie Lieferung oder Kundensupport angewiesen sind, entscheidend. Der Anteil der validen Adressen misst den Anteil gültiger Adressen in einem Datensatz im Vergleich zu allen Datensätzen mit einem Adressfeld. Um eine hohe Datenqualität aufrechtzuerhalten, müssen Sie Ihre Adressdaten regelmäßig bereinigen und validieren.

Time-to-Value der Daten

Die Time-to-Value der Daten beschreibt, wie schnell aus den Daten nach ihrer Erhebung ein Nutzen gewonnen wird. Eine kürzere Time-to-Value deutet darauf hin, dass Ihr Unternehmen Daten für Entscheidungszwecke effizient verarbeitet und analysiert. Die Überwachung dieser Metriken hilft, Engpässe in der Datenpipeline zu identifizieren und stellt sicher, dass Geschäftsanwendern zeitnahe Erkenntnisse zur Verfügung stehen.

8 Techniken zur Überwachung der Datenqualität

Hier sind ein paar gängige Techniken zur Überwachung der Datenqualität, mit denen Sie die Qualität Ihrer Daten überwachen können:

Datenprofilierung

Bei der Erstellung von Datenprofilen werden Inhalt, Struktur und Beziehungen innerhalb Ihrer Daten untersucht, analysiert und verstanden. Diese Technik beinhaltet die Überprüfung von Daten auf Spalten- und Zeilenebene, wobei Muster, Anomalien und Inkonsistenzen identifiziert werden. Datenprofilierung hilft Ihnen, Einblicke in die Qualität Ihrer Daten zu gewinnen, indem wertvolle Informationen wie Datentypen, Längen, Muster und eindeutige Werte bereitgestellt werden.

Es gibt drei Haupttypen der Datenprofilierung: Spaltenprofilierung, bei der einzelne Attribute in einem Datensatz untersucht werden; Abhängigkeitsprofilierung, bei der Beziehungen zwischen Attributen identifiziert werden; und Redundanzprofiling, das doppelte Daten erkennt. Durch den Einsatz von Tools zur Erstellung von Datenprofilen können Sie ein umfassendes Verständnis Ihrer Daten gewinnen und potenzielle Qualitätsprobleme erkennen, die behoben werden müssen.

Datenprüfung

Datenprüfung ist der Prozess, bei dem die Genauigkeit und Vollständigkeit von Daten bewertet werden, indem sie mit vordefinierten Regeln oder Standards verglichen werden. Diese Technik hilft Unternehmen, Probleme mit der Datenqualität, wie fehlende, falsche oder inkonsistente Daten, zu erkennen und zu verfolgen. Die Datenprüfung kann manuell erfolgen, indem Sie Datensätze überprüfen und nach Fehlern suchen, oder mithilfe automatisierter Tools, die Datenabweichungen überprüfen und kennzeichnen.

Um eine effektive Datenprüfung durchzuführen, sollten Sie zunächst eine Reihe von Datenqualitätsregeln und -standards festlegen, die Ihre Daten einhalten müssen. Anschließend können Sie mithilfe von Datenprüfungstools Ihre Daten mit diesen Regeln und Standards vergleichen und etwaige Diskrepanzen und Probleme identifizieren. Schließlich sollten Sie die Ergebnisse der Prüfung analysieren und Korrekturmaßnahmen ergreifen, um etwaige identifizierte Datenqualitätsprobleme zu beheben.

Datenqualitätsregeln

Datenqualitätsregeln sind vordefinierte Kriterien, die Ihre Daten erfüllen müssen, um ihre Genauigkeit, Vollständigkeit, Konsistenz und Zuverlässigkeit zu gewährleisten. Diese Regeln sind unerlässlich für die Aufrechterhaltung hochwertiger Daten und können durch Datenvalidierung, Transformation oder Bereinigungsprozesse durchgesetzt werden. Beispiele für Datenqualitätsregeln sind die Überprüfung auf doppelte Datensätze, die Validierung von Daten mit Referenzdaten und die Sicherstellung, dass die Daten bestimmten Formaten oder Mustern entsprechen.

Um effektive Datenqualitätsregeln umzusetzen, sollten Sie zunächst die Regeln definieren, die auf den Datenqualitätsanforderungen und Standards Ihres Unternehmens basieren. Als nächstes können Sie Datenqualitäts-Tools oder benutzerdefinierte Skripte verwenden, um diese Regeln auf Ihre Daten anzuwenden und alle Diskrepanzen oder Probleme zu markieren. Schließlich sollten Sie Ihre Datenqualitätsregeln kontinuierlich überwachen und aktualisieren, um sicherzustellen, dass sie für die Aufrechterhaltung der Datenqualität relevant und wirksam bleiben.

Datenbereinigung

Datenbereinigung ist der Prozess, bei dem Fehler, Unstimmigkeiten und Ungenauigkeiten in Ihren Daten identifiziert und korrigiert werden. Datenbereinigungstechniken umfassen verschiedene Methoden wie Datenvalidierung, Datenkonvertierung und Datendeduplizierung, um sicherzustellen, dass Ihre Daten genau, vollständig und zuverlässig sind.

Der Prozess der Datenbereinigung umfasst typischerweise die folgenden Schritte: Identifizierung von Datenqualitätsproblemen, Ermittlung der Ursachen dieser Probleme, Auswahl geeigneter Bereinigungstechniken, Anwendung der Bereinigungstechniken auf die Daten und Validierung der Ergebnisse, um sicherzustellen, dass die Probleme behoben wurden. Durch die Implementierung eines robusten Datenbereinigungsprozesses können Sie qualitativ hochwertige Daten verwalten, die eine effektive Entscheidungsfindung und einen effektiven Geschäftsbetrieb unterstützen.

Datenüberwachung in Echtzeit

Die Echtzeit-Datenüberwachung ist der Prozess der kontinuierlichen Verfolgung und Analyse von Daten, die in Ihrem Unternehmen erzeugt, verarbeitet und gespeichert werden. Mit dieser Technik lassen sich Probleme mit der Datenqualität identifizieren und beheben, sobald sie auftreten, anstatt auf regelmäßige Datenüberprüfungen oder Daten-Überprüfungen zu warten. Die Überwachung von Daten in Echtzeit hilft Unternehmen, qualitativ hochwertige Daten zu erhalten und sicherzustellen, dass ihre Entscheidungsfindung auf genauen, aktuellen Informationen basiert.

Verfolgung von Datenqualitäts-Metriken

Datenqualitätsmetriken sind quantitative Metriken, mit denen Unternehmen die Qualität ihrer Daten beurteilen können. Anhand dieser Metriken können Sie die Datenqualität im Laufe der Zeit verfolgen und überwachen, Trends und Muster erkennen und die Wirksamkeit Ihrer Verfahren zur Überwachung der Datenqualität bestimmen. Einige gängige Metriken zur Datenqualität sind Vollständigkeit, Genauigkeit, Konsistenz, Aktualität und Einzigartigkeit.

Um Datenqualität zu verfolgen, sollten Sie zunächst die Metriken definieren, die für die Datenqualitätsanforderungen und -standards Ihres Unternehmens am relevantesten sind. Anschließend können Sie Datenqualitätstools oder benutzerdefinierte Skripte verwenden, um diese Metriken für Ihre Daten zu berechnen und so eine quantitative Bewertung Ihrer Datenqualität vorzunehmen. Schließlich sollten Sie Ihre Datenqualitätsmetriken regelmäßig überprüfen und analysieren, um Bereiche mit Verbesserungspotenzial zu identifizieren und sicherzustellen, dass Ihre Reviews zur Datenqualität wirksam sind.

Datenleistungstests

Beim Testen der Datenleistung wird die Effizienz, Effektivität und Skalierbarkeit Ihrer Datenverarbeitungssysteme und Infrastruktur bewertet. Diese Technik hilft Unternehmen sicherzustellen, dass ihre Datenverarbeitungssysteme steigende Datenmengen, Komplexität und Geschwindigkeit bewältigen können, ohne die Datenqualität zu beeinträchtigen.

Um Datenleistungstests durchzuführen, sollten Sie zunächst Leistungs-Benchmarks und -ziele für Ihre Datenverarbeitung festlegen. Als Nächstes können Sie Datenleistungstest-Tools nutzen, um verschiedene Datenverarbeitungsszenarien zu simulieren, wie hohe Datenmengen oder komplexe Datenkonvertierungen, und die Leistung Ihrer Systeme anhand der festgelegten Benchmarks und Ziele zu messen. Schließlich sollten Sie die Ergebnisse Ihrer Datenleistungstests analysieren und alle notwendigen Verbesserungen an Ihren Datenverarbeitungssystemen und Ihrer Infrastruktur umsetzen.

Mehr erfahren über Zuverlässigkeit von Daten

Metadatenverwaltung

Metadatenmanagement ist der Prozess der Organisation, Pflege und Nutzung von Metadaten, um die Qualität, Konsistenz und Nutzbarkeit Ihrer Daten zu verbessern. Metadaten sind Daten über Daten, wie Datendefinitionen, Datenabstammung und Datenqualitätsregeln, die Unternehmen helfen, ihre Daten effektiver zu verstehen und zu verwalten. Durch die Einführung solider Verfahren zur Verwaltung von Metadaten können Sie die Gesamtqualität Ihrer Daten verbessern und sicherstellen, dass sie für Ihr Unternehmen leicht zugänglich, verständlich und nutzbar sind.

Um ein effektives Metadatenmanagement umzusetzen, sollten Sie zunächst ein Metadaten-Repository einrichten, das Ihre Metadaten konsistent und strukturiert speichert und organisiert. Als nächstes können Sie Metadaten-Verwaltungstools verwenden, um Ihre Metadaten zu erfassen, zu pflegen und zu aktualisieren, wenn sich Ihre Daten und Datenverarbeitungssysteme weiterentwickeln. Schließlich sollten Sie Prozesse und Best Practices für die Verwendung von Metadaten implementieren, um Initiativen zur Datenqualität, Datenintegration und Data Governance zu unterstützen.

Erkunden Sie, wie IBM Databand eine bessere Überwachung der Datenqualität ermöglicht, indem es unerwartete Spaltenänderungen und Nulldatensätze erkennt, um Sie bei der Einhaltung von Daten-SLAs zu unterstützen. Wenn Sie bereit sind, einen genaueren Blick darauf zu werfen, buchen Sie noch heute eine Demo.

Autor

Niv Sluzki

Ressourcen

Verwaltung von Daten für KI und Analysen in großem Maßstab

Erfahren Sie, wie ein offener Data-Lakehouse-Ansatz vertrauenswürdige Daten und eine schnellere Durchführung von Analysen und KI-Projekten ermöglichen kann.
2024 Gartner® Magic Quadrant™ for Data Integration Tools

IBM wurde im 2024 Gartner Magic Quadrant for Data Integration Tools zum 19. Mal in Folge als ein führender Anbieter im Bereich Datenintegrationstools genannt.
Das Datendifferenzierungsmerkmal

Erkunden Sie den Leitfaden für Datenexperten zum Aufbau eines datengestützten Unternehmens und zur Förderung von geschäftlichen Vorteilen.
Steigerung der Akzeptanz von KI mit KI-fähigen Daten

Erfahren Sie, warum KI-gestützte Datenintelligenz und Datenintegration entscheidend sind, um die Bereitschaft für strukturierte und unstrukturierte Daten zu fördern und KI-Ergebnisse zu beschleunigen.
Das hybride, offene Data Lakehouse für KI

Vereinfachen Sie den Datenzugriff und automatisieren Sie die Data Governance. Entdecken Sie die Vorteile einer Data-Lakehouse-Strategie für Ihre Datenarchitektur, einschließlich der Kostenoptimierung Ihrer Workloads und der Skalierung von KI und Analysen, mit all Ihren Daten, überall.
IBM Research® Veröffentlichungen zur Datenverwaltung

Erkunden Sie, wie IBM Research regelmäßig in neue Funktionen für IBM Cloud Pak® for Data integriert wird.
Gartner® Predicts 2024: How AI will impact analytics users

Erhalten Sie einzigartige Einblicke in die sich entwickelnde Geschäftswelt der ABI-Lösungen und hebt die wichtigsten Ergebnisse, Annahmen und Empfehlungen für Führungskräfte im Bereich Daten und Analysen hervor.
Weiterführende Lösungen
IBM® StreamSets

Erstellen und verwalten Sie intelligente Streaming-Datenpipelines über eine intuitive grafische Benutzeroberfläche, die eine nahtlose Datenintegration in Hybrid- und Multicloud-Umgebungen ermöglicht.

 StreamSets erkunden
IBM watsonx.data

Watsonx.data ermöglicht es Ihnen, Analysen und KI mit all Ihren Daten zu skalieren, unabhängig davon, wo sie sich befinden, und zwar über einen offenen, hybriden und kontrollierten Datenspeicher.

 IBM watsonx.data entdecken
Beratungsservices für Daten und Analysen

Erschließen Sie den Wert von Unternehmensdaten mit IBM Consulting® und bauen Sie ein erkenntnisgesteuertes Unternehmen auf, das Ihnen geschäftliche Vorteile verschafft.

 Analyse-Services entdecken
Machen Sie den nächsten Schritt

Entwerfen Sie eine Datenstrategie, die Datensilos beseitigt, die Komplexität reduziert und die Datenqualität verbessert, um außergewöhnliche Kunden- und Mitarbeitererfahrungen zu schaffen.

 Lösungen für Datenmanagement erkunden IBM watsonx.data entdecken