Was ist Data Profiling?
Werfen Sie einen Blick auf die Einsatzmöglichkeiten und Vorteile von Data Profiling, einschließlich bewährter Verfahren und Ansätze zur Verbesserung der Datenqualität
IBM Newsletter abonnieren
Zwei Angestellte, die an einem gemeinsam genutzten Schreibtisch sitzen und die Anzeige auf einem Computermonitor betrachten
Was ist Data Profiling?

Data Profiling, auch Datenarchäologie genannt, bezeichnet den Prozess der Überprüfung und Bereinigung von Daten, um ein besseres Verständnis für ihre Struktur zu gewinnen und die Datenqualitätsstandards innerhalb eines Unternehmens aufrechtzuerhalten. Der Hauptzweck des Data Profiling besteht darin, durch den Einsatz von Methoden zur Überprüfung und Zusammenfassung der Daten sowie einer abschließenden Bewertung ihres Zustands einen Einblick in die Qualität der Daten zu gewinnen. Diese Arbeit wird in der Regel von Dateningenieuren ausgeführt, die dabei eine Reihe von Geschäftsregeln und Analysealgorithmen verwenden.

Im Rahmen des Data Profiling werden Daten auf der Grundlage von Faktoren wie Genauigkeit, Konsistenz und Aktualität bewertet, um Aufschluss darüber zu geben, ob es den Daten an Konsistenz oder Genauigkeit mangelt oder ob sie ungültige Werte (Nullwerte) enthalten. Abhängig vom jeweiligen Datensatz kann es sich bei dem Ergebnis um etwas so Einfaches wie eine Statistik handeln, wie z. B. Zahlen oder Werte in Spaltenform. Data Profiling kann für Projekte eingesetzt werden, die Data Warehousing oder Business Intelligence beinhalten, und ist für Big Data-Projekte sogar noch von größerem Vorteil. Data Profiling kann eine wichtige Vorstufe der Datenverarbeitung und Datenanalyse sein.

watsonx.data kennenlernen

Skalieren Sie KI-Workloads für alle Ihre Daten, überall

Wie funktioniert Data Profiling?

Unternehmen integrieren Software oder Anwendungen, um sicherzustellen, dass Datensätze entsprechend aufbereitet worden sind und um schlechte Daten weitestgehend zu entfernen. Insbesondere kann damit festgestellt werden, welche Quellen Probleme mit der Datenqualität aufweisen oder verursachen, was sich letztlich auf den operativen und finanziellen Erfolg Ihres Unternehmens insgesamt auswirkt. Im Rahmen dieses Prozesses wird außerdem eine notwendige Bewertung der Datenqualität durchgeführt.

Der erste Schritt im Data Profiling besteht aus dem Sammeln von Datenquellen und zugehörigen Metadaten zum Zweck der Analyse, was häufig zur Erkennung von Fremdschlüsselbeziehungen führen kann. Die nachfolgenden Schritte haben die Funktion, die Daten zu bereinigen, um eine einheitliche Struktur sicherzustellen und u. a. Duplikate zu beseitigen. Nachdem die Daten bereinigt worden sind, gibt die Data-Profiling-Software Statistiken zur Beschreibung des Datensatzes aus. Diese können Angaben wie z. B. Mittelwert, Mindest-/Höchstwert und Häufigkeit umfassen. Im Folgenden werden korrekte und geeignete Data-Profiling-Ansätze skizziert.

Data Profiling im Vergleich zum Data Mining

Auch wenn Überschneidungen mit dem Data Mining bestehen, verfolgt Data Profiling ein anderes Ziel. Worin besteht der Unterschied?

  • Data Profiling hilft beim Verständnis von Daten und ihren Merkmalen, während Data Mining den Prozess der Erkennung von Mustern oder Trends durch Analyse der Daten bezeichnet.
  • Data Profiling konzentriert sich auf die Erfassung von Metadaten und die anschließende Anwendung von Methoden zu ihrer Analyse mit der Datenverwaltung als Endziel.
  • Im Gegensatz zum Data Mining liefert Data Profiling lediglich eine Zusammenfassung der Eigenschaften der Daten und ermöglicht die Nutzung dieser Daten.

Mit anderen Worten: Data Profiling ist das erste in einer Reihe von Tools, durch dessen Einsatz Sie sicherstellen, dass Ihre Daten korrekt sind und keine Ungenauigkeiten enthalten.

Arten des Data Profiling

Data Profiling sollte ein wesentlicher Bestandteil des Umgangs eines Unternehmens mit seinen Daten sein und Unternehmen sollten es als Schlüsselkomponente der Datenbereinigung betrachten. Es kann Ihnen nicht nur dabei helfen, Ihre Daten zu besser verstehen, sondern auch überprüfen, ob Ihre Daten den statistischen Standardgrößen entsprechen. Es gibt viele unterschiedliche Arten von Ansätzen, mit denen ein Analystenteam an die Aufgabe des Data Profiling herangehen kann. Diese Ansätze lassen sich aber in der Regel in drei Hauptkategorien einteilen, die allesamt das gleiche Ziel verfolgen, nämlich die Qualität Ihrer Daten zu verbessern und ein besseres Verständnis dieser Daten zu erlangen.

Analysten können die nachfolgend aufgeführten Data-Profiling-Ansätze verwenden:

  • Strukturermittlung: Dieser Ansatz konzentriert sich auf das Format der Daten und darauf, dass in der gesamten Datenbank eine konsistente Struktur verwendet wird. Es gibt eine Reihe unterschiedlicher Verfahren, die Analysten bei der Untersuchung der Datenbank anwenden können. Eines davon ist der Musterabgleich, der Ihnen dabei helfen kann, formatspezifische Informationen zu verstehen. Ein Beispiel hierfür wäre die Ausrichtung von Telefonnummern untereinander und die Feststellung, dass bei einer Telefonnummer eine Ziffer fehlt. Dies ist ein Problem, das bei der Strukturermittlung erkannt werden könnte.
  • Inhaltsermittlung: Bei dieser Art der Untersuchung werden die Datenzeilen auf Fehler oder systemische Probleme hin untersucht. Bei diesem Prozess werden die einzelnen Elemente der Datenbank genauer in Augenschein genommen, was dabei helfen kann, fehlerhafte Werte zu finden.
  • Beziehungsermittlung: Bei dieser Art der Untersuchung geht es darum, herauszufinden, welche Daten verwendet wurden, und zu versuchen, die Verbindung zwischen den einzelnen Datensätzen zu finden. Zu diesem Zweck beginnen Analysten zunächst mit einer Metadatenanalyse, um die Zusammenhänge zwischen den Daten zu verstehen, und grenzen anschließend ihre Analyse auf die Verbindungen zwischen bestimmten Feldern ein.
Vorteile und Herausforderungen des Data Profiling

Im Allgemeinen hat das Data Profiling wenige bis gar keine Nachteile. Es ist eine Sache, über große Datenmengen zu verfügen, aber letztendlich zählt die Qualität – und genau an diesem Punkt kommt das Data Profiling ins Spiel. Wenn Sie über standardisierte Daten verfügen, die präzise formatiert sind, besteht kaum die Gefahr, dass es zu unzufriedenen Kunden oder Missverständnissen kommt.

Die Herausforderungen sind meist systemischer Natur, denn wenn zum Beispiel nicht alle Daten an einem Ort gespeichert sind, kann es sich sehr schwierig gestalten, sie zu finden. Mit der Installation bestimmter Datentools und -anwendungen sollte dies jedoch kein Problem sein und dies kann einem Unternehmen bei seiner Entscheidungsfindung nur zugutekommen. Lassen Sie uns einen genaueren Blick auf andere wichtige Vorteile und Herausforderungen des Data Profiling werfen.

Vorteile

Das Data Profiling kann wie kein anderes Tool sonst einen Überblick über die Daten auf höchster Ebene bieten. Konkret können Sie Folgendes erwarten:

  • Präzisere Analysen: Ein vollständiges Data Profiling gewährleistet eine bessere Qualität und stellt eine höhere Glaubwürdigkeit der Daten sicher. Ein ordnungsgemäßes Data Profiling kann dazu beitragen, die Beziehungen zwischen den verschiedenen Datensätzen und -quellen besser zu verstehen, und Unterstützung für Verfahren zur Daten-Governance bieten.
  • Zentralisierte Informationen: Wenn Sie Ihre Daten mithilfe von Data Profiling untersuchen und analysieren, können Sie davon ausgehen, dass Ihre Datenqualität wesentlich höher und Ihre Daten übersichtlicher strukturiert sein werden. Die Überprüfung der Quelldaten beseitigt Fehler und hebt die Bereiche mit den meisten Problemen hervor. Dies führt zu Einblicken in die Daten und einer bestmöglichen Gliederung und Zentralisierung der Daten.

Herausforderungen

Die Herausforderungen im Data Profiling ergeben sich in der Regel aus der Komplexität der damit verbundenen Arbeiten. Konkret können Sie Folgendes erwarten:

  • Teuer und zeitaufwändig: Data Profiling kann sehr komplex werden, wenn versucht wird, ein erfolgreiches Programm zu implementieren. Dies ist zum Teil auf die schiere Menge an Daten zurückzuführen, die von einem typischen Unternehmen gesammelt wird. Weiterhin kann es sehr teuer und zeitaufwändig werden, speziell geschulte Experten mit der Analyse der Ergebnisse zu beauftragen und dann ohne die richtigen Tools Entscheidungen zu treffen.
  • Unzureichende Ressourcen: Um mit dem Data Profiling beginnen zu können, müssen die Daten eines Unternehmens an einem Ort gebündelt vorliegen – was oft nicht der Fall ist. Wenn die Daten über verschiedene Abteilungen hinweg verteilt sind und es keinen geschulten Datenexperten in Ihrem Unternehmen gibt, kann es äußerst schwierig werden, ein Datenprofil für ein Unternehmen als Ganzes zu erstellen.
Tools für das Data Profiling und bewährte Verfahren

Unabhängig vom gewählten Ansatz optimieren die folgenden Tools und bewährten Verfahren Genauigkeit und Effizienz im Data Profiling:

Spaltenprofilerstellung: Bei dieser Methode werden Tabellen geprüft. Dabei wird gezählt, wie oft jeder einzelne Wert in jeder Spalte vorkommt. Diese Art der Profilerstellung kann nützlich sein, um innerhalb einer Spalte Häufigkeitsverteilungen und Muster zu finden.

Spaltenübergreifende Profilerstellung: Dieses Verfahren setzt sich aus zwei Prozessen zusammen: der Schlüsselanalyse und der Abhängigkeitsanalyse. Bei der Schlüsselanalyse wird der Bereich der Attributwerte untersucht, indem nach einem möglichen Primärschlüssel gesucht wird. Die Abhängigkeitsanalyse hingegen hat die Aufgabe, zu ermitteln, welche Beziehungen oder Muster in den Datensatz eingebettet sind.

Tabellenübergreifende Profilerstellung: Dieses Verfahren verwendet die Schlüsselanalyse, um Streudaten zu identifizieren. Bei der Fremdschlüsselanalyse werden verwaiste Datenzeilen oder allgemeine Unterschiede ermittelt, um die Beziehung zwischen Spaltensätzen in unterschiedlichen Tabellen zu untersuchen.

Datenregelvalidierung: Bei dieser Methode werden Datensätze anhand festgelegter Regeln und Standards bewertet, um sicherzustellen, dass sie diesen vordefinierten Regeln auch tatsächlich entsprechen.

Schlüsselintegrität: Hierbei wird sichergestellt, dass die Schlüssel stets in den Daten vorhanden sind. Dabei werden verwaiste Schlüssel ermittelt, die sich als problematisch erweisen können.

Kardinalität: Bei diesem Verfahren werden Beziehungen zwischen Datensätzen überprüft, wie z. B. Eins-zu-eins- und Eins-zu-viele-Beziehungen.

Muster und Häufigkeitsverteilung: Dieses Verfahren stellt sicher, dass die Datenfelder korrekt formatiert sind.

Anwendungsfälle für das Data Profiling

Data Profiling kann die Genauigkeit, Qualität und Nutzbarkeit in einer Vielzahl von Kontexten in den unterschiedlichsten Branchen verbessern. Zu seinen wichtigsten Anwendungsfällen zählen jedoch die folgenden:

Datentransformation: Bevor Daten verarbeitet werden können, müssen sie in einen brauchbaren und strukturierten Datensatz umgewandelt werden. Da dies ein wichtiger Schritt vor der Erstellung eines Vorhersagemodells und der Untersuchung der Daten ist, muss das Data Profiling vor jedem dieser Schritte erfolgen. IBM Db2 Warehouse on Cloud ist ein elastisches Cloud-Data-Warehouse, das für Hochleistungsanalysen und KI entwickelt wurde. Dieses Data Warehouse ermöglicht es Ihnen, Daten aus Ihrem gesamten Unternehmen zu aggregieren.  

Darüber hinaus sind ELT (Extrahieren, Laden, Transformieren) und ETL (Extrahieren, Transformieren, Laden) Datenintegrationsprozesse, bei denen Rohdaten aus einem Quellsystem in eine Zieldatenbank übertragen werden. IBM bietet Services und Lösungen für die Datenintegration an, um eine geschäftlich verwertbare Datenpipeline zu unterstützen und Ihrem Unternehmen die Tools an die Hand zu geben, die es für eine effiziente Skalierung benötigt.

Datenintegration: Um mehrere Datensätze richtig integrieren zu können, müssen Sie zunächst die Beziehungen zwischen den einzelnen Datensätzen kennen und verstehen. Dies ist ein absolut notwendiger Schritt, wenn es darum geht, die Metriken der Daten zu verstehen und zu bestimmen, wie sie miteinander verknüpft werden sollen. 

Abfrageoptimierung: Wenn Sie über möglichst genaue und optimierte Informationen zu Ihrem Unternehmen verfügen möchten, ist das Data Profiling der Schlüssel hierzu. Beim Data Profiling werden Informationen über die Merkmale einer Datenbank berücksichtigt und Statistiken über jede Datenbank erstellt. IBM i 7.2-Software bietet genau zu diesem Zweck eine Optimierung der Datenbankleistung und -abfragen. Das Ziel der Datenbankoptimierung besteht darin, die Reaktionszeit auf Ihre Abfragen durch möglichst optimale Nutzung Ihrer Systemressourcen zu minimieren.  

Weiterführende Lösungen
IBM InfoSphere Information Analyzer

IBM InfoSphere Information Analyzer bewertet den Inhalt und die Struktur Ihrer Daten auf Konsistenz und Qualität. InfoSphere Information Analyzer hilft Ihnen auch dabei, die Genauigkeit Ihrer Daten zu verbessern, indem Rückschlüsse gezogen und Anomalien identifiziert werden.

IBM InfoSphere Information Analyzer
IBM InfoSphere QualityStage

IBM InfoSphere QualityStage wurde mit dem Ziel konzipiert, Ihre Initiativen für Datenqualität und Information-Governance zu unterstützen. Dieses Tool ermöglicht es Ihnen, Ihre Daten zu untersuchen, zu bereinigen und zu verwalten, und hilft Ihnen dabei, konsistente Ansichten von wichtigen Entitäten wie z. B. Kunden, Lieferanten, Standorten und Produkten zu pflegen.

IBM InfoSphere QualityStage
Gehen Sie den nächsten Schritt

IBM bietet zahlreiche Ressourcen, um Ihre Daten so effizient wie möglich zu verarbeiten und Ihre Erfahrungen mit dem Data Profiling zu maximieren. Unabhängig vom Datenvolumen, über das Sie verfügen, können IBM InfoSphere Information Analyzer und IBM InfoSphere QualityStage Ihre Datentrainingsprozesse verbessern und Ihre Datenqualitäts- und Information-Governance-Initiativen unterstützen. Die Tools ermöglichen es Ihnen weiterhin, Ihre Daten zu untersuchen, zu bereinigen und zu verwalten und helfen Ihnen dabei, konsistente Ansichten von wichtigen Entitäten wie z. B. Kunden, Lieferanten, Standorten und Produkten zu pflegen.

IBM InfoSphere QualityStage