Was ist Data Wrangling?

Eine Person sitzt vor mehreren Computerbildschirmen mit Daten

Autoren

Amanda McGrath

Staff Writer

IBM Think

Alexandra Jonker

Staff Editor

IBM Think

Was ist Data Wrangling?

Data Wrangling ist der Prozess der Bereinigung, Strukturierung und Aufarbeitung von Rohdaten, die in den Bereichen Data Science, maschinelles Lernen (ML) und in anderen datengestützten Anwendungen verwendet werden sollen.

Data Wrangling, auch als Data Munging oder Datenaufbereitung bezeichnet, ist eine Möglichkeit, Probleme mit der Datenqualität wie Missing Values, Duplikate, Sonderfälle und Formatierungsinkonsistenzen zu beheben. Das Ziel des Data Wrangling besteht darin, Rohdaten, unstrukturierte oder problematische Daten in saubere Datensätze umzuwandeln, die effektiv analysiert werden können. Data Wrangling hilft Data Scientists, Datenanalysten und anderen Geschäftsanwendern, Daten auf eine Weise anzuwenden, die fundierte Entscheidungen unterstützt.

3D-Design aus Kugeln, die auf einer Schiene rollen

Die neuesten Erkenntnisse und Insights zu KI

Entdecken Sie von Experten kuratierte Erkenntnisse und Neuigkeiten zu KI, Cloud und mehr im wöchentlichen Newsletter Think. 

Warum ist Data Wrangling wichtig?

Heutzutage haben Unternehmen Zugriff auf Unmengen von Daten aus verschiedenen Quellen. Diese Rohdaten können jedoch chaotisch, inkonsistent oder ungeeignet für die Verwendung mit verschiedenen Prozessen und Tools sein, die sie in wertvolle Erkenntnisse verwandeln. Ohne ordnungsgemäßes Data Wrangling können die Ergebnisse der Datenanalyse irreführend sein. Unternehmen könnten falsche Schlussfolgerungen ziehen und schlechte Geschäftsentscheidungen treffen.

Data Wrangling ist eine wichtige Möglichkeit, um qualitativ hochwertige Ergebnisse zu erzielen. Es konvertiert und ordnet Daten in einer Reihe von Schritten zu, damit sie sauber, konsistent, zuverlässig und nützlich für die beabsichtigte Anwendung sind. Die daraus resultierenden Datensätze werden für Aufgaben wie die Erstellung von Modellen für maschinelles Lernen, die Durchführung von Datenanalysen, die Erstellung von Datenvisualisierungen und Business-Intelligence-Berichten und das Treffen fundierter Führungsentscheidungen verwendet.

Da datengesteuerte Technologien, einschließlich künstlicher Intelligenz (KI), immer fortschrittlicher werden, gewinnt das Data Wrangling an Bedeutung. KI-Modelle sind nur so gut wie die Daten, mit denen sie trainiert werden.

Der Data-Wrangling-Prozess trägt dazu bei, dass die zur Entwicklung und Verbesserung der Modelle verwendeten Informationen korrekt sind. Er verbessert die Interpretierbarkeit, da saubere und gut strukturierte Daten für Menschen und Algorithmen leichter zu verstehen sind. Er hilft auch bei der Datenintegration und erleichtert die Kombination und Vernetzung von Informationen aus verteilten Quellen.

Mixture of Experts | 12. Dezember, Folge 85

KI entschlüsseln: Wöchentlicher Nachrichtenüberblick

Schließen Sie sich unserer erstklassigen Expertenrunde aus Ingenieuren, Forschern, Produktführern und anderen an, die sich durch das KI-Rauschen kämpfen, um Ihnen die neuesten KI-Nachrichten und Erkenntnisse zu liefern.

Der Data-Wrangling-Prozess

Der Data-Wrangling-Prozess umfasst in der Regel die folgenden Schritte:

  • Entdecken
  • Strukturieren
  • Bereinigen
  • Anreichern
  • Validieren

Entdecken

Dieser erste Schritt konzentriert sich auf die Bewertung der Qualität des gesamten Datensatzes, einschließlich der Datenquellen und Datenformate. Stammen die Daten aus Datenbanken, Programmierschnittstellen (APIs), CSV-Dateien, Web Scraping oder anderen Quellen? Wie sind sie strukturiert? Wie werden sie verwendet werden?

Der Entdeckungsprozess hebt Qualitätsprobleme hervor und behebt sie, etwa fehlende Daten, uneinheitliche Formatierungen, Fehler oder Verzerrung sowie Sonderfälle, die die Analyse verzerren könnten. Die Ergebnisse werden in der Regel in einem Datenqualitätsbericht oder einem technischeren Dokument, dem so genannten Data Profiling Report, dokumentiert, der Statistiken, Verteilungen und andere Ergebnisse enthält.

Strukturieren

Der Schritt der Datenstrukturierung, manchmal auch Datenkonvertierung genannt, konzentriert sich darauf, die Daten in einem einheitlichen Format zu organisieren, sodass sie für Analysen geeignet sind. Dies beinhaltet:

  • Aggregation: Kombinieren von Datenzeilen mithilfe von zusammenfassenden Statistiken und Gruppieren von Daten basierend auf bestimmten Variablen

  • Pivotieren: Verschieben von Daten zwischen Zeilen und Spalten oder Umwandeln von Daten in andere Formate, um sie für die Verwendung vorzubereiten

  • Joining: Zusammenführen von Daten aus mehreren Tabellen und Kombinieren verwandter Informationen aus unterschiedlichen und verteilten Quellen

  • Datentypkonvertierung: Ändern des Datentyps einer Variablen, um die Durchführung von Berechnungen und die Anwendung statistischer Methoden zu unterstützen

Bereinigen

Bei der Datenbereinigung geht es um die Handhabung von Missing Values, die Entfernung von Duplikaten und die Korrektur von Fehlern oder Inkonsistenzen. Dieser Prozess kann auch das Glätten von „verrauschten“ Daten umfassen, d. h. die Anwendung von Techniken, die die Auswirkungen zufälliger Variationen oder anderer Probleme in den Daten reduzieren. Bei der Bereinigung ist es wichtig, unnötigen Datenverlust oder eine übermäßige Bereinigung zu vermeiden, da dadurch wertvolle Informationen entfernt oder die Daten verfälscht werden können.

Anreichern

Bei der Datenanreicherung werden bestehende Datensätze mit neuen Informationen versehen, um deren Wert zu steigern. Dieser Schritt wird manchmal auch als Datenerweiterung bezeichnet. Es darum, zu bewerten, welche zusätzlichen Informationen notwendig sind und woher sie stammen könnten. Anschließend müssen die zusätzlichen Informationen in den bestehenden Datensatz integriert und auf die gleiche Weise wie die Originaldaten bereinigt werden.

Die Datenanreicherung kann das Einholen demografischer, geografischer, Verhaltens- oder Umweltdaten beinhalten, die für den beabsichtigten Anwendungsfall relevant sind. Wenn sich ein Data-Wrangling-Projekt zum Beispiel auf Abläufe in der Lieferkette bezieht, könnte die Anreicherung der Versanddaten mit Wetterinformationen helfen, Verzögerungen vorherzusagen.

Validieren

In diesem Schritt werden die Genauigkeit und Konsistenz der Wrangle-Daten validiert. Zunächst müssen Validierungsregeln auf der Grundlage von Geschäftslogik, Dateneinschränkungen und anderen Aspekten festgelegt werden. Anschließend werden Validierungstechniken angewendet. Dazu gehören:

  • Validierung des Datentyps: Hilft dabei, korrekte Datentypen sicherzustellen

  • Bereichs- oder Formatprüfungen: Überprüfen, ob die Werte innerhalb akzeptabler Bereiche liegen und bestimmten Formaten entsprechen

  • Konsistenzprüfungen: Stellen sicher, dass eine logische Übereinstimmung zwischen verwandten Variablen besteht

  • Eindeutigkeitsprüfungen: Bestätigen, dass bestimmte Variablen (z. B. Kunden- oder Produkt-ID-Nummern) eindeutige Werte haben

  • Feldübergreifende Validierung: Überprüft die logischen Beziehungen zwischen Variablen (z. B. Alter und Geburtsdatum)

  • Statistische Analyse: Identifiziert Sonderfälle oder Anomalien durch Verwendung von deskriptiven Statistiken und Visualisierungen

Nach einer gründlichen Validierung können Unternehmen die Wrangle-Daten veröffentlichen oder sie für die Verwendung in Anwendungen aufbereiten. Dieser Prozess kann das Laden der Daten in ein Data Warehouse, die Erstellung von Datenvisualisierungen oder den Export der Daten in ein bestimmtes Format zur Verwendung mit ML-Algorithmen umfassen.

Der Data-Wrangling-Prozess kann zeitaufwändig sein, zumal die Menge komplexer Daten weiter wächst. Tatsächlich deuten Untersuchungen darauf hin, dass die Vorbereitung von Daten und deren Umwandlung in nutzbare Formen zwischen 45 % und 80 % der Zeit eines Datenanalysten in Anspruch nehmen. 1 2

Data Wrangling erfordert ein gewisses Maß an technischem Fachwissen in Bezug auf Programmiersprachen, Datenmanipulationstechniken und spezialisierte Tools. Aber letztlich verbessert es die Datenqualität und unterstützt eine effizientere und effektivere Datenanalyse.

Tools und Technologien für Data Wrangling

Unternehmen verwenden verschiedene Tools und Technologien, um Daten aus verschiedenen Quellen zu verarbeiten und sie in eine Datenpipeline zu integrieren, die die allgemeinen Geschäftsanforderungen unterstützt. Dazu gehören:

  • Programmiersprachen
  • Tabellenkalkulationen
  • Spezialisierte Tools
  • Big-Data-Plattformen
  • Künstliche Intelligenz

Programmiersprachen

Python und R werden häufig für Data-Wrangling-Aufgaben verwendet, etwa Data-Mining, Datenmanipulation und Datenanalyse. Eine strukturierte Abfragesprache (Structured Query Language, SQL) ist für die Arbeit mit relationalen Datenbanken und die Datenverwaltung unerlässlich.

Tabellenkalkulationen

Data Wranglers verwenden Tools wie Microsoft Excel und Google Sheets für die grundlegende Datenbereinigung und -manipulation, insbesondere bei kleineren Datensätzen.

Spezialisierte Tools

Data-Wrangling-Tools bieten eine visuelle Oberfläche für die Datenbereinigung und Datenkonvertierung und helfen so, Workflows zu optimieren und Aufgaben zu automatisieren. So kann beispielsweise das auf IBM Plattformen verfügbare Datenverfeinerungstool Rohdaten schnell in eine für Datenanalyse und andere Zwecke nutzbare Form umwandeln.

Big-Data-Plattformen

Big-Data-Plattformen helfen bei der Bearbeitung großer, komplexer Datensätze, indem sie die Tools und Funktionen bereitstellen, die für den Umgang mit der Menge und Vielfalt von Big Data erforderlich sind. Plattformen wie Apache Hadoop und Apache Spark werden für die Verarbeitung großer Datensätze verwendet. Sie nutzen Big-Data-Technologien, um Informationen in eine für hochwertige Datenanalyse und Entscheidungsfindung nutzbare Form umzuwandeln.

Künstliche Intelligenz

KI unterstützt Data Wrangling durch Automatisierung und erweiterte Analyse. Modelle und Algorithmen für maschinelles Lernen können bei Problemen wie der Erkennung von Sonderfällen und der Skalierung helfen. Andere KI-Tools können große Datensätze schnell verarbeiten, Transformationen in Echtzeit durchführen und Muster erkennen, um die Bereinigungsmaßnahmen zu steuern. Benutzeroberflächen zur Verarbeitung natürlicher Sprache (NLP) ermöglichen es Benutzern, intuitiv mit Daten zu interagieren, was technische Barrieren verringern könnte.

Fußnoten

Alle Links befinden sich außerhalb von ibm.com

1 State of Data Science, Anaconda, Juli 2020.

2 Hellerstein et al. Principles of Data Wrangling. O’Reilly Media. Juli 2017.

Weiterführende Lösungen
Data-Science-Tools und -Lösungen

Nutzen Sie Data-Science-Tools und -Lösungen, um mithilfe von Daten, Algorithmen, maschinellem Lernen und KI-Techniken Muster zu erkennen und Prognosen zu treffen.

Entdecken Sie Data-Science-Lösungen
IBM Cognos Analytics

Wir stellen vor: Cognos Analytics 12.0, KI-gestützte Erkenntnisse für eine bessere Entscheidungsfindung.

Cognos Analytics erkunden
Beratungsservices für Daten und Analysen

Erschließen Sie den Wert von Unternehmensdaten mit IBM Consulting und bauen Sie ein erkenntnisorientiertes Unternehmen auf, das Ihnen geschäftliche Vorteile verschafft.

Entdecken Sie die Analyse-Services
Machen Sie den nächsten Schritt

Nutzen Sie Data-Science-Tools und -Lösungen, um mithilfe von Daten, Algorithmen, maschinellem Lernen und KI-Techniken Muster zu erkennen und Prognosen zu treffen.

Data-Science-Lösungen erkunden Analysedienste erkunden