Data Wrangling ist der Prozess der Bereinigung, Strukturierung und Aufarbeitung von Rohdaten, die in den Bereichen Data Science, maschinelles Lernen (ML) und in anderen datengestützten Anwendungen verwendet werden sollen.
Data Wrangling, auch als Data Munging oder Datenaufbereitung bezeichnet, ist eine Möglichkeit, Probleme mit der Datenqualität wie Missing Values, Duplikate, Sonderfälle und Formatierungsinkonsistenzen zu beheben. Das Ziel des Data Wrangling besteht darin, Rohdaten, unstrukturierte oder problematische Daten in saubere Datensätze umzuwandeln, die effektiv analysiert werden können. Data Wrangling hilft Data Scientists, Datenanalysten und anderen Geschäftsanwendern, Daten auf eine Weise anzuwenden, die fundierte Entscheidungen unterstützt.
Heutzutage haben Unternehmen Zugriff auf Unmengen von Daten aus verschiedenen Quellen. Diese Rohdaten können jedoch chaotisch, inkonsistent oder ungeeignet für die Verwendung mit verschiedenen Prozessen und Tools sein, die sie in wertvolle Erkenntnisse verwandeln. Ohne ordnungsgemäßes Data Wrangling können die Ergebnisse der Datenanalyse irreführend sein. Unternehmen könnten falsche Schlussfolgerungen ziehen und schlechte Geschäftsentscheidungen treffen.
Data Wrangling ist eine wichtige Möglichkeit, um qualitativ hochwertige Ergebnisse zu erzielen. Es konvertiert und ordnet Daten in einer Reihe von Schritten zu, damit sie sauber, konsistent, zuverlässig und nützlich für die beabsichtigte Anwendung sind. Die daraus resultierenden Datensätze werden für Aufgaben wie die Erstellung von Modellen für maschinelles Lernen, die Durchführung von Datenanalysen, die Erstellung von Datenvisualisierungen und Business-Intelligence-Berichten und das Treffen fundierter Führungsentscheidungen verwendet.
Da datengesteuerte Technologien, einschließlich künstlicher Intelligenz (KI), immer fortschrittlicher werden, gewinnt das Data Wrangling an Bedeutung. KI-Modelle sind nur so gut wie die Daten, mit denen sie trainiert werden.
Der Data-Wrangling-Prozess trägt dazu bei, dass die zur Entwicklung und Verbesserung der Modelle verwendeten Informationen korrekt sind. Er verbessert die Interpretierbarkeit, da saubere und gut strukturierte Daten für Menschen und Algorithmen leichter zu verstehen sind. Er hilft auch bei der Datenintegration und erleichtert die Kombination und Vernetzung von Informationen aus verteilten Quellen.
Der Data-Wrangling-Prozess umfasst in der Regel die folgenden Schritte:
Dieser erste Schritt konzentriert sich auf die Bewertung der Qualität des gesamten Datensatzes, einschließlich der Datenquellen und Datenformate. Stammen die Daten aus Datenbanken, Programmierschnittstellen (APIs), CSV-Dateien, Web Scraping oder anderen Quellen? Wie sind sie strukturiert? Wie werden sie verwendet werden?
Der Entdeckungsprozess hebt Qualitätsprobleme hervor und behebt sie, etwa fehlende Daten, uneinheitliche Formatierungen, Fehler oder Verzerrung sowie Sonderfälle, die die Analyse verzerren könnten. Die Ergebnisse werden in der Regel in einem Datenqualitätsbericht oder einem technischeren Dokument, dem so genannten Data Profiling Report, dokumentiert, der Statistiken, Verteilungen und andere Ergebnisse enthält.
Der Schritt der Datenstrukturierung, manchmal auch Datenkonvertierung genannt, konzentriert sich darauf, die Daten in einem einheitlichen Format zu organisieren, sodass sie für Analysen geeignet sind. Dies beinhaltet:
Bei der Datenbereinigung geht es um die Handhabung von Missing Values, die Entfernung von Duplikaten und die Korrektur von Fehlern oder Inkonsistenzen. Dieser Prozess kann auch das Glätten von „verrauschten“ Daten umfassen, d. h. die Anwendung von Techniken, die die Auswirkungen zufälliger Variationen oder anderer Probleme in den Daten reduzieren. Bei der Bereinigung ist es wichtig, unnötigen Datenverlust oder eine übermäßige Bereinigung zu vermeiden, da dadurch wertvolle Informationen entfernt oder die Daten verfälscht werden können.
Bei der Datenanreicherung werden bestehende Datensätze mit neuen Informationen versehen, um deren Wert zu steigern. Dieser Schritt wird manchmal auch als Datenerweiterung bezeichnet. Es darum, zu bewerten, welche zusätzlichen Informationen notwendig sind und woher sie stammen könnten. Anschließend müssen die zusätzlichen Informationen in den bestehenden Datensatz integriert und auf die gleiche Weise wie die Originaldaten bereinigt werden.
Die Datenanreicherung kann das Einholen demografischer, geografischer, Verhaltens- oder Umweltdaten beinhalten, die für den beabsichtigten Anwendungsfall relevant sind. Wenn sich ein Data-Wrangling-Projekt zum Beispiel auf Abläufe in der Lieferkette bezieht, könnte die Anreicherung der Versanddaten mit Wetterinformationen helfen, Verzögerungen vorherzusagen.
In diesem Schritt werden die Genauigkeit und Konsistenz der Wrangle-Daten validiert. Zunächst müssen Validierungsregeln auf der Grundlage von Geschäftslogik, Dateneinschränkungen und anderen Aspekten festgelegt werden. Anschließend werden Validierungstechniken angewendet. Dazu gehören:
Nach einer gründlichen Validierung können Unternehmen die Wrangle-Daten veröffentlichen oder sie für die Verwendung in Anwendungen aufbereiten. Dieser Prozess kann das Laden der Daten in ein Data Warehouse, die Erstellung von Datenvisualisierungen oder den Export der Daten in ein bestimmtes Format zur Verwendung mit ML-Algorithmen umfassen.
Der Data-Wrangling-Prozess kann zeitaufwändig sein, zumal die Menge komplexer Daten weiter wächst. Tatsächlich deuten Untersuchungen darauf hin, dass die Vorbereitung von Daten und deren Umwandlung in nutzbare Formen zwischen 45 % und 80 % der Zeit eines Datenanalysten in Anspruch nehmen. 1 2
Data Wrangling erfordert ein gewisses Maß an technischem Fachwissen in Bezug auf Programmiersprachen, Datenmanipulationstechniken und spezialisierte Tools. Aber letztlich verbessert es die Datenqualität und unterstützt eine effizientere und effektivere Datenanalyse.
Unternehmen verwenden verschiedene Tools und Technologien, um Daten aus verschiedenen Quellen zu verarbeiten und sie in eine Datenpipeline zu integrieren, die die allgemeinen Geschäftsanforderungen unterstützt. Dazu gehören:
Python und R werden häufig für Data-Wrangling-Aufgaben verwendet, etwa Data-Mining, Datenmanipulation und Datenanalyse. Eine strukturierte Abfragesprache (Structured Query Language, SQL) ist für die Arbeit mit relationalen Datenbanken und die Datenverwaltung unerlässlich.
Data Wranglers verwenden Tools wie Microsoft Excel und Google Sheets für die grundlegende Datenbereinigung und -manipulation, insbesondere bei kleineren Datensätzen.
Data-Wrangling-Tools bieten eine visuelle Oberfläche für die Datenbereinigung und Datenkonvertierung und helfen so, Workflows zu optimieren und Aufgaben zu automatisieren. So kann beispielsweise das auf IBM Plattformen verfügbare Datenverfeinerungstool Rohdaten schnell in eine für Datenanalyse und andere Zwecke nutzbare Form umwandeln.
Big-Data-Plattformen helfen bei der Bearbeitung großer, komplexer Datensätze, indem sie die Tools und Funktionen bereitstellen, die für den Umgang mit der Menge und Vielfalt von Big Data erforderlich sind. Plattformen wie Apache Hadoop und Apache Spark werden für die Verarbeitung großer Datensätze verwendet. Sie nutzen Big-Data-Technologien, um Informationen in eine für hochwertige Datenanalyse und Entscheidungsfindung nutzbare Form umzuwandeln.
KI unterstützt Data Wrangling durch Automatisierung und erweiterte Analyse. Modelle und Algorithmen für maschinelles Lernen können bei Problemen wie der Erkennung von Sonderfällen und der Skalierung helfen. Andere KI-Tools können große Datensätze schnell verarbeiten, Transformationen in Echtzeit durchführen und Muster erkennen, um die Bereinigungsmaßnahmen zu steuern. Benutzeroberflächen zur Verarbeitung natürlicher Sprache (NLP) ermöglichen es Benutzern, intuitiv mit Daten zu interagieren, was technische Barrieren verringern könnte.
Alle Links befinden sich außerhalb von ibm.com
1 State of Data Science, Anaconda, Juli 2020.
2 Hellerstein et al. Principles of Data Wrangling. O’Reilly Media. Juli 2017.
Nutzen Sie Data-Science-Tools und -Lösungen, um mithilfe von Daten, Algorithmen, maschinellem Lernen und KI-Techniken Muster zu erkennen und Prognosen zu treffen.
Wir stellen vor: Cognos Analytics 12.0, KI-gestützte Erkenntnisse für eine bessere Entscheidungsfindung.
Erschließen Sie den Wert von Unternehmensdaten mit IBM Consulting und bauen Sie ein erkenntnisorientiertes Unternehmen auf, das Ihnen geschäftliche Vorteile verschafft.