Was ist Data Wrangling?

Eine Person sitzt vor mehreren Computerbildschirmen mit Daten

Autoren

Amanda McGrath

Staff Writer

IBM Think

Alexandra Jonker

Staff Editor

IBM Think

Was ist Data Wrangling?

Data Wrangling ist der Prozess der Bereinigung, Strukturierung und Aufarbeitung von Rohdaten, die in den Bereichen Data Science, maschinelles Lernen (ML) und in anderen datengestützten Anwendungen verwendet werden sollen.

Data Wrangling, auch als Data Munging oder Datenaufbereitung bezeichnet, ist eine Möglichkeit, Probleme mit der Datenqualität wie Missing Values, Duplikate, Sonderfälle und Formatierungsinkonsistenzen zu beheben. Das Ziel des Data Wrangling besteht darin, Rohdaten, unstrukturierte oder problematische Daten in saubere Datensätze umzuwandeln, die effektiv analysiert werden können. Data Wrangling hilft Data Scientists, Datenanalysten und anderen Geschäftsanwendern, Daten auf eine Weise anzuwenden, die fundierte Entscheidungen unterstützt.

3D-Design aus Kugeln, die auf einer Schiene rollen

Die neuesten Erkenntnisse und Insights zu KI

Entdecken Sie von Experten kuratierte Erkenntnisse und Neuigkeiten zu KI, Cloud und mehr im wöchentlichen Newsletter Think.

Warum ist Data Wrangling wichtig?

Heutzutage haben Unternehmen Zugriff auf Unmengen von Daten aus verschiedenen Quellen. Diese Rohdaten können jedoch chaotisch, inkonsistent oder ungeeignet für die Verwendung mit verschiedenen Prozessen und Tools sein, die sie in wertvolle Erkenntnisse verwandeln. Ohne ordnungsgemäßes Data Wrangling können die Ergebnisse der Datenanalyse irreführend sein. Unternehmen könnten falsche Schlussfolgerungen ziehen und schlechte Geschäftsentscheidungen treffen.

Data Wrangling ist eine wichtige Möglichkeit, um qualitativ hochwertige Ergebnisse zu erzielen. Es konvertiert und ordnet Daten in einer Reihe von Schritten zu, damit sie sauber, konsistent, zuverlässig und nützlich für die beabsichtigte Anwendung sind. Die daraus resultierenden Datensätze werden für Aufgaben wie die Erstellung von Modellen für maschinelles Lernen, die Durchführung von Datenanalysen, die Erstellung von Datenvisualisierungen und Business-Intelligence-Berichten und das Treffen fundierter Führungsentscheidungen verwendet.

Da datengesteuerte Technologien, einschließlich künstlicher Intelligenz (KI), immer fortschrittlicher werden, gewinnt das Data Wrangling an Bedeutung. KI-Modelle sind nur so gut wie die Daten, mit denen sie trainiert werden.

Der Data-Wrangling-Prozess trägt dazu bei, dass die zur Entwicklung und Verbesserung der Modelle verwendeten Informationen korrekt sind. Er verbessert die Interpretierbarkeit, da saubere und gut strukturierte Daten für Menschen und Algorithmen leichter zu verstehen sind. Er hilft auch bei der Datenintegration und erleichtert die Kombination und Vernetzung von Informationen aus verteilten Quellen.

Mixture of Experts | 12. Dezember, Folge 85

KI entschlüsseln: Wöchentlicher Nachrichtenüberblick

Schließen Sie sich unserer erstklassigen Expertenrunde aus Ingenieuren, Forschern, Produktführern und anderen an, die sich durch das KI-Rauschen kämpfen, um Ihnen die neuesten KI-Nachrichten und Erkenntnisse zu liefern.

Alle Episoden von Mixture of Experts ansehen

Der Data-Wrangling-Prozess

Der Data-Wrangling-Prozess umfasst in der Regel die folgenden Schritte:

Entdecken
Strukturieren
Bereinigen
Anreichern
Validieren

Entdecken

Dieser erste Schritt konzentriert sich auf die Bewertung der Qualität des gesamten Datensatzes, einschließlich der Datenquellen und Datenformate. Stammen die Daten aus Datenbanken, Programmierschnittstellen (APIs), CSV-Dateien, Web Scraping oder anderen Quellen? Wie sind sie strukturiert? Wie werden sie verwendet werden?

Der Entdeckungsprozess hebt Qualitätsprobleme hervor und behebt sie, etwa fehlende Daten, uneinheitliche Formatierungen, Fehler oder Verzerrung sowie Sonderfälle, die die Analyse verzerren könnten. Die Ergebnisse werden in der Regel in einem Datenqualitätsbericht oder einem technischeren Dokument, dem so genannten Data Profiling Report, dokumentiert, der Statistiken, Verteilungen und andere Ergebnisse enthält.

Strukturieren

Der Schritt der Datenstrukturierung, manchmal auch Datenkonvertierung genannt, konzentriert sich darauf, die Daten in einem einheitlichen Format zu organisieren, sodass sie für Analysen geeignet sind. Dies beinhaltet:

Aggregation: Kombinieren von Datenzeilen mithilfe von zusammenfassenden Statistiken und Gruppieren von Daten basierend auf bestimmten Variablen
Pivotieren: Verschieben von Daten zwischen Zeilen und Spalten oder Umwandeln von Daten in andere Formate, um sie für die Verwendung vorzubereiten
Joining: Zusammenführen von Daten aus mehreren Tabellen und Kombinieren verwandter Informationen aus unterschiedlichen und verteilten Quellen
Datentypkonvertierung: Ändern des Datentyps einer Variablen, um die Durchführung von Berechnungen und die Anwendung statistischer Methoden zu unterstützen

Bereinigen

Bei der Datenbereinigung geht es um die Handhabung von Missing Values, die Entfernung von Duplikaten und die Korrektur von Fehlern oder Inkonsistenzen. Dieser Prozess kann auch das Glätten von „verrauschten“ Daten umfassen, d. h. die Anwendung von Techniken, die die Auswirkungen zufälliger Variationen oder anderer Probleme in den Daten reduzieren. Bei der Bereinigung ist es wichtig, unnötigen Datenverlust oder eine übermäßige Bereinigung zu vermeiden, da dadurch wertvolle Informationen entfernt oder die Daten verfälscht werden können.

Anreichern

Bei der Datenanreicherung werden bestehende Datensätze mit neuen Informationen versehen, um deren Wert zu steigern. Dieser Schritt wird manchmal auch als Datenerweiterung bezeichnet. Es darum, zu bewerten, welche zusätzlichen Informationen notwendig sind und woher sie stammen könnten. Anschließend müssen die zusätzlichen Informationen in den bestehenden Datensatz integriert und auf die gleiche Weise wie die Originaldaten bereinigt werden.

Die Datenanreicherung kann das Einholen demografischer, geografischer, Verhaltens- oder Umweltdaten beinhalten, die für den beabsichtigten Anwendungsfall relevant sind. Wenn sich ein Data-Wrangling-Projekt zum Beispiel auf Abläufe in der Lieferkette bezieht, könnte die Anreicherung der Versanddaten mit Wetterinformationen helfen, Verzögerungen vorherzusagen.

Validieren

In diesem Schritt werden die Genauigkeit und Konsistenz der Wrangle-Daten validiert. Zunächst müssen Validierungsregeln auf der Grundlage von Geschäftslogik, Dateneinschränkungen und anderen Aspekten festgelegt werden. Anschließend werden Validierungstechniken angewendet. Dazu gehören:

Validierung des Datentyps: Hilft dabei, korrekte Datentypen sicherzustellen
Bereichs- oder Formatprüfungen: Überprüfen, ob die Werte innerhalb akzeptabler Bereiche liegen und bestimmten Formaten entsprechen
Konsistenzprüfungen: Stellen sicher, dass eine logische Übereinstimmung zwischen verwandten Variablen besteht
Eindeutigkeitsprüfungen: Bestätigen, dass bestimmte Variablen (z. B. Kunden- oder Produkt-ID-Nummern) eindeutige Werte haben
Feldübergreifende Validierung: Überprüft die logischen Beziehungen zwischen Variablen (z. B. Alter und Geburtsdatum)
Statistische Analyse: Identifiziert Sonderfälle oder Anomalien durch Verwendung von deskriptiven Statistiken und Visualisierungen

Nach einer gründlichen Validierung können Unternehmen die Wrangle-Daten veröffentlichen oder sie für die Verwendung in Anwendungen aufbereiten. Dieser Prozess kann das Laden der Daten in ein Data Warehouse, die Erstellung von Datenvisualisierungen oder den Export der Daten in ein bestimmtes Format zur Verwendung mit ML-Algorithmen umfassen.

Der Data-Wrangling-Prozess kann zeitaufwändig sein, zumal die Menge komplexer Daten weiter wächst. Tatsächlich deuten Untersuchungen darauf hin, dass die Vorbereitung von Daten und deren Umwandlung in nutzbare Formen zwischen 45 % und 80 % der Zeit eines Datenanalysten in Anspruch nehmen. ^{1 2}

Data Wrangling erfordert ein gewisses Maß an technischem Fachwissen in Bezug auf Programmiersprachen, Datenmanipulationstechniken und spezialisierte Tools. Aber letztlich verbessert es die Datenqualität und unterstützt eine effizientere und effektivere Datenanalyse.

Tools und Technologien für Data Wrangling

Unternehmen verwenden verschiedene Tools und Technologien, um Daten aus verschiedenen Quellen zu verarbeiten und sie in eine Datenpipeline zu integrieren, die die allgemeinen Geschäftsanforderungen unterstützt. Dazu gehören:

Programmiersprachen
Tabellenkalkulationen
Spezialisierte Tools
Big-Data-Plattformen
Künstliche Intelligenz

Programmiersprachen

Python und R werden häufig für Data-Wrangling-Aufgaben verwendet, etwa Data-Mining, Datenmanipulation und Datenanalyse. Eine strukturierte Abfragesprache (Structured Query Language, SQL) ist für die Arbeit mit relationalen Datenbanken und die Datenverwaltung unerlässlich.

Tabellenkalkulationen

Data Wranglers verwenden Tools wie Microsoft Excel und Google Sheets für die grundlegende Datenbereinigung und -manipulation, insbesondere bei kleineren Datensätzen.

Spezialisierte Tools

Data-Wrangling-Tools bieten eine visuelle Oberfläche für die Datenbereinigung und Datenkonvertierung und helfen so, Workflows zu optimieren und Aufgaben zu automatisieren. So kann beispielsweise das auf IBM Plattformen verfügbare Datenverfeinerungstool Rohdaten schnell in eine für Datenanalyse und andere Zwecke nutzbare Form umwandeln.

Big-Data-Plattformen

Big-Data-Plattformen helfen bei der Bearbeitung großer, komplexer Datensätze, indem sie die Tools und Funktionen bereitstellen, die für den Umgang mit der Menge und Vielfalt von Big Data erforderlich sind. Plattformen wie Apache Hadoop und Apache Spark werden für die Verarbeitung großer Datensätze verwendet. Sie nutzen Big-Data-Technologien, um Informationen in eine für hochwertige Datenanalyse und Entscheidungsfindung nutzbare Form umzuwandeln.

Künstliche Intelligenz

KI unterstützt Data Wrangling durch Automatisierung und erweiterte Analyse. Modelle und Algorithmen für maschinelles Lernen können bei Problemen wie der Erkennung von Sonderfällen und der Skalierung helfen. Andere KI-Tools können große Datensätze schnell verarbeiten, Transformationen in Echtzeit durchführen und Muster erkennen, um die Bereinigungsmaßnahmen zu steuern. Benutzeroberflächen zur Verarbeitung natürlicher Sprache (NLP) ermöglichen es Benutzern, intuitiv mit Daten zu interagieren, was technische Barrieren verringern könnte.

Fußnoten

Alle Links befinden sich außerhalb von ibm.com

¹ State of Data Science, Anaconda, Juli 2020.

² Hellerstein et al. Principles of Data Wrangling. O’Reilly Media. Juli 2017.

Vier Schritte zu besseren Geschäftsprognosen mit Analytics

Nutzen Sie das Potenzial von Analysen und Business Intelligence, um zukünftige Ergebnisse zu planen, vorherzusagen und zu gestalten, die Ihrem Unternehmen und Ihren Kunden am meisten nützen.

Ressourcen

IBM Granite erkunden

IBM® Granite ist unsere Familie offener, leistungsfähiger und vertrauenswürdiger KI-Modelle, die auf Unternehmen zugeschnitten und für die Skalierung Ihrer KI-Anwendungen optimiert sind. Entdecken Sie die Optionen zu Sprache, Code, Zeitreihen und Guardrails.

Verwaltung von Daten für KI und Analysen in großem Maßstab

Erfahren Sie, wie ein offener Data-Lakehouse-Ansatz vertrauenswürdige Daten und eine schnellere Durchführung von Analysen und KI-Projekten ermöglichen kann.

Data Science und MLOps für Data Leader

Nutzen Sie dieses E-Book, um sich mit anderen Führungskräften über die 3 wichtigsten Ziele von MLOps und vertrauenswürdiger KI abzustimmen: Vertrauen in Daten, Vertrauen in Modelle und Vertrauen in Prozesse.

Steigern Sie die Akzeptanz von KI mit KI-fähigen Daten

Erfahren Sie, warum KI-gestützte Datenintelligenz und Datenintegration entscheidend sind, um die Bereitschaft für strukturierte und unstrukturierte Daten zu fördern und KI-Ergebnisse zu beschleunigen.

Das Datendifferenzierungsmerkmal

Erkunden Sie den Leitfaden für Datenexperten zum Aufbau eines datengesteuerten Unternehmens und zur Förderung von geschäftlichen Vorteilen.

So entscheiden Sie sich für das richtige Foundation Model

Erfahren Sie, wie Sie das für Ihren Anwendungsfall am besten geeignete KI Foundation Model auswählen.

Nutzen Sie die Leistungsfähigkeit generativer KI und ML

Erfahren Sie, wie Sie generative KI, maschinelles Lernen und Foundation Models zur Verbesserung der Leistung in Ihre Geschäftsabläufe integrieren können.

Architektonisches Denken im Wilden Westen der Data Science

Erfahren Sie, warum die völlige Freiheit bei der Wahl der Programmiersprachen, Tools und Frameworks kreatives Denken und Entwickeln verbessern kann.

Weiterführende Lösungen

Data-Science-Tools und -Lösungen

Nutzen Sie Data-Science-Tools und -Lösungen, um mithilfe von Daten, Algorithmen, maschinellem Lernen und KI-Techniken Muster zu erkennen und Prognosen zu treffen.

Entdecken Sie Data-Science-Lösungen

IBM Cognos Analytics

Wir stellen vor: Cognos Analytics 12.0, KI-gestützte Erkenntnisse für eine bessere Entscheidungsfindung.

Cognos Analytics erkunden

Beratungsservices für Daten und Analysen

Erschließen Sie den Wert von Unternehmensdaten mit IBM Consulting und bauen Sie ein erkenntnisorientiertes Unternehmen auf, das Ihnen geschäftliche Vorteile verschafft.

Entdecken Sie die Analyse-Services

Machen Sie den nächsten Schritt

Nutzen Sie Data-Science-Tools und -Lösungen, um mithilfe von Daten, Algorithmen, maschinellem Lernen und KI-Techniken Muster zu erkennen und Prognosen zu treffen.

Data-Science-Lösungen erkunden

Analysedienste erkunden

Was ist Data Wrangling?

Autoren

Was ist Data Wrangling?

Die neuesten Erkenntnisse und Insights zu KI

Warum ist Data Wrangling wichtig?

KI entschlüsseln: Wöchentlicher Nachrichtenüberblick

Der Data-Wrangling-Prozess

Entdecken

Strukturieren

Bereinigen

Anreichern

Validieren

Tools und Technologien für Data Wrangling

Programmiersprachen

Tabellenkalkulationen

Spezialisierte Tools

Big-Data-Plattformen

Künstliche Intelligenz

Fußnoten

Share

Ressourcen