Was ist Datenkonvertierung?

Luftbild der Barangaroo-Baustelle

Was ist Datenkonvertierung?

Die Datenkonvertierung ist ein entscheidender Teil des Datenintegrations prozesses, bei dem Rohdaten in ein einheitliches Format oder eine einheitliche Struktur umgewandelt werden. Die Datenkonvertierung stellt die Kompatibilität mit den Zielsystemen sicher und verbessert die Datenqualität und Benutzerfreundlichkeit. Sie ist ein wesentlicher Aspekt von Datenverwaltungspraktiken, einschließlich Data Wrangling, Datenanalyse und Data Warehousing.

Während Spezialisten die Datenkonvertierung manuell durchführen können, erfordern die großen Datenmengen, die für den Betrieb moderner Unternehmensanwendungen benötigt werden, in der Regel ein gewisses Maß an Automatisierung. Die beim Datenkonvertierungsprozess eingesetzten Tools und Technologien können einfach oder komplex sein.

Eine Datenkonvertierung kann z. B. lediglich das Konvertieren eines Datumsfelds (z. B. TT/MM/JJ) in ein anderes oder das Aufteilen einer einzelnen Excel-Spalte in zwei Spalten umfassen. Komplexe Datenkonvertierungen, die Daten aus mehreren unterschiedlichen Quellen bereinigen und standardisieren und mehrere Workflows umfassen, können jedoch fortgeschrittene Data-Science-Kenntnisse erfordern.

Zu diesen erweiterten Data-Engineering-Funktionen gehören die Datennormalisierung, die Beziehungen zwischen Datenpunkten definiert, und die Datenanreicherung, die bestehende Informationen mit Datensätzen von Drittanbietern ergänzt.

In der globalen Digital-First-Wirtschaft von heute helfen Datenkonvertierungen Unternehmen dabei, große Datenmengen aus verschiedenen Quellen zu nutzen, um ihren Service zu verbessern, maschinelle Lernmodelle zu trainieren und Big-Data-Analysen bereitzustellen.

3D-Design aus Kugeln, die auf einer Schiene rollen

Die neuesten Erkenntnisse und Insights zu KI

Entdecken Sie von Experten kuratierte Erkenntnisse und Neuigkeiten zu KI, Cloud und mehr im wöchentlichen Newsletter Think. 

Anwendungsfälle für Datenkonvertierung

Durch die Standardisierung von Datensätzen und deren Vorbereitung für die anschließende Verarbeitung ermöglicht die Datenkonvertierung mehrere wichtige Praktiken im Bereich der Unternehmensdaten. Zu den häufigsten Gründen für die Datenkonvertierung in der Geschäftswelt gehören:

Business Intelligence

Unternehmen transformieren Daten für die Verwendung in Business-Intelligence-Anwendungen wie Echtzeit-Dashboards und Forecasting-Berichten, sodass datengestützte Entscheidungen getroffen werden können, die riesige Informationsmengen berücksichtigen.

Data-Warehousing

Die Datenkonvertierung bereitet Daten für die Speicherung und Verwaltung in einem Data Warehouse oder Data Lake vor und ermöglicht so effiziente Abfragen und Analysen.

Maschinelles Lernen

Modelle für maschinelles Lernen erfordern saubere, organisierte Daten. Wenn sichergestellt wird, dass die Daten vertrauenswürdig und im richtigen Format vorliegen, können Unternehmen sie für das Training und die Optimierung von Tools für künstliche Intelligenz (KI) verwenden.

Big-Data-Analyse

Bevor Big Data für Business Intelligence, Marktforschung oder andere Anwendungen analysiert werden können, müssen sie entsprechend sortiert und formatiert werden.

Datenmigration

Das Verschieben von Daten von älteren On-Premises-Systemen auf moderne Plattformen wie ein Cloud-Data-Warehouse oder ein Data Lakehouse ist oft mit komplexen Datenkonvertierungen verbunden.

Datenkonvertierungsprozess

Datenkonvertierungen folgen in der Regel einem strukturierten Prozess, um aus der Rohform nutzbare, wertvolle Daten zu erzeugen. Zu den üblichen Schritten bei einer Datenkonvertierung gehören:

1. Datenerkennung

Während des Erkennungsprozesses werden Quelldaten gesammelt. Dieser Prozess kann das Scraping von Rohdaten aus APIs, einer SQL-Datenbank oder internen Dateien in unterschiedlichen Formaten umfassen. Bei der Identifizierung und Extraktion dieser Informationen stellen Datenexperten sicher, dass die gesammelten Informationen umfassend und für ihre spätere Anwendung relevant sind. Während der Erkennung beginnen die Ingenieure auch, die Eigenschaften und die Struktur der Daten im Rahmen eines Prozesses zu verstehen, der als Datenprofilerstellung bekannt ist.

2. Datenbereinigung

Die Datenaufbereitung und -bereinigung erfordert die Identifizierung und Behebung von Fehlern, Inkonsistenzen und Ungenauigkeiten in den Rohdaten. Dieser Schritt gewährleistet die Datenqualität und Zuverlässigkeit, indem Duplikate und Sonderfälle entfernt oder Missing Values gehandhabt werden.

3. Datenzuordnung

Bei der Datenzuordnung wird ein Schema oder ein Zuordnungsprozess erstellt, um den Transformationsprozess zu steuern. Während dieses Prozesses definieren Datentechniker, wie die Elemente im Quellsystem bestimmten Elementen im Zielformat entsprechen.

4. Codegenerierung

In diesem Schritt erstellt ein Unternehmen den Code, der die Daten umwandelt, entweder mit Hilfe eines Tools eines Drittanbieters oder durch interne Codegenerierung.

5. Codeausführung und -validierung

In dieser Phase findet die eigentliche Konvertierung statt, da Code auf die Rohdaten angewendet wird. Die konvertierten Daten werden zur weiteren Analyse oder Verarbeitung in ihr Zielsystem geladen. Die konvertierten Daten und das Datenmodell werden anschließend validiert, um Konsistenz und Korrektheit sicherzustellen.

6. Überprüfung

Während des Überprüfungsprozesses prüfen Datenanalysten, Ingenieure oder Endbenutzer die Ausgabedaten und bestätigen, dass sie den Anforderungen entsprechen.

AI Academy

Ist Datenverwaltung das Geheimnis generativer KI?

Erfahren Sie, warum qualitativ hochwertige Daten für den erfolgreichen Einsatz generativer KI unerlässlich sind.

ETL-Datenkonvertierung im Vergleich zu ELT-Datenkonvertierung

ETL (Extrahieren, Transformieren, Laden) und ELT (Extrahieren, Laden, Transformieren) sind zwei häufig verwendete Datenkonvertierungsprozesse, die leicht unterschiedliche Datenpipeline-Techniken verwenden. Jede dieser Methoden hat je nach Größe und Komplexität der Konvertierung Vor- und Nachteile.

Extrahieren, Transformieren, Laden: Datenkonvertierung in einem Staging-Bereich

Beim ETL-Prozess wird eine vorgegebene Teilmenge strukturierter Daten aus ihrer Quelle extrahiert, wo sie in einem Staging-Bereich oder einem sekundären Verarbeitungsserver konvertiert werden, bevor sie in ihr Zielsystem geladen werden. ETL eignet sich besser für On-Premises-Speicher und kleinere Datensätze. ETL kann jedoch in Szenarien mit spezifischen Anforderungen an Datenqualität und -konsistenz vorzuziehen sein, da strengere Datenbereinigungs- und Validierungsschritte eingeführt werden können. ETL kann auch erforderlich sein, um vertrauliche Daten, wie z. B. HIPAA-geschützte Informationen, während der Migration zu schützen.

Extrahieren, Laden, Transformieren: Daten in der Cloud konvertieren 

Beim ELT-Prozess werden Informationen aus Datenquellen extrahiert und in das cloudbasierte Zielsystem geladen, wo sie konvertiert werden. Dieser Ansatz ermöglicht, da er die Vorteile der Cloud-Computing-Leistung nutzt, in der Regel eine schnellere Verarbeitung und eine agilere Datenverwaltung. Er kann auch mit unstrukturierten Daten wie Bildern verwendet werden. Mit dem Vorteil der cloudbasierten Rechen- und Speicherleistung profitiert der ELT-Prozess von einer erhöhten Skalierbarkeit.

Arten der Datenkonvertierung

Datenwissenschaftler und Ingenieure verwenden während des gesamten Datenkonvertierungsprozesses mehrere unterschiedliche Techniken. Welche Taktiken zum Einsatz kommen, hängt ganz vom Projekt und der beabsichtigten Verwendung der Daten ab, wobei mehrere Methoden im Rahmen eines komplexen Prozesses tangential verwendet werden können.

  • Datenbereinigung: Die Datenbereinigung verbessert die Datenqualität, indem Fehler und Inkonsistenzen behoben werden, z. B. durch die Beseitigung doppelter Datensätze.
  • Datenaggregation: Bei der Datenaggregation werden Daten zusammengefasst, indem mehrere Datensätze zu einem einzigen Wert oder Datensatz kombiniert werden.
  • Datennormalisierung: Die Datennormalisierung standardisiert Daten, indem alle Werte in eine gemeinsame Skala oder ein gemeinsames Format gebracht werden, z. B. numerische Werte von 1 bis 10.
  • Datenkodierung: Bei der Datenkodierung werden kategoriale Daten in ein numerisches Format konvertiert, um die Analyse zu erleichtern. Beispielsweise könnte die Datenkodierung jeder Kategorie eine eindeutige Nummer zuweisen.
  • Datenanreicherung: Die Datenanreicherung verbessert Daten, indem relevante Informationen aus externen Quellen hinzugefügt werden, wie z. B. demografische Daten von Drittanbietern oder relevante Metadaten.
  • Datenimputation: Bei der Datenimputation werden fehlende Daten durch plausible Werte ersetzt. Beispielsweise können Missing Values durch den Median- oder Durchschnittswert ersetzt werden.
  • Datenaufteilung: Bei der Datenaufteilung werden Daten für unterschiedliche Zwecke in Teilmengen unterteilt. Zum Beispiel könnten Techniker einen Datensatz aufteilen, um einen für das Training und einen für Tests im Bereich des maschinellen Lernens zu verwenden.
  • Datendiskretisierung: Bei der Datendiskretisierung werden Daten in einem Prozess, der manchmal als Binning bezeichnet wird, in diskrete Buckets oder Intervalle konvertiert. Die Diskretisierung könnte zum Beispiel im Gesundheitswesen eingesetzt werden, um Daten wie das Patientenalter in Kategorien wie „Säugling“ oder „Erwachsener“ zu übersetzen.
  • Datengeneralisierung: Die Datengeneralisierung abstrahiert große Datensätze in eine allgemeinere oder zusammenfassende Form, wodurch Details reduziert und die Daten verständlicher gemacht werden.
  • Datenvisualisierung: Die Datenvisualisierung stellt Daten grafisch dar und enthüllt Muster oder Erkenntnisse, die möglicherweise nicht sofort offensichtlich sind.

Datenkonvertierungs-Tools

Während es möglich ist, eine Datenkonvertierung durchzuführen, indem nur interne Techniker eingesetzt werden, erleichtern viele Services von Drittanbietern den Konvertierungs- und Migrationsprozess. Einige der häufigsten sind:

  • ETL- und ELT-Tools: Tools wie Apache NiFi und Informatica erleichtern einen Plug-and-Play-ETL- oder ELT-Prozess.
  • Datenintegrationsplattformen: Eine Vielzahl von Tools wie IBM® Cloud Pak for Data unterstützen Datenintegration und Echtzeitverarbeitung.
  • Datenaufbereitungs-Tools: Diese Tools wurden speziell für die Datenbereinigung und -transformation vor einer Datenkonvertierung oder -migration entwickelt.
  • Programmiersprachen: Programmiersprachen wie Python und R bieten mit Bibliotheken wie der Open-Source-Option Pandas robuste Funktionen für die Datenkonvertierung.

Vorteile der Datenkonvertierung

Die Datenkonvertierung ist ein entscheidender Schritt bei der Datenverarbeitung. Sie verbessert die Kapazität eines Unternehmens für Analyse, Berichterstellung, Entscheidungsfindung und Speicherung. Zu den wichtigsten Vorteilen gehören:

Verbesserte Datenqualität

Zur Datenkonvertierung gehören Prozesse wie die Datenbereinigung, die die Gesamtqualität eines Datensatzes verbessert. Mit besseren Daten und klar definierten Datenarchitekturen verbessern Unternehmen die betriebliche Effizienz in Bereichen wie Bestandsverwaltung und Auftragsabwicklung. Bessere Daten verbessern auch die Customer Experience, da sie eine 360-Grad-Sicht auf aktuelle und potenzielle Verbraucher ermöglichen. 

Verbesserte Datenkompatibilität und Integration

Die Datenkonvertierung standardisiert Datenformate und -strukturen, wodurch es einfacher wird, Informationen in einen zusammenhängenden Datensatz zu integrieren. Durch das Aufbrechen von Datensilos und die Vereinheitlichung von Informationen aus unterschiedlichen Abteilungen oder Systemen beseitigt ein Unternehmen Inkonsistenzen und erhält eine einheitliche Sicht auf das Geschäft.

Verbesserte Datenvisualisierung

In der Regel sind die konvertierten Daten besser organisiert und strukturiert, was die Erstellung aussagekräftiger Visualisierungen zur effektiven Vermittlung von Erkenntnissen erleichtert. Visualisierungen helfen Entscheidungsträgern, Trends oder Chancen zu erkennen, und können wichtige Daten, wie Vertriebs- oder Beschaffungspipelines, nahezu in Echtzeit darstellen.

Bessere Datenzugänglichkeit

Bei der Datenkonvertierung werden komplexe oder unstrukturierte Daten in Formate umgewandelt, die leichter zu verstehen sowie zugänglicher und einfacher zu analysieren sind. Unternehmen nutzen diese Daten, um erweiterte Marktprognosen zu erstellen oder Bereiche mit Verbesserungspotenzial zu identifizieren.

Verbesserte Sicherheit und Compliance

Die Datenkonvertierung kann die Anonymisierung und Verschlüsselung von Daten, den Schutz sensibler Informationen und die Einhaltung von Datenschutzbestimmungen umfassen. Eine solche Sicherheit ist für stark regulierte Branchen wie das Gesundheits- und Finanzwesen sowie für Unternehmen, die in mehreren Regionen tätig sind und unterschiedlichen Datenschutzgesetzen unterliegen, nach wie vor von entscheidender Bedeutung.

Bessere Skalierbarkeit und Flexibilität 

Konvertierte Daten sind oft flexibler und einfacher zu rationalisieren, was die Anpassung an neue Anwendungsfälle oder die Skalierung der Datenverarbeitung erleichtert, wenn die Datenmenge zunimmt. Skalierbare Daten stellen sicher, dass ein Unternehmen ohne mehrere kostspielige Reorganisationen und IT-Implementierungen wächst.

Weiterführende Lösungen
Software und Lösungen für die Datenverwaltung

Entwerfen Sie eine Datenstrategie, die Datensilos beseitigt, die Komplexität reduziert und die Datenqualität verbessert, um außergewöhnliche Kunden- und Mitarbeitererfahrungen zu schaffen.

Lösungen für Datenmanagement erkunden
IBM watsonx.data

Watsonx.data ermöglicht es Ihnen, Analysen und KI mit all Ihren Daten zu skalieren, unabhängig davon, wo sie sich befinden, und zwar über einen offenen, hybriden und kontrollierten Datenspeicher.

IBM watsonx.data entdecken
Beratungsservices für Daten und Analysen

Erschließen Sie den Wert von Unternehmensdaten mit IBM Consulting und bauen Sie ein erkenntnisgesteuertes Unternehmen auf, das Ihnen geschäftliche Vorteile verschafft.

Analyse-Services entdecken
Machen Sie den nächsten Schritt

Entwerfen Sie eine Datenstrategie, die Datensilos beseitigt, die Komplexität reduziert und die Datenqualität verbessert, um außergewöhnliche Kunden- und Mitarbeitererfahrungen zu schaffen.

Lösungen für Datenmanagement erkunden IBM watsonx.data entdecken