Startseite

Think

Themen

Datenkonvertierung

Was ist Datenkonvertierung?
IBM watsonx.data erkunden Für KI-Updates anmelden
Ein Finger zeigt auf einen scrollenden Textbildschirm

Veröffentlicht: 19. Juni 2024
Mitwirkende: Molly Hayes, Amanda Downie 

Was ist Datenkonvertierung?

Die Datenkonvertierung ist ein entscheidender Teil des Datenintegrationsprozesses, bei dem Rohdaten in ein einheitliches Format oder eine einheitliche Struktur umgewandelt werden. Die Datenkonvertierung stellt die Kompatibilität mit den Zielsystemen sicher und verbessert die Datenqualität und Benutzerfreundlichkeit. Sie ist ein wesentlicher Aspekt von Datenverwaltungspraktiken, einschließlich Data Wrangling, Datenanalyse und Data Warehousing

Während Spezialisten die Datenkonvertierung manuell durchführen können, erfordern die großen Datenmengen, die für den Betrieb moderner Unternehmensanwendungen benötigt werden, in der Regel ein gewisses Maß an Automatisierung. Die beim Datenkonvertierungsprozess eingesetzten Tools und Technologien können einfach oder komplex sein.

Eine Datenkonvertierung kann z. B. lediglich das Konvertieren eines Datumsfelds (z. B. TT/MM/JJ) in ein anderes oder das Aufteilen einer einzelnen Excel-Spalte in zwei Spalten umfassen. Komplexe Datenkonvertierungen, die Daten aus mehreren unterschiedlichen Quellen bereinigen und standardisieren und mehrere Workflows umfassen, können jedoch fortgeschrittene Data-Science-Kenntnisse erfordern.

Zu diesen erweiterten Data-Engineering-Funktionen gehören die Datennormalisierung, die Beziehungen zwischen Datenpunkten definiert, und die Datenanreicherung, die bestehende Informationen mit Datensätzen von Drittanbietern ergänzt.

In der globalen Digital-First-Wirtschaft von heute helfen Datenkonvertierungen Unternehmen dabei, große Datenmengen aus verschiedenen Quellen zu nutzen, um ihren Service zu verbessern, maschinelle Lernmodelle zu trainieren und Big-Data-Analysen bereitzustellen. 

KI erfordert eine neue Datenverwaltung

Lesen Sie den IBM Leitfaden zu KI und Datenverwaltung, um zu erfahren, wie Sie optimal in die richtige offene, vertrauenswürdige Datenbasis investieren.

Anwendungsfälle für Datenkonvertierung

Durch die Standardisierung von Datensätzen und deren Vorbereitung für die anschließende Verarbeitung ermöglicht die Datenkonvertierung mehrere wichtige Praktiken im Bereich der Unternehmensdaten. Zu den häufigsten Gründen für die Datenkonvertierung in der Geschäftswelt gehören:

Business Intelligence

Unternehmen transformieren Daten für die Verwendung in Business-Intelligence-Anwendungen wie Echtzeit-Dashboards und Forecasting-Berichten, sodass datengestützte Entscheidungen getroffen werden können, die riesige Informationsmengen berücksichtigen. 

Data-Warehousing

Die Datenkonvertierung bereitet Daten für die Speicherung und Verwaltung in einem Data Warehouse oder Data Lake vor und ermöglicht so effiziente Abfragen und Analysen. 

Maschinelles Lernen

Modelle für maschinelles Lernen erfordern saubere, organisierte Daten. Wenn sichergestellt wird, dass die Daten vertrauenswürdig und im richtigen Format vorliegen, können Unternehmen sie für das Training und die Optimierung von Tools für künstliche Intelligenz (KI) verwenden.

Big-Data-Analyse

Bevor Big Data für Business Intelligence, Marktforschung oder andere Anwendungen analysiert werden können, müssen sie entsprechend sortiert und formatiert werden. 

Datenmigration

Das Verschieben von Daten von älteren On-Premises-Systemen auf moderne Plattformen wie ein Cloud-Data-Warehouse oder ein Data Lakehouse ist oft mit komplexen Datenkonvertierungen verbunden. 

Datenkonvertierungsprozess

Datenkonvertierungen folgen in der Regel einem strukturierten Prozess, um aus der Rohform nutzbare, wertvolle Daten zu erzeugen. Zu den üblichen Schritten bei einer Datenkonvertierung gehören:

1. Datenerkennung

Während des Erkennungsprozesses werden Quelldaten gesammelt. Dieser Prozess kann das Scraping von Rohdaten aus APIs, einer SQL-Datenbank oder internen Dateien in unterschiedlichen Formaten umfassen. Bei der Identifizierung und Extraktion dieser Informationen stellen Datenexperten sicher, dass die gesammelten Informationen umfassend und für ihre spätere Anwendung relevant sind. Während der Erkennung beginnen die Ingenieure auch, die Eigenschaften und die Struktur der Daten im Rahmen eines Prozesses zu verstehen, der als Datenprofilerstellung bekannt ist.

2. Datenbereinigung

Die Datenaufbereitung und -bereinigung erfordert die Identifizierung und Behebung von Fehlern, Inkonsistenzen und Ungenauigkeiten in den Rohdaten. Dieser Schritt gewährleistet die Datenqualität und Zuverlässigkeit, indem Duplikate und Sonderfälle entfernt oder Missing Values gehandhabt werden. 

3. Datenzuordnung

Bei der Datenzuordnung wird ein Schema oder ein Zuordnungsprozess erstellt, um den Transformationsprozess zu steuern. Während dieses Prozesses definieren Datentechniker, wie die Elemente im Quellsystem bestimmten Elementen im Zielformat entsprechen. 

4. Codegenerierung

In diesem Schritt erstellt ein Unternehmen den Code, der die Daten umwandelt, entweder mit Hilfe eines Tools eines Drittanbieters oder durch interne Codegenerierung. 

5. Codeausführung und -validierung

In dieser Phase findet die eigentliche Konvertierung statt, da Code auf die Rohdaten angewendet wird. Die konvertierten Daten werden zur weiteren Analyse oder Verarbeitung in ihr Zielsystem geladen. Die konvertierten Daten und das Datenmodell werden anschließend validiert, um Konsistenz und Korrektheit sicherzustellen. 

6. Überprüfung

Während des Überprüfungsprozesses prüfen Datenanalysten, Ingenieure oder Endbenutzer die Ausgabedaten und bestätigen, dass sie den Anforderungen entsprechen. 

ETL-Datenkonvertierung im Vergleich zu ELT-Datenkonvertierung

ETL (Extrahieren, Transformieren, Laden) und ELT (Extrahieren, Laden, Transformieren) sind zwei häufig verwendete Datenkonvertierungsprozesse, die leicht unterschiedliche Datenpipeline-Techniken verwenden. Jede dieser Methoden hat je nach Größe und Komplexität der Konvertierung Vor- und Nachteile. 

Extrahieren, Transformieren, Laden: Datenkonvertierung in einem Staging-Bereich

Beim ETL-Prozess wird eine vorgegebene Teilmenge strukturierter Daten aus ihrer Quelle extrahiert, wo sie in einem Staging-Bereich oder einem sekundären Verarbeitungsserver konvertiert werden, bevor sie in ihr Zielsystem geladen werden. ETL eignet sich besser für On-Premises-Speicher und kleinere Datensätze. ETL kann jedoch in Szenarien mit spezifischen Anforderungen an Datenqualität und -konsistenz vorzuziehen sein, da strengere Datenbereinigungs- und Validierungsschritte eingeführt werden können. ETL kann auch erforderlich sein, um vertrauliche Daten, wie z. B. HIPAA-geschützte Informationen, während der Migration zu schützen. 

Extrahieren, Laden, Transformieren: Daten in der Cloud konvertieren 

Beim ELT-Prozess werden Informationen aus Datenquellen extrahiert und in das cloudbasierte Zielsystem geladen, wo sie konvertiert werden. Dieser Ansatz ermöglicht, da er die Vorteile der Cloud-Computing-Leistung nutzt, in der Regel eine schnellere Verarbeitung und eine agilere Datenverwaltung. Er kann auch mit unstrukturierten Daten wie Bildern verwendet werden. Mit dem Vorteil der cloudbasierten Rechen- und Speicherleistung profitiert der ELT-Prozess von einer erhöhten Skalierbarkeit.

Arten der Datenkonvertierung

Datenwissenschaftler und Ingenieure verwenden während des gesamten Datenkonvertierungsprozesses mehrere unterschiedliche Techniken. Welche Taktiken zum Einsatz kommen, hängt ganz vom Projekt und der beabsichtigten Verwendung der Daten ab, wobei mehrere Methoden im Rahmen eines komplexen Prozesses tangential verwendet werden können.

  • Datenbereinigung: Die Datenbereinigung verbessert die Datenqualität, indem Fehler und Inkonsistenzen behoben werden, z. B. durch die Beseitigung doppelter Datensätze.
  • Datenaggregation: Bei der Datenaggregation werden Daten zusammengefasst, indem mehrere Datensätze zu einem einzigen Wert oder Datensatz kombiniert werden.
  • Datennormalisierung: Die Datennormalisierung standardisiert Daten, indem alle Werte in eine gemeinsame Skala oder ein gemeinsames Format gebracht werden, z. B. numerische Werte von 1 bis 10.
  • Datenkodierung: Bei der Datenkodierung werden kategoriale Daten in ein numerisches Format konvertiert, um die Analyse zu erleichtern. Beispielsweise könnte die Datenkodierung jeder Kategorie eine eindeutige Nummer zuweisen.
  • Datenanreicherung: Die Datenanreicherung verbessert Daten, indem relevante Informationen aus externen Quellen hinzugefügt werden, wie z. B. demografische Daten von Drittanbietern oder relevante Metadaten.
  • Datenimputation: Bei der Datenimputation werden fehlende Daten durch plausible Werte ersetzt. Beispielsweise können Missing Values durch den Median- oder Durchschnittswert ersetzt werden.
  • Datenaufteilung: Bei der Datenaufteilung werden Daten für unterschiedliche Zwecke in Teilmengen unterteilt. Zum Beispiel könnten Techniker einen Datensatz aufteilen, um einen für das Training und einen für Tests im Bereich des maschinellen Lernens zu verwenden.
  • Datendiskretisierung: Bei der Datendiskretisierung werden Daten in einem Prozess, der manchmal als Binning bezeichnet wird, in diskrete Buckets oder Intervalle konvertiert. Die Diskretisierung könnte zum Beispiel im Gesundheitswesen eingesetzt werden, um Daten wie das Patientenalter in Kategorien wie „Säugling“ oder „Erwachsener“ zu übersetzen.
  • Datengeneralisierung: Die Datengeneralisierung abstrahiert große Datensätze in eine allgemeinere oder zusammenfassende Form, wodurch Details reduziert und die Daten verständlicher gemacht werden.
  • Datenvisualisierung: Die Datenvisualisierung stellt Daten grafisch dar und enthüllt Muster oder Erkenntnisse, die möglicherweise nicht sofort offensichtlich sind. 
Datenkonvertierungs-Tools

Während es möglich ist, eine Datenkonvertierung durchzuführen, indem nur interne Techniker eingesetzt werden, erleichtern viele Services von Drittanbietern den Konvertierungs- und Migrationsprozess. Einige der häufigsten sind:

  • ETL- und ELT-Tools: Tools wie Apache NiFi und Informatica erleichtern einen Plug-and-Play-ETL- oder ELT-Prozess.
  • Datenintegrationsplattformen: Eine Vielzahl von Tools wie IBM® Cloud Pak for Data unterstützen Datenintegration und Echtzeitverarbeitung.
  • Datenaufbereitungs-Tools: Diese Tools wurden speziell für die Datenbereinigung und -transformation vor einer Datenkonvertierung oder -migration entwickelt.
  • Programmiersprachen: Programmiersprachen wie Python und R bieten mit Bibliotheken wie der Open-Source-Option Pandas robuste Funktionen für die Datenkonvertierung.
Vorteile der Datenkonvertierung

Die Datenkonvertierung ist ein entscheidender Schritt bei der Datenverarbeitung. Sie verbessert die Kapazität eines Unternehmens für Analyse, Berichterstellung, Entscheidungsfindung und Speicherung. Zu den wichtigsten Vorteilen gehören:

Verbesserte Datenqualität 

Zur Datenkonvertierung gehören Prozesse wie die Datenbereinigung, die die Gesamtqualität eines Datensatzes verbessert. Mit besseren Daten und klar definierten Datenarchitekturen verbessern Unternehmen die betriebliche Effizienz in Bereichen wie Bestandsverwaltung und Auftragsabwicklung. Bessere Daten verbessern auch die Customer Experience, da sie eine 360-Grad-Sicht auf aktuelle und potenzielle Verbraucher ermöglichen. 

Verbesserte Datenkompatibilität und Integration

Die Datenkonvertierung standardisiert Datenformate und -strukturen, wodurch es einfacher wird, Informationen in einen zusammenhängenden Datensatz zu integrieren. Durch das Aufbrechen von Datensilos und die Vereinheitlichung von Informationen aus unterschiedlichen Abteilungen oder Systemen beseitigt ein Unternehmen Inkonsistenzen und erhält eine einheitliche Sicht auf das Geschäft.

Verbesserte Datenvisualisierung

In der Regel sind die konvertierten Daten besser organisiert und strukturiert, was die Erstellung aussagekräftiger Visualisierungen zur effektiven Vermittlung von Erkenntnissen erleichtert. Visualisierungen helfen Entscheidungsträgern, Trends oder Chancen zu erkennen, und können wichtige Daten, wie Vertriebs- oder Beschaffungspipelines, nahezu in Echtzeit darstellen.

Bessere Datenzugänglichkeit

Bei der Datenkonvertierung werden komplexe oder unstrukturierte Daten in Formate umgewandelt, die leichter zu verstehen sowie zugänglicher und einfacher zu analysieren sind. Unternehmen nutzen diese Daten, um erweiterte Marktprognosen zu erstellen oder Bereiche mit Verbesserungspotenzial zu identifizieren. 

Verbesserte Sicherheit und Compliance

Die Datenkonvertierung kann die Anonymisierung und Verschlüsselung von Daten, den Schutz sensibler Informationen und die Einhaltung von Datenschutzbestimmungen umfassen. Eine solche Sicherheit ist für stark regulierte Branchen wie das Gesundheits- und Finanzwesen sowie für Unternehmen, die in mehreren Regionen tätig sind und unterschiedlichen Datenschutzgesetzen unterliegen, nach wie vor von entscheidender Bedeutung.

Bessere Skalierbarkeit und Flexibilität 

Konvertierte Daten sind oft flexibler und einfacher zu rationalisieren, was die Anpassung an neue Anwendungsfälle oder die Skalierung der Datenverarbeitung erleichtert, wenn die Datenmenge zunimmt. Skalierbare Daten stellen sicher, dass ein Unternehmen ohne mehrere kostspielige Reorganisationen und IT-Implementierungen wächst.  

Verwandte Lösungen und Produkte
IBM Beratung zu Daten und Analysen

Schöpfen Sie den Wert von Unternehmensdaten aus und bauen Sie mit IBM® Consulting eine erkenntnisorientierte Organisation auf, die Geschäftsvorteile erzielt.

Erkunden Sie die Beratungsservices von IBM für Daten und Analysen

IBM DataOps-Plattform 

Mit der IBM DataOps-Plattform beseitigen Unternehmen die Unterscheidung zwischen daten- und entwicklungsorientierten Teams und steigern die Effizienz in allen Bereichen, von der Fehlerbehebung bis zur Zielsetzung. 

Entdecken Sie die DataOps-Plattform von IBM

IBM-Datenverwaltung

Die Daten- und KI-Lösungen von IBM geben Unternehmen die Möglichkeit, Unternehmensdaten zu nutzen, um die Ausfallsicherheit, Zuverlässigkeit und Kosteneffizienz zu verbessern, ohne Abstriche bei der Datensicherheit oder -qualität zu machen.

Entdecken Sie die Datenverwaltungsprodukte von IBM

IBM® watsonx.data

IBM watsonx.data ermöglicht es Unternehmen, KI und Analysen mit all ihren Daten zu skalieren, egal wo diese sich befinden. 

IBM watsonx.data erkunden

IBM Data Fabric-Produkte 

Moderne Datenarchitekturen – wie z. B. Data Fabric – können dabei helfen, ein datengesteuertes Unternehmen zu formen und zu vereinheitlichen, die Entscheidungsfindung zu steuern und die Qualität der Datenverwaltung und -integration zu verbessern.

Erkunden Sie die Data-Fabric-Produkte von IBM
Ressourcen AI Academy: Datenverwaltung

Erfahren Sie, warum qualitativ hochwertige Daten für den erfolgreichen Einsatz generativer KI unerlässlich sind, und erfahren Sie, wie Unternehmensdaten Produktivitätssteigerungen erzielen können.

IBM watsonx.data

Erkunden Sie die watsonx.data-Testversion und folgen Sie der Datentechnikerin Amelia bei der Verbindung zu ihren externen Datenquellen, dem Zugriff auf und der Abfrage von Daten sowie dem Auslagern von Daten aus ihrem Data Warehouse zur Kostenoptimierung.

Das Datendifferenzierungsmerkmal

Erkunden Sie mithilfe dieses Leitfadens Ressourcen für Data-Leadership. Er unterstützt Sie bei der Implementierung der Strategie, Technologien und Kultur, die für die Führung eines datengesteuerten, KI-gestützten Unternehmens grundlegend sind.

Verbesserung der Transparenz der Pharma-Lieferkette für die Patientensicherheit

Erfahren Sie, wie IBM und die National Association of Boards of Pharmacy (NABP) einen digitalen Hub zentralisierten, um die Transparenz zu erhöhen und die Integrität der Azneimittellieferkette zu wahren.

Datenvirtualisierung vereinheitlicht Daten für nahtlose KI und Analysen

Erkunden Sie, wie Datenvirtualisierung die Zusammenführung von Daten aus verschiedenen Quellen optimiert und maschinelles Lernen durch die Beseitigung von Datensilos fördert.

Eine Revolutionierung der Analyse und Untersuchung unstrukturierter Daten zur Bekämpfung von Betrug und organisierter Kriminalität

Erkunden Sie, wie IBM watsonx.data und Cogniware Daten aus unterschiedlichen Quellen vereinheitlichten, um Zusammenhänge zu visualisieren und die Aktivitäten der untersuchten Personen zu untersuchen.

Machen Sie den nächsten Schritt

Trainieren, validieren, optimieren und implementieren Sie generative KI, Foundation Models und maschinelle Lernfunktionen mit IBM watsonx.ai, einem Studio der nächsten Generation für AI Builder in Unternehmen. Erstellen Sie KI-Anwendungen mit einem Bruchteil der Zeit und Daten.

watsonx.ai erkunden Buchen Sie eine Live-Demo