Startseite
Think
Themen
Datenkonvertierung
Veröffentlicht: 19. Juni 2024
Mitwirkende: Molly Hayes, Amanda Downie
Die Datenkonvertierung ist ein entscheidender Teil des Datenintegrationsprozesses, bei dem Rohdaten in ein einheitliches Format oder eine einheitliche Struktur umgewandelt werden. Die Datenkonvertierung stellt die Kompatibilität mit den Zielsystemen sicher und verbessert die Datenqualität und Benutzerfreundlichkeit. Sie ist ein wesentlicher Aspekt von Datenverwaltungspraktiken, einschließlich Data Wrangling, Datenanalyse und Data Warehousing.
Während Spezialisten die Datenkonvertierung manuell durchführen können, erfordern die großen Datenmengen, die für den Betrieb moderner Unternehmensanwendungen benötigt werden, in der Regel ein gewisses Maß an Automatisierung. Die beim Datenkonvertierungsprozess eingesetzten Tools und Technologien können einfach oder komplex sein.
Eine Datenkonvertierung kann z. B. lediglich das Konvertieren eines Datumsfelds (z. B. TT/MM/JJ) in ein anderes oder das Aufteilen einer einzelnen Excel-Spalte in zwei Spalten umfassen. Komplexe Datenkonvertierungen, die Daten aus mehreren unterschiedlichen Quellen bereinigen und standardisieren und mehrere Workflows umfassen, können jedoch fortgeschrittene Data-Science-Kenntnisse erfordern.
Zu diesen erweiterten Data-Engineering-Funktionen gehören die Datennormalisierung, die Beziehungen zwischen Datenpunkten definiert, und die Datenanreicherung, die bestehende Informationen mit Datensätzen von Drittanbietern ergänzt.
In der globalen Digital-First-Wirtschaft von heute helfen Datenkonvertierungen Unternehmen dabei, große Datenmengen aus verschiedenen Quellen zu nutzen, um ihren Service zu verbessern, maschinelle Lernmodelle zu trainieren und Big-Data-Analysen bereitzustellen.
Lesen Sie den IBM Leitfaden zu KI und Datenverwaltung, um zu erfahren, wie Sie optimal in die richtige offene, vertrauenswürdige Datenbasis investieren.
Durch die Standardisierung von Datensätzen und deren Vorbereitung für die anschließende Verarbeitung ermöglicht die Datenkonvertierung mehrere wichtige Praktiken im Bereich der Unternehmensdaten. Zu den häufigsten Gründen für die Datenkonvertierung in der Geschäftswelt gehören:
Unternehmen transformieren Daten für die Verwendung in Business-Intelligence-Anwendungen wie Echtzeit-Dashboards und Forecasting-Berichten, sodass datengestützte Entscheidungen getroffen werden können, die riesige Informationsmengen berücksichtigen.
Die Datenkonvertierung bereitet Daten für die Speicherung und Verwaltung in einem Data Warehouse oder Data Lake vor und ermöglicht so effiziente Abfragen und Analysen.
Modelle für maschinelles Lernen erfordern saubere, organisierte Daten. Wenn sichergestellt wird, dass die Daten vertrauenswürdig und im richtigen Format vorliegen, können Unternehmen sie für das Training und die Optimierung von Tools für künstliche Intelligenz (KI) verwenden.
Bevor Big Data für Business Intelligence, Marktforschung oder andere Anwendungen analysiert werden können, müssen sie entsprechend sortiert und formatiert werden.
Das Verschieben von Daten von älteren On-Premises-Systemen auf moderne Plattformen wie ein Cloud-Data-Warehouse oder ein Data Lakehouse ist oft mit komplexen Datenkonvertierungen verbunden.
Datenkonvertierungen folgen in der Regel einem strukturierten Prozess, um aus der Rohform nutzbare, wertvolle Daten zu erzeugen. Zu den üblichen Schritten bei einer Datenkonvertierung gehören:
Während des Erkennungsprozesses werden Quelldaten gesammelt. Dieser Prozess kann das Scraping von Rohdaten aus APIs, einer SQL-Datenbank oder internen Dateien in unterschiedlichen Formaten umfassen. Bei der Identifizierung und Extraktion dieser Informationen stellen Datenexperten sicher, dass die gesammelten Informationen umfassend und für ihre spätere Anwendung relevant sind. Während der Erkennung beginnen die Ingenieure auch, die Eigenschaften und die Struktur der Daten im Rahmen eines Prozesses zu verstehen, der als Datenprofilerstellung bekannt ist.
Die Datenaufbereitung und -bereinigung erfordert die Identifizierung und Behebung von Fehlern, Inkonsistenzen und Ungenauigkeiten in den Rohdaten. Dieser Schritt gewährleistet die Datenqualität und Zuverlässigkeit, indem Duplikate und Sonderfälle entfernt oder Missing Values gehandhabt werden.
Bei der Datenzuordnung wird ein Schema oder ein Zuordnungsprozess erstellt, um den Transformationsprozess zu steuern. Während dieses Prozesses definieren Datentechniker, wie die Elemente im Quellsystem bestimmten Elementen im Zielformat entsprechen.
In diesem Schritt erstellt ein Unternehmen den Code, der die Daten umwandelt, entweder mit Hilfe eines Tools eines Drittanbieters oder durch interne Codegenerierung.
In dieser Phase findet die eigentliche Konvertierung statt, da Code auf die Rohdaten angewendet wird. Die konvertierten Daten werden zur weiteren Analyse oder Verarbeitung in ihr Zielsystem geladen. Die konvertierten Daten und das Datenmodell werden anschließend validiert, um Konsistenz und Korrektheit sicherzustellen.
Während des Überprüfungsprozesses prüfen Datenanalysten, Ingenieure oder Endbenutzer die Ausgabedaten und bestätigen, dass sie den Anforderungen entsprechen.
ETL (Extrahieren, Transformieren, Laden) und ELT (Extrahieren, Laden, Transformieren) sind zwei häufig verwendete Datenkonvertierungsprozesse, die leicht unterschiedliche Datenpipeline-Techniken verwenden. Jede dieser Methoden hat je nach Größe und Komplexität der Konvertierung Vor- und Nachteile.
Beim ETL-Prozess wird eine vorgegebene Teilmenge strukturierter Daten aus ihrer Quelle extrahiert, wo sie in einem Staging-Bereich oder einem sekundären Verarbeitungsserver konvertiert werden, bevor sie in ihr Zielsystem geladen werden. ETL eignet sich besser für On-Premises-Speicher und kleinere Datensätze. ETL kann jedoch in Szenarien mit spezifischen Anforderungen an Datenqualität und -konsistenz vorzuziehen sein, da strengere Datenbereinigungs- und Validierungsschritte eingeführt werden können. ETL kann auch erforderlich sein, um vertrauliche Daten, wie z. B. HIPAA-geschützte Informationen, während der Migration zu schützen.
Beim ELT-Prozess werden Informationen aus Datenquellen extrahiert und in das cloudbasierte Zielsystem geladen, wo sie konvertiert werden. Dieser Ansatz ermöglicht, da er die Vorteile der Cloud-Computing-Leistung nutzt, in der Regel eine schnellere Verarbeitung und eine agilere Datenverwaltung. Er kann auch mit unstrukturierten Daten wie Bildern verwendet werden. Mit dem Vorteil der cloudbasierten Rechen- und Speicherleistung profitiert der ELT-Prozess von einer erhöhten Skalierbarkeit.
Datenwissenschaftler und Ingenieure verwenden während des gesamten Datenkonvertierungsprozesses mehrere unterschiedliche Techniken. Welche Taktiken zum Einsatz kommen, hängt ganz vom Projekt und der beabsichtigten Verwendung der Daten ab, wobei mehrere Methoden im Rahmen eines komplexen Prozesses tangential verwendet werden können.
Während es möglich ist, eine Datenkonvertierung durchzuführen, indem nur interne Techniker eingesetzt werden, erleichtern viele Services von Drittanbietern den Konvertierungs- und Migrationsprozess. Einige der häufigsten sind:
Die Datenkonvertierung ist ein entscheidender Schritt bei der Datenverarbeitung. Sie verbessert die Kapazität eines Unternehmens für Analyse, Berichterstellung, Entscheidungsfindung und Speicherung. Zu den wichtigsten Vorteilen gehören:
Zur Datenkonvertierung gehören Prozesse wie die Datenbereinigung, die die Gesamtqualität eines Datensatzes verbessert. Mit besseren Daten und klar definierten Datenarchitekturen verbessern Unternehmen die betriebliche Effizienz in Bereichen wie Bestandsverwaltung und Auftragsabwicklung. Bessere Daten verbessern auch die Customer Experience, da sie eine 360-Grad-Sicht auf aktuelle und potenzielle Verbraucher ermöglichen.
Die Datenkonvertierung standardisiert Datenformate und -strukturen, wodurch es einfacher wird, Informationen in einen zusammenhängenden Datensatz zu integrieren. Durch das Aufbrechen von Datensilos und die Vereinheitlichung von Informationen aus unterschiedlichen Abteilungen oder Systemen beseitigt ein Unternehmen Inkonsistenzen und erhält eine einheitliche Sicht auf das Geschäft.
In der Regel sind die konvertierten Daten besser organisiert und strukturiert, was die Erstellung aussagekräftiger Visualisierungen zur effektiven Vermittlung von Erkenntnissen erleichtert. Visualisierungen helfen Entscheidungsträgern, Trends oder Chancen zu erkennen, und können wichtige Daten, wie Vertriebs- oder Beschaffungspipelines, nahezu in Echtzeit darstellen.
Bei der Datenkonvertierung werden komplexe oder unstrukturierte Daten in Formate umgewandelt, die leichter zu verstehen sowie zugänglicher und einfacher zu analysieren sind. Unternehmen nutzen diese Daten, um erweiterte Marktprognosen zu erstellen oder Bereiche mit Verbesserungspotenzial zu identifizieren.
Die Datenkonvertierung kann die Anonymisierung und Verschlüsselung von Daten, den Schutz sensibler Informationen und die Einhaltung von Datenschutzbestimmungen umfassen. Eine solche Sicherheit ist für stark regulierte Branchen wie das Gesundheits- und Finanzwesen sowie für Unternehmen, die in mehreren Regionen tätig sind und unterschiedlichen Datenschutzgesetzen unterliegen, nach wie vor von entscheidender Bedeutung.
Konvertierte Daten sind oft flexibler und einfacher zu rationalisieren, was die Anpassung an neue Anwendungsfälle oder die Skalierung der Datenverarbeitung erleichtert, wenn die Datenmenge zunimmt. Skalierbare Daten stellen sicher, dass ein Unternehmen ohne mehrere kostspielige Reorganisationen und IT-Implementierungen wächst.
Schöpfen Sie den Wert von Unternehmensdaten aus und bauen Sie mit IBM® Consulting eine erkenntnisorientierte Organisation auf, die Geschäftsvorteile erzielt.
Mit der IBM DataOps-Plattform beseitigen Unternehmen die Unterscheidung zwischen daten- und entwicklungsorientierten Teams und steigern die Effizienz in allen Bereichen, von der Fehlerbehebung bis zur Zielsetzung.
Die Daten- und KI-Lösungen von IBM geben Unternehmen die Möglichkeit, Unternehmensdaten zu nutzen, um die Ausfallsicherheit, Zuverlässigkeit und Kosteneffizienz zu verbessern, ohne Abstriche bei der Datensicherheit oder -qualität zu machen.
IBM watsonx.data ermöglicht es Unternehmen, KI und Analysen mit all ihren Daten zu skalieren, egal wo diese sich befinden.
Moderne Datenarchitekturen – wie z. B. Data Fabric – können dabei helfen, ein datengesteuertes Unternehmen zu formen und zu vereinheitlichen, die Entscheidungsfindung zu steuern und die Qualität der Datenverwaltung und -integration zu verbessern.
Erfahren Sie, warum qualitativ hochwertige Daten für den erfolgreichen Einsatz generativer KI unerlässlich sind, und erfahren Sie, wie Unternehmensdaten Produktivitätssteigerungen erzielen können.
Erkunden Sie die watsonx.data-Testversion und folgen Sie der Datentechnikerin Amelia bei der Verbindung zu ihren externen Datenquellen, dem Zugriff auf und der Abfrage von Daten sowie dem Auslagern von Daten aus ihrem Data Warehouse zur Kostenoptimierung.
Erkunden Sie mithilfe dieses Leitfadens Ressourcen für Data-Leadership. Er unterstützt Sie bei der Implementierung der Strategie, Technologien und Kultur, die für die Führung eines datengesteuerten, KI-gestützten Unternehmens grundlegend sind.
Erfahren Sie, wie IBM und die National Association of Boards of Pharmacy (NABP) einen digitalen Hub zentralisierten, um die Transparenz zu erhöhen und die Integrität der Azneimittellieferkette zu wahren.
Erkunden Sie, wie Datenvirtualisierung die Zusammenführung von Daten aus verschiedenen Quellen optimiert und maschinelles Lernen durch die Beseitigung von Datensilos fördert.
Erkunden Sie, wie IBM watsonx.data und Cogniware Daten aus unterschiedlichen Quellen vereinheitlichten, um Zusammenhänge zu visualisieren und die Aktivitäten der untersuchten Personen zu untersuchen.