Was ist Data Engineering?

By Ivan Belcic , Cole Stryker

Was ist Data Engineering?

Datenengineering ist die Praxis des Entwerfens und Erstellens von Systemen für die Aggregation, Speicher und Analyse von Daten in großem Maßstab. Data Engineers ermöglichen es Unternehmen, in Echtzeit Erkenntnisse aus großen Datenbeständen zu gewinnen.

Von Social-Media- und Marketing-Metriken bis hin zu Statistiken über die Leistung und Trendprognosen verfügen Unternehmen über alle Daten, die sie benötigen, um einen ganzheitlichen Überblick über ihre Aktivitäten zu erhalten. Data Engineers verwandeln riesige Datenmengen in wertvolle strategische Erkenntnisse.

Mit der richtigen Datentechnik können Stakeholder in einem Unternehmen – Führungskräfte, Entwickler, Data Scientists und Business Intelligence-(BI-)Analysten – jederzeit auf die Datensätze zugreifen, die sie benötigen. Dieser Zugang ist zuverlässig, bequem und sicher.

Unternehmen haben Zugriff auf mehr Daten – und mehr Datentypen – als je zuvor. Jedes Datenbit kann potenziell als Grundlage für eine wichtige Geschäftsentscheidung dienen. Data Engineers regeln die Datenverwaltung für die nachgelagerte Nutzung, einschließlich Analysen, forecasting oder maschinelles Lernen.

Als spezialisierte Informatiker zeichnen sich Data Engineers durch die Erstellung und Bereitstellung von Algorithmen, Datenpipelines und Workflows aus, die Rohdaten in Datensätze sortieren. Data Engineering ist ein integraler Komponente der modernen Datenplattform und ermöglicht es Unternehmen, die erhaltenen Daten unabhängig von der Datenquelle oder dem Datenformat zu analysieren und anzuwenden.

Selbst in einem dezentralisierten System zur Verwaltung des Datennetzes ist ein Kernteam von Data Engineers für den Zustand der gesamten Infrastruktur verantwortlich.

Anwendungsfall für Data Engineering

Data Engineers haben eine Reihe von täglichen Aufgaben. Hier sind einige wichtige Anwendungsfälle für Datenengineering:

Datenerfassung, Speicher und -verwaltung

Data Engineers optimieren die Dateneingabe und -speicherung in einer Organisation für den bequemen Zugriff und die Analyse. Dieser Ansatz ermöglicht Skalierbarkeit, indem Daten effizient gespeichert und Prozesse zur Verwaltung auf eine Weise eingerichtet werden, die leicht zu pflegen ist, wenn ein Unternehmen wächst. Das Feld der DataOps automatisiert das Datenmanagement und wird durch die Arbeit von Data Engineers ermöglicht.

Echtzeitdatenanalyse

Mit den richtigen Datenpipelines können Unternehmen die Prozesse der Erfassung, Bereinigung und Formatierung von Daten zur Verwendung in der Datenanalyse automatisieren. Wenn große Mengen nutzbarer Daten von einem Ort aus zugänglich sind, können Datenanalysten leicht die Informationen finden, die sie benötigen, um Führungskräften beim Lernen und Treffen wichtiger strategischer Entscheidungen zu helfen.

Die Lösungen, die Data Engineers entwickeln, schaffen die Voraussetzungen für Lernen in Echtzeit, da Daten in Datenmodelle fließen, die als lebendige Repräsentationen des Status eines Unternehmens zu einem bestimmten Zeitpunkt dienen.

Maschinelles Lernen

Maschinelles Lernen (ML) nutzt riesige Datenmengen, um Modelle der künstlichen Intelligenz (KI) zu trainieren und ihre Genauigkeit zu verbessern. Von den Produktempfehlungsdiensten vieler E-Commerce-Plattformen bis hin zum schnell wachsenden Bereich der generativen KI sind ML-Algorithmen weit verbreitet. Ihre Anwendungen erweitern sich weiterhin branchenübergreifend. Ingenieure für maschinelles Lernen verlassen sich auf Datenpipelines, um Daten von ihrem Erfassungspunkt zu den Modellen zu transportieren, die sie für das Training verwenden.

Data Engineers und Kerndatensätze

Data Engineers entwickeln Systeme, die große Mengen an Rohdaten in brauchbare Kerndatensätze umwandeln, die die wesentlichen Daten enthalten, die ihre Kollegen benötigen. Andernfalls wäre es für Endbenutzer schwierig, auf die über die operativen Systeme eines Unternehmens verteilten Daten zuzugreifen und sie zu interpretieren.

Kerndatensätze sind auf einen bestimmten nachgelagerten Anwendungsfall zugeschnitten und so konzipiert, dass sie alle benötigten Daten in einem nutzbaren Format ohne überflüssige Informationen vermitteln. Die drei Säulen eines starken Kerndatensatzes sind:

1. Benutzerfreundlichkeit

Bei der Daten als Produkt (DaaP) Datenverwaltung liegt der Schwerpunkt darauf, Endbenutzer mit zugänglichen, zuverlässigen Daten zu versorgen. Analysten, Wissenschaftler, Manager und andere Führungskräfte sollten beim Zugriff auf und bei der Interpretation von Daten auf so wenig Hindernisse wie möglich stoßen.

2. Kontextbasiert

Gute Daten sind nicht nur eine Momentaufnahme der Gegenwart – sie liefern Kontext, indem sie Veränderungen im Laufe der Zeit vermitteln. Starke Kerndatensätze zeigen historische Trends auf und bieten Perspektiven für eine strategischere Entscheidungsfindung.

3. Umfassend

Datenintegration ist die Praxis, Daten aus einem gesamten Unternehmen zu einem einheitlichen Datensatz zu aggregieren, und ist eine der Hauptaufgaben der Rolle des Datentechnikers. Data Engineers ermöglichen es Endbenutzern, Daten aus verteilten Quellen entsprechend den Anforderungen ihrer Arbeit zu kombinieren.

Die neuesten Tech-News – von Experten bestätigt

Bleiben Sie mit dem Think-Newsletter über die wichtigsten – und faszinierendsten – Branchentrends in den Bereichen KI, Automatisierung, Daten und mehr auf dem Laufenden. Weitere Informationen finden Sie in der IBM Datenschutzerklärung.

Wie funktioniert Data Engineering?

Data Engineering steuert das Design und die Erstellung von Datenpipelines, die unstrukturierte Daten in Datensätze umwandeln, die Datenqualität und Zuverlässigkeit gewährleisten.

Datenpipelines bilden das Rückgrat einer gut funktionierenden Dateninfrastruktur, und die Anforderungen der Datenarchitektur des Unternehmens beeinflussen deren Design. Daten-Observability ist die Praxis, mit der Data Engineers ihre Pipelines überwachen, um sicherzustellen, dass Endbenutzer zuverlässige Daten erhalten.

Die Daten-Integration-Pipeline umfasst drei Schlüsselphasen:

1. Datenaufnahme

Datenaufnahme ist die Übertragung von Daten aus verschiedenen Quellen in ein einziges Ökosystem. Zu diesen Quellen gehören Datenbanken, Cloud Computing-Plattformen wie Amazon Web Services (AWS), IoT-Geräte, Data Lakes und Warehouses, Websites und andere Kundenkontaktpunkte. Data Engineers verwenden APIs, um viele dieser Datenpunkte in ihre Pipelines zu integrieren.

Jede Datenquelle speichert und formatiert Daten auf eine spezifische Weise, die strukturiert oder unstrukturiert sein kann. Während strukturierte Daten bereits für einen effizienten Zugriff formatiert sind, ist dies bei unstrukturierten Daten nicht der Fall. Durch die Datenaufnahme werden die Daten in einem organisierten Datensystem zusammengefasst, das dann weiter verfeinert werden kann.

2. Datenkonvertierung

Durch die Datentransformation werden die aufgenommenen Daten für Endbenutzer wie Führungskräfte oder Ingenieure für maschinelles Lernen vorbereitet. Es handelt sich um eine Hygieneübung, bei der Fehler gefunden und korrigiert, doppelte Einträge entfernt und Daten für eine höhere Datenzuverlässigkeit normalisiert werden. Anschließend werden die Daten in das vom Endbenutzer benötigte Format konvertiert.

3. Datenbereitstellung

Sobald die Daten erfasst und verarbeitet wurden, werden sie an den Endbenutzer bereitgestellt. Echtzeit Datenmodellierung und -visualisierung, Datensätze für maschinelles Lernen und automatisierte Berichtssysteme sind allesamt Beispiele für gängige Datenbereitstellungsmethoden.

AI Academy

Ist Datenverwaltung das Geheimnis generativer KI?

Erfahren Sie, warum qualitativ hochwertige Daten für den erfolgreichen Einsatz generativer KI unerlässlich sind.

Zur Episode wechseln

Was ist der Unterschied zwischen Datentechnik, Datenanalyse und Data Science?

Data Engineering, Data Science und Data Analytics sind eng verwandte Bereiche. Jeder ist jedoch eine fokussierte Disziplin, die eine einzigartige Rolle innerhalb eines größeren Unternehmens erfüllt. Diese drei Rollen arbeiten zusammen, um sicherzustellen, dass Organisationen das Beste aus ihren Daten herausholen können.

Data Scientist nutzen maschinelles Lernen, Datenexploration und andere akademische Bereiche, um zukünftige Ergebnisse vorherzusagen. Data Science ist ein interdisziplinäres Gebiet, das sich darauf konzentriert, mithilfe von Algorithmen und statistischen Modellen genaue Vorhersagen zu treffen. Wie Data Engineering ist auch Data Science eine Tätigkeit mit hohem Programmieraufwand, die einen umfassenden Programmierhintergrund erfordert.
Datenanalysten untersuchen große Datensätze, um Trends zu erkennen und Erkenntnisse zu gewinnen, die Unternehmen dabei helfen, datengesteuerte Entscheidungen zu treffen heute. Während Data Scientists fortschrittliche Computertechniken zur Datenmanipulation anwenden, arbeiten Datenanalysten mit vordefinierten Datensätzen, um kritische Informationen aufzudecken und aussagekräftige Schlussfolgerungen zu ziehen.

Data Engineers sind Softwareingenieure, die die Dateninfrastruktur eines Unternehmens aufbauen und verwalten – sie automatisieren die Datenintegration, erstellen effiziente Datenspeichermodelle und verbessern die Datenqualität durch Pipeline-Observability. Data Scientists und Analysten verlassen sich darauf, dass Data Engineers ihnen die zuverlässigen, qualitativ hochwertigen Daten liefern, die sie für ihre Arbeit benötigen.

Welche Datentools verwenden Data Engineers?

Spezialisierte Fähigkeiten definieren die Rolle des Data Engineer. Data Engineers müssen mit zahlreichen Tools und Technologien vertraut sein, um den Fluss, die Speicherung, das Management und die Qualität von Daten in einem Unternehmen zu optimieren.

Daten-Pipelines: ETL versus ELT

Beim Aufbau einer Pipeline automatisiert ein Data Engineer den Datenintegrationsprozess mit Skripten – Codezeilen, die sich wiederholende Aufgaben ausführen. Je nach den Anforderungen ihrer Organisation konstruieren Data Engineers Pipelines in einem von zwei Formaten: ETL oder ELT.

ETL: Extrahieren, Transformieren, Laden. ETL-Pipelines automatisieren das Abrufen und Speichern von Daten in einer Datenbank. Die Rohdaten werden aus der Quelle extrahiert und durch Skripte in ein standardisiertes Format umgewandelt. Anschließend werden sie in ein Speicherziel geladen. ETL ist die am häufigsten verwendete Methode zur Datenintegration, insbesondere beim Zusammenführen von Daten aus mehreren Quellen in einem einheitlichen Format.

ELT: extrahieren, laden, transformieren. ELT-Pipelines extrahieren Rohdaten und importieren sie in ein zentrales Repository, bevor sie durch Transformation standardisiert werden. Die gesammelten Daten können später je nach Bedarf formatiert werden und bieten so ein höheres Maß an Flexibilität als ETL-Pipelines.

Lösungen für die Datenspeicherung

Die Systeme, die Data Engineers erstellen, beginnen und enden oft mit Datenspeicherlösungen: Daten von einem Standort sammeln, verarbeiten und dann am Ende der Pipeline an einer anderen Stelle ablegen.

Cloud Computing-Dienste: Die Beherrschung von Cloud Computing-Plattformen ist für eine erfolgreiche Karriere in der Datentechnik unerlässlich. Microsoft Azure Data Lake Storage, Amazon S3 und andere AWS-Lösungen, Google Cloud und IBM Cloud® sind weit verbreitete Plattformen.
Relationale Datenbanken: Eine relationale Datenbank organisiert Daten nach einem System vordefinierter Beziehungen. Die Daten werden in Zeilen und Spalten angeordnet, die eine Tabelle bilden, in der die Beziehungen zwischen den Datenpunkten dargestellt sind. Dank dieser Struktur können auch komplexe Abfragen effizient durchgeführt werden. Analysten und Ingenieure pflegen diese Datenbanken mit relationalen Datenbankmanagementsystemen (RDBMS). Die meisten RDBMS-Lösungen verwenden SQL für die Bearbeitung von Abfragen, wobei MySQL und PostgreSQL zwei der führenden Open-Source-RDBMS-Optionen sind.
NoSQL-Datenbanken: SQL ist nicht die einzige Option für die Datenbankverwaltung. NoSQL-Datenbanken ermöglichen es Data Engineers, Datenspeicherlösungen zu erstellen, ohne sich auf traditionelle Modelle verlassen zu müssen. Da NoSQL-Datenbanken keine Daten in vordefinierten Tabellen speichern, ermöglichen sie den Benutzern ein intuitiveres Arbeiten ohne so viel Vorausplanung. NoSQL bietet im Vergleich zu SQL-basierten relationalen Datenbanken mehr Flexibilität sowie eine einfachere horizontale Skalierbarkeit.
Data Warehouses: Data Warehouses erfassen und standardisieren Daten aus dem gesamten Unternehmen, um eine Single-Source-of-Truth (SSOT) zu schaffen. Die meisten Data Warehouses bestehen aus einer dreistufigen Struktur: eine untere Schicht, die Daten speichert, eine mittlere Schicht, die schnelle Abfragen ermöglicht, und eine oberste Schicht, die den Benutzern zugewandt ist. Während herkömmliche Data-Warehousing-Modelle nur strukturierte Daten unterstützen, können moderne Lösungen unstrukturierte Daten speichern. Durch die Aggregation von Daten und schnelle Abfragen in Echtzeit verbessern Data Warehouses die Datenqualität, bieten schnellere Erkenntnisse und ermöglichen strategische, datengesteuerte Entscheidungen. Datenanalysten können über eine einzige Schnittstelle auf alle benötigten Daten zugreifen und haben einen Vorteil von einer Datenmodellierung und Visualisierung in Echtzeit.
Data Lakes: Während bei einem Data Warehouse die Struktur im Vordergrund steht,ist ein Data Lake eher eine freie Datenverwaltungslösung, die große Mengen sowohl strukturierter als auch unstrukturierter Daten speichert. Data Lake sind flexibler in der Nutzung und günstiger in der Erstellung als Data Warehouses, da sie keine vordefinierten Schemata benötigen. Sie enthalten neue Rohdaten, insbesondere die unstrukturierten Big Data, die sich ideal für das Training von maschinellen Lernsystemen eignen. Doch ohne ausreichendes Management können Data Lakes leicht zu Datensümpfen werden: unübersichtliche Datenmengen, die zu verwirrend sind, um sie zu navigieren. Viele Data Lakes basieren auf dem Hadoop-Produkt-Ökosystem, darunter Echtzeit-Datenverarbeitungslösungen wie Apache Spark und Kafka.
Data Lakehouses: Data Lakehouses sind die nächste Stufe im Datenmanagement. Sie mindern die Schwächen der Warehouse- und Lake-Modelle. Lakehouses kombinieren die Kostenoptimierung von Lakes mit der Struktur und überlegenen Verwaltung des Warehouse, um die Anforderungen von maschinellem Lernen, Data Science und BI-Anwendungen zu erfüllen.

Programmiersprachen

Als Disziplin der Informatik erfordert Data Engineering fundierte Kenntnisse verschiedener Programmiersprachen. Data Engineers verwenden Programmiersprachen zum Erstellen ihrer Datenpipelines.

SQL oder strukturierte Abfragesprache ist die vorherrschende Programmiersprache für die Erstellung und Manipulation von Datenbanken. Es bildet die Basis für alle relationalen Datenbanken und kann auch in NoSQL-Datenbanken verwendet werden.

Python bietet eine Vielzahl vorgefertigter Module zur Beschleunigung vieler Aspekte des Data-Engineering-Prozesses, vom Aufbau komplexer Pipelines mit Luigi bis zur Verwaltung von Workflows mit Apache Airflow. Viele benutzerorientierte Softwareanwendungen verwenden Python als Grundlage.

Scala ist eine gute Wahl für die Verwendung mit Big Data, da es gut mit Apache Spark zusammenarbeitet. Im Gegensatz zu Python ermöglicht Scala Entwicklern, mehrere Parallelitätsprimitive zu programmieren und mehrere Aufgaben gleichzeitig auszuführen. Diese Fähigkeit zur parallelen Verarbeitung macht Scala zu einer gängigen Wahl für den Pipelinebau.

Java™ ist eine gängige Wahl für das Backend vieler Data-Engineering-Pipelines. Wenn Organisationen sich dafür entscheiden, eigene interne Datenverarbeitungslösungen zu entwickeln, ist Java oft die Programmiersprache der Wahl. Sie bildet auch die Grundlage für Apache Hive, ein auf Analysen ausgerichtetes Warehouse-Tool.

Autoren

Ivan Belcic

Staff writer

Cole Stryker

Staff Editor, AI Models

IBM Think

3D-Rendering einer Spirale aus mehreren nebeneinander angeordneten Symbolen, darunter eine Kamera, ein Lautstärkeregler und ein Klemmbrett

Lesen Sie den Leitfaden für Data Leader, um zu erfahren, wie Sie die Daten Ihres Unternehmens KI-fähig machen können.

Ressourcen

3D-Rendering mehrerer nebeneinander angeordneter Symbole, darunter ein Mikrofon und eine Kamera

KI-Agenten arbeiten mit Daten – sind Ihre bereit dafür?

Ihre Daten sind Ihr Wettbewerbsvorteil. Erfahren Sie in diesem kurzen Webinar, wie Sie die KI sicher nutzen und einen messbaren ROI erzielen können.

Infos zu Datenverwaltung

Techsplainers von IBM erklärt die Grundlagen von Daten für KI, von Schlüsselkonzepten bis hin zu realen Anwendungsfällen. Klare, kurze Folgen helfen Ihnen, die Grundlagen schnell zu erlernen.

3D-Rendering von mehreren aneinandergereihten Symbolen wie einem Lautstärkeregler und einem Klemmbrett

Daten zur Skalierung Ihrer KI vereinheitlichen und zugänglich machen

Erfahren Sie, warum der Weg zu KI-fähigen Daten oft mit dem effektiven Zugriff auf strukturierte und unstrukturierte Daten beginnt und welche Herausforderungen Datenverantwortlichen im Wege stehen können.

Juristischer Aufwand wird zu strategischer Erkenntnis

Erfahren Sie, wie ein KI-gestützter Rechtsagent die Entscheidungsfindung beschleunigt, manuelle Arbeit reduziert und die Compliance verbessert.

Zwei Männer, die in einem Podcast miteinander sprechen

AI Akademy: Aufbau einer Datenstrategie für Unternehmens-KI

In dieser Folge erklärt Cathy Reese, dass Unternehmen heute eine Datenstrategie benötigen, die für fortschrittliche KI bereit ist, was bedeutet, dass sie ihre qualitativ hochwertigsten Datenressourcen nutzen müssen.

3D-Darstellung mehrerer nebeneinander angeordneter Symbole, wie z. B. einer Kamera und Papierfliegern

Das hybride, offene Data Lakehouse für KI

Vereinfachen Sie den Datenzugriff und automatisieren Sie die Data Governance. Entdecken Sie die Vorteile einer Data-Lakehouse-Strategie für Ihre Datenarchitektur, einschließlich der Kostenoptimierung Ihrer Workloads und der Skalierung von KI und Analysen, mit all Ihren Daten, überall.

Cost of a Data Breach Report 2025

Die Kosten für Datenschutzverletzungen haben einen neuen Höchststand erreicht. Erhalten Sie aktuelle Erkenntnisse hinsichtlich Cybersicherheit und deren finanziellen Auswirkungen auf Unternehmen.

3D-Rendering von zwei Reihen mit verschiedenen Symbolen, darunter eine Kamera, ein Lautstärkeregler und eine Zwischenablage

Der Leitfaden für Data Leader zu KI-fähigen Daten

Erfahren Sie, welche umsetzbaren Schritte Datenverantwortliche unternehmen können, um Datenherausforderungen zu überwinden, die Grundlage für eine vertrauenswürdige Datenbasis zu schaffen und die Daten ihres Unternehmens auf die KI vorzubereiten.

3D-Rendering mehrerer nebeneinander angeordneter Symbole, darunter eine Kamera, ein Lautstärkeregler und eine Zwischenablage

How the C-suite is turning information into impact

Erkunden Sie in diesem branchenübergreifenden Bericht für Datenverantwortliche die Erkenntnisse von 1.700 CDOs.

Weiterführende Lösungen

IBM® StreamSets

Erstellen und verwalten Sie intelligente Streaming-Datenpipelines über eine intuitive grafische Benutzeroberfläche, die eine nahtlose Datenintegration in Hybrid- und Multicloud-Umgebungen ermöglicht.

StreamSets erkunden

IBM watsonx.data

Watsonx.data ermöglicht es Ihnen, Analysen und KI mit all Ihren Daten zu skalieren, unabhängig davon, wo sie sich befinden, und zwar über einen offenen, hybriden und kontrollierten Datenspeicher.

IBM watsonx.data entdecken

Beratungsservices für Daten und Analysen

Erschließen Sie den Wert von Unternehmensdaten mit IBM Consulting® und bauen Sie ein erkenntnisgesteuertes Unternehmen auf, das Ihnen geschäftliche Vorteile verschafft.

Analyse-Services entdecken

Machen Sie den nächsten Schritt

Entwerfen Sie eine Datenstrategie, die Datensilos beseitigt, die Komplexität reduziert und die Datenqualität verbessert, um außergewöhnliche Kunden- und Mitarbeitererfahrungen zu schaffen.

Was ist Data Engineering?