Was ist Data Engineering?

Eine Frau arbeitet online an einem Laptop

Autoren

Ivan Belcic

Staff writer

Cole Stryker

Staff Editor, AI Models

IBM Think

Was ist Data Engineering?

Datenengineering ist die Praxis des Entwerfens und Erstellens von Systemen für die Aggregation, Speicher und Analyse von Daten in großem Maßstab. Data Engineers ermöglichen es Unternehmen, in Echtzeit Erkenntnisse aus großen Datenbeständen zu gewinnen.

Von Social-Media- und Marketing-Metriken bis hin zu Statistiken über die Leistung und Trendprognosen verfügen Unternehmen über alle Daten, die sie benötigen, um einen ganzheitlichen Überblick über ihre Aktivitäten zu erhalten. Data Engineers verwandeln riesige Datenmengen in wertvolle strategische Erkenntnisse.

Mit der richtigen Datentechnik können Stakeholder in einer Unternehmen – Führungskräfte, Entwickler, Data Scientists und Business Intelligence (BI) -Analysten – jederzeit auf die Datensatz zugreifen, die sie benötigen, und zwar auf eine Weise, die zuverlässig, bequem und sicher ist.

Unternehmen haben Zugriff auf mehr Daten – und mehr Datentypen – als je zuvor. Jedes Datenbit kann potenziell als Grundlage für eine wichtige Geschäftsentscheidung dienen. Data Engineers regeln die Datenverwaltung für die nachgelagerte Nutzung, einschließlich Analysen, forecasting oder maschinelles Lernen.

Als spezialisierte Informatiker zeichnen sich Data Engineers durch die Erstellung und Bereitstellung von Algorithmen, Datenpipelines und Workflows aus, die Rohdaten in Datensätze sortieren. Data Engineering ist ein integraler Komponente der modernen Datenplattform und ermöglicht es Unternehmen, die erhaltenen Daten unabhängig von der Datenquelle oder dem Datenformat zu analysieren und anzuwenden.

Selbst in einem dezentralisierten System zur Verwaltung des Datennetzes ist ein Kernteam von Data Engineers für den Zustand der gesamten Infrastruktur verantwortlich.

Anwendungsfall für Data Engineering

Data Engineers haben eine Reihe von täglichen Aufgaben. Hier sind einige wichtige Anwendungsfälle für Datenengineering:

Datenerfassung, Speicher und -verwaltung 

Data Engineers optimieren Datenintake und -Speicherung im gesamten Unternehmen, um einen einfachen Zugriff und Analysen zu ermöglichen. Dies erleichtert die Skalierbarkeit, indem Daten effizient gespeichert und Prozesse eingerichtet werden, um sie auf eine Weise zu verwalten, die mit dem Wachstum eines Unternehmens leicht zu warten ist. Der Bereich DataOps automatisiert die Datenverwaltung und wird durch die Arbeit von Data Engineers ermöglicht.

Echtzeitdatenanalyse 

Mit den richtigen Datenpipelines können Unternehmen die Prozesse der Erfassung, Bereinigung und Formatierung von Daten zur Verwendung in der Datenanalyse automatisieren. Wenn große Mengen nutzbarer Daten von einem Ort aus zugänglich sind, können Datenanalysten leicht die Informationen finden, die sie benötigen, um Führungskräften beim Lernen und Treffen wichtiger strategischer Entscheidungen zu helfen.

Die Lösungen, die Data Engineers entwickeln, schaffen die Voraussetzungen für Lernen in Echtzeit, da Daten in Datenmodelle fließen, die als lebendige Repräsentationen des Status eines Unternehmens zu einem bestimmten Zeitpunkt dienen.

Maschinelles Lernen 

Maschinelles Lernen (ML) nutzt riesige Datenmengen, um Modelle der künstlichen Intelligenz (KI) zu trainieren und ihre Genauigkeit zu verbessern. Von den Produktempfehlungsdiensten vieler E-Commerce-Plattformen bis hin zum schnell wachsenden Bereich der KI (gen KI) sind ML-Algorithmen weit verbreitet. Ingenieure für maschinelles Lernen verlassen sich auf Datenpipelines, um Daten von ihrem Erfassungspunkt zu den Modellen zu transportieren, die sie für das Training verwenden.

Data Engineers und Kerndatensätze

Data Engineers entwickeln Systeme, die große Mengen an Rohdaten in brauchbare Kerndatensätze umwandeln, die die wesentlichen Daten enthalten, die ihre Kollegen benötigen. Andernfalls wäre es für Endbenutzer äußerst schwierig, auf die über die operativen Systeme eines Unternehmens verteilten Daten zuzugreifen und sie zu interpretieren.

Kerndatensätze sind auf einen bestimmten nachgelagerten Anwendungsfall zugeschnitten und so konzipiert, dass sie alle benötigten Daten in einem nutzbaren Format ohne überflüssige Informationen vermitteln. Die drei Säulen eines starken Kerndatensatzes sind:

1. Benutzerfreundlichkeit

Bei der Daten als Produkt (DaaP) Datenverwaltung liegt der Schwerpunkt darauf, Endbenutzer mit zugänglichen, zuverlässigen Daten zu versorgen. Analysten, Wissenschaftler, Manager und andere Führungskräfte sollten beim Zugriff auf und bei der Interpretation von Daten auf so wenig Hindernisse wie möglich stoßen.

2. Kontextbasiert

Gute Daten sind nicht nur eine Momentaufnahme der Gegenwart – sie liefern Kontext, indem sie Veränderungen im Laufe der Zeit vermitteln. Starke Kerndatensätze werden historische Trends in der showcase und geben eine Perspektive für die strategischere Entscheidungsfindung.

3. Umfassend

Datenintegration ist die Praxis, Daten aus einem gesamten Unternehmen zu einem einheitlichen Datensatz zu aggregieren, und ist eine der Hauptaufgaben der Rolle des Datentechnikers. Data Engineers ermöglichen es Endbenutzern, Daten aus verteilten Quellen entsprechend den Anforderungen ihrer Arbeit zu kombinieren.

3D-Design aus Kugeln, die auf einer Schiene rollen

Die neuesten Erkenntnisse und Insights zu KI

Entdecken Sie von Experten kuratierte Erkenntnisse und Neuigkeiten zu KI, Cloud und mehr im wöchentlichen Newsletter Think. 

Wie funktioniert Data Engineering?

Data Engineering steuert das Design und die Erstellung von Datenpipelines, die unstrukturierte Daten in Datensätze umwandeln, die Datenqualität und Zuverlässigkeit gewährleisten.

Datenpipelines bilden das Rückgrat einer gut funktionierenden Dateninfrastruktur und orientieren sich an den Anforderungen der Datenarchitektur des Geschäfts, für das sie zuständig sind. Daten-Observability ist die Praxis, mit der Data Engineers ihre Pipelines überwachen, um sicherzustellen, dass Endbenutzer zuverlässige Daten erhalten.

Die Daten-Integration-Pipeline umfasst drei Schlüsselphasen:

1. Datenaufnahme

Datenaufnahme ist die Übertragung von Daten aus verschiedenen Quellen in ein einziges Ökosystem. Zu diesen Quellen gehören Datenbanken, Cloud Computing-Plattformen wie Amazon Web Services (AWS), IoT-Geräte, Data Lakes und Warehouses, Websites und andere Kundenkontaktpunkte. Data Engineers verwenden APIs, um viele dieser Datenpunkte in ihre Pipelines zu integrieren.

Jede Datenquelle speichert und formatiert Daten auf eine bestimmte Weise. Dabei kann es sich um strukturierte oder unstrukturierte Daten handeln. Während strukturierte Daten bereits für einen effizienten Zugriff formatiert sind, ist dies bei unstrukturierten Daten nicht der Fall. Durch die Datenaufnahme werden die Daten in einem organisierten Datensystem zusammengefasst, das dann weiter verfeinert werden kann.

2. Datenkonvertierung

Durch die Datentransformation werden die aufgenommenen Daten für Endbenutzer wie Führungskräfte oder Ingenieure für maschinelles Lernen vorbereitet. Es handelt sich um eine Hygieneübung, bei der Fehler gefunden und korrigiert, doppelte Einträge entfernt und Daten für eine höhere Datenzuverlässigkeit normalisiert werden. Anschließend werden die Daten in das vom Endbenutzer benötigte Format konvertiert.

3. Datenbereitstellung

Sobald die Daten erfasst und verarbeitet wurden, werden sie an den Endbenutzer bereitgestellt. Echtzeit Datenmodellierung und -visualisierung, Datensätze für maschinelles Lernen und automatisierte Berichtssysteme sind allesamt Beispiele für gängige Datenbereitstellungsmethoden.

Mixture of Experts | 12. Dezember, Folge 85

KI entschlüsseln: Wöchentlicher Nachrichtenüberblick

Schließen Sie sich unserer erstklassigen Expertenrunde aus Ingenieuren, Forschern, Produktführern und anderen an, die sich durch das KI-Rauschen kämpfen, um Ihnen die neuesten KI-Nachrichten und Erkenntnisse zu liefern.

Was ist der Unterschied zwischen Datentechnik, Datenanalyse und Data Science?

Data Science, Data Engineering und Data Analyse sind eng verwandte Bereiche. Jede ist jedoch eine fokussierte Disziplin, die eine einzigartige Rolle innerhalb eines größeren Unternehmens erfüllt. Diese drei Rollen arbeiten zusammen, um sicherzustellen, dass Unternehmen das Beste aus ihren Daten herausholen können.

  • Data Scientist nutzen maschinelles Lernen, Datenexploration und andere akademische Bereiche, um zukünftige Ergebnisse vorherzusagen. Data Science ist ein interdisziplinäres Gebiet, das sich darauf konzentriert, mithilfe von Algorithmen und statistischen Modellen genaue Vorhersagen zu treffen. Wie Data Engineering ist auch Data Science eine Tätigkeit mit hohem Programmieraufwand, die einen umfassenden Programmierhintergrund erfordert.

  • Datenanalysten untersuchen große Datensätze, um Trends zu erkennen und Erkenntnisse zu gewinnen, die Unternehmen dabei helfen, datengesteuerte Entscheidungen zu treffen heute. Während Data Scientists fortschrittliche Computertechniken zur Datenmanipulation anwenden, arbeiten Datenanalysten mit vordefinierten Datensätzen, um kritische Informationen aufzudecken und aussagekräftige Schlussfolgerungen zu ziehen.

 

  • Data Engineers sind Softwareingenieure, die die Dateninfrastruktur eines Unternehmens aufbauen und verwalten — sie automatisieren die Datenintegration, erstellen effiziente Datenspeichermodelle und verbessern die Datenqualität durch Pipeline-Observability. Data Scientists und Analysten verlassen sich darauf, dass Data Engineers ihnen die zuverlässigen, qualitativ hochwertigen Daten liefern, die sie für ihre Arbeit benötigen.

Welche Datentools verwenden Data Engineers?

Die Rolle des Data Engineers zeichnet sich durch seine spezialisierten Fähigkeiten aus. Data Engineers müssen mit zahlreichen Tools und Technologien vertraut sein, um den Fluss, die Speicherung, das Management und die Qualität von Daten in einem Unternehmen zu optimieren.

Daten-Pipelines: ETL vs. ELT

Beim Aufbau einer Pipeline automatisiert ein Data Engineer die Integration mit Skripten – Codezeilen, die sich wiederholende Aufgaben ausführen. Je nach Bedarf ihres Unternehmens konstruieren Data Engineers Pipelines in einem von zwei Formaten: ETL oder ELT.

ETL: Extrahieren, Transformieren, Laden. ETL-Pipelines automatisieren das Abrufen und die Speicherung von Daten in einer Datenbank. Die Rohdaten werden aus der Quelle extrahiert, durch Skripte in ein standardisiertes Format umgewandelt und dann in ein Speicherziel geladen. ETL ist die am häufigsten verwendete Methode zur Datenintegration, insbesondere beim Zusammenführen von Daten aus mehreren Quellen in einem einheitlichen Format.

ELT: extrahieren, laden, transformieren. ELT-Pipelines extrahieren Rohdaten und importieren sie in ein zentrales Repository, bevor sie durch Transformation standardisiert werden. Die gesammelten Daten können später je nach Bedarf formatiert werden und bieten so ein höheres Maß an Flexibilität als ELT-Pipelines.

Lösungen für die Datenspeicherung

Die Systeme, die Data Engineers erstellen, beginnen und enden oft mit Datenspeicherlösungen: Daten von einem Standort sammeln, verarbeiten und dann am Ende der Pipeline an einer anderen Stelle ablegen.

  • Cloud Computing-Dienste: Die Beherrschung von Cloud Computing-Plattformen ist für eine erfolgreiche Karriere in der Datentechnik unerlässlich. Microsoft Azure Data Lake Storage, Amazon S3 und andere AWS-Lösungen, Google Cloud und IBM Cloud® sind beliebte Plattformen.

  • Relationale Datenbanken: Eine relationale Datenbank organisiert Daten nach einem System vordefinierter Beziehungen. Die Daten werden in Zeilen und Spalten angeordnet, die eine Tabelle bilden, in der die Beziehungen zwischen den Datenpunkten dargestellt sind. Dank dieser Struktur können auch komplexe Abfragen effizient durchgeführt werden. Analysten und Ingenieure pflegen diese Datenbanken mit relationalen Datenbankmanagementsystemen (RDBMS). Die meisten RDBMS-Lösungen verwenden SQL für die Bearbeitung von Abfragen, wobei MySQL und PostgreSQL zwei der führenden Open-Source-RDBMS-Optionen sind.

  • NoSQL-Datenbanken: SQL ist nicht die einzige Option für die Datenbankverwaltung. NoSQL-Datenbanken ermöglichen es Data Engineers, Datenspeicherlösungen zu erstellen, ohne sich auf traditionelle Modelle verlassen zu müssen. Da NoSQL-Datenbanken keine Daten in vordefinierten Tabellen speichern, ermöglichen sie den Benutzern ein intuitiveres Arbeiten ohne so viel Vorausplanung. NoSQL bietet im Vergleich zu SQL-basierten relationalen Datenbanken mehr Flexibilität sowie eine einfachere horizontale Skalierbarkeit.

  • Data Warehouses: Data Warehouses erfassen und standardisieren Daten aus dem gesamten Unternehmen, um eine Single-Source-of-Truth (SSOT) zu schaffen. Die meisten Data Warehouses bestehen aus einer dreistufigen Struktur: eine untere Schicht, die Daten speichert, eine mittlere Schicht, die schnelle Abfragen ermöglicht, und eine oberste Schicht, die den Benutzern zugewandt ist. Während herkömmliche Data-Warehousing-Modelle nur strukturierte Daten unterstützen, können moderne Lösungen unstrukturierte Daten speichern. Durch die Aggregation von Daten und schnelle Abfragen in Echtzeit verbessern Data Warehouses die Datenqualität, bieten schnellere Erkenntnisse und ermöglichen strategische, datengesteuerte Entscheidungen. Datenanalysten können über eine einzige Schnittstelle auf alle benötigten Daten zugreifen und haben einen Vorteil von einer Datenmodellierung und Visualisierung in Echtzeit.

  • Data Lakes: Während bei einem Data Warehouse die Struktur im Vordergrund steht,ist ein Data Lake eher eine freie Datenverwaltungslösung, die große Mengen sowohl strukturierter als auch unstrukturierter Daten speichert. Data Lake sind flexibler in der Nutzung und günstiger in der Erstellung als Data Warehouses, da sie keine vordefinierten Schemata benötigen. Sie enthalten neue Rohdaten, insbesondere die unstrukturierten Big Data, die sich ideal für das Training von maschinellen Lernsystemen eignen. Doch ohne ausreichendes Management können Data Lakes leicht zu Datensümpfen werden: unübersichtliche Datenmengen, die zu verwirrend sind, um sie zu navigieren. Viele Data Lakes basieren auf dem Hadoop-Produkt-Ökosystem, darunter Echtzeit-Datenverarbeitungslösungen wie Apache Spark und Kafka.

  • Data Lakehouses: Data Lakehouses sind die nächste Stufe in der Datenverwaltung. Sie mindern die Schwächen der Warehouse- und Lake-Modelle. Lakehouses kombinieren die Kostenoptimierung von Lakes mit der Struktur und überlegenen Verwaltung des Warehouse, um die Anforderungen von maschinellem Lernen, Data Science und BI-Anwendungen zu erfüllen.

Programmiersprachen

Als Disziplin der Informatik erfordert Data Engineering fundierte Kenntnisse verschiedener Programmiersprachen. Data Engineers verwenden Programmiersprachen zum Erstellen ihrer Datenpipelines.

  • SQL oder strukturierte Abfragesprache ist die vorherrschende Programmiersprache für die Erstellung und Manipulation von Datenbanken. Es bildet die Basis für alle relationalen Datenbanken und kann auch in NoSQL-Datenbanken verwendet werden.

  • Python bietet eine Vielzahl vorgefertigter Module zur Beschleunigung vieler Aspekte des Data-Engineering-Prozesses, vom Aufbau komplexer Pipelines mit Luigi bis zur Verwaltung von Workflows mit Apache Airflow. Viele benutzerorientierte Softwareanwendungen verwenden Python als Grundlage.

  • Scala ist eine gute Wahl für die Verwendung mit Big Data, da es gut mit Apache Spark zusammenarbeitet. Im Gegensatz zu Python ermöglicht Scala Entwicklern, mehrere Parallelitätsprimitive zu programmieren und mehrere Aufgaben gleichzeitig auszuführen. Diese Fähigkeit zur parallelen Verarbeitung macht Scala zu einer beliebten Wahl für den Pipelinebau.

  • Java ist eine beliebte Wahl für das Backend vieler Data-Engineering-Pipelines. Wenn Organisationen sich für den Aufbau ihrer eigenen internen Datenverarbeitung entscheiden, ist Java oft die Programmiersprache der Wahl. Sie unterstützt auch Apache Hive, ein auf Analysen ausgerichtetes Warehouse-Tool.

Weiterführende Lösungen
Analysetools und -lösungen

Um erfolgreich zu sein, müssen Unternehmen Daten nutzen, um die Kundenbindung zu stärken, Geschäftsprozesse zu automatisieren und mit KI-gestützten Lösungen Innovationen zu schaffen.

Analyselösungen entdecken
Beratungsservices für Daten und Analysen

Erschließen Sie den Wert von Unternehmensdaten mit IBM Consulting und bauen Sie ein erkenntnisorientiertes Unternehmen auf, das Ihnen geschäftliche Vorteile verschafft.

Analyse-Services entdecken
IBM Cognos Analytics

Wir stellen vor: Cognos Analytics 12.0, KI-gestützte Erkenntnisse für eine bessere Entscheidungsfindung.

Cognos Analytics erkunden
Machen Sie den nächsten Schritt

Um erfolgreich zu sein, müssen Unternehmen Daten nutzen, um die Kundenbindung zu stärken, Geschäftsprozesse zu automatisieren und mit KI-gestützten Lösungen Innovationen zu schaffen.

Analyselösungen entdecken Analyse-Services entdecken