Was ist ETL (Extrahieren, Transformieren, Laden)?

Was ist ETL?

ETL – die Abkürzung steht für Extrahieren, Transformieren, Laden – ist ein seit langem bestehender Datenintegrationsprozess, der dazu dient, Daten aus verschiedenen Quellen zu einem einzelnen, konsistenten Datensatz zu kombinieren, der dann in ein Data Warehouse, einen Data Lake oder ein anderes Zielsystem geladen wird.

Als die Datenbanken in den 1970er Jahren immer beliebter wurden, wurde ETL als Verfahren zur Integration und zum Laden von Daten für Berechnungen und Analysen eingeführt und wurde schließlich zur Hauptmethode für die Verarbeitung von Daten für Data-Warehousing-Projekte.

ETL bildet die Grundlage für die Arbeitsabläufe in den Bereichen Datenanalyse und maschinelles Lernen. Mithilfe einer Reihe von Business Rules werden Daten bereinigt und so organisiert, dass sie auf spezifische Business-Intelligence-Bedürfnisse wie monatliche Berichte zugeschnitten sind. Darüber hinaus kann ETL aber auch fortschrittlichere Analysen durchführen, mit deren Hilfe Back-End-Prozesse oder Endbenutzererfahrungen verbessert werden können. ETL wird von Unternehmen häufig verwendet, um:

Daten aus Altlast-Systemen zu extrahieren
Daten zu bereinigen, um die Datenqualität zu verbessern und Konsistenz herzustellen
Daten in eine Zieldatenbank zu laden

Presto kennenlernen und bedienen

Lesen Sie das kostenlose O'Reilly-E-Book, um zu erfahren, wie Sie mit Presto, der Open-Source-SQL-Engine für Datenanalysen, loslegen können.

Ähnliche Inhalte

Registrieren Sie sich für das Whitepaper über KI-Governance

ETL vs. ELT

Der offensichtlichste Unterschied zwischen ETL und ELT ist der Unterschied in der Reihenfolge der Vorgänge. ELT kopiert oder exportiert die Daten von den Quellspeichern, aber anstatt sie zur Transformation in einen Staging-Bereich zu laden, lädt es die Rohdaten direkt in den Zieldatenspeicher, um sie nach Bedarf zu transformieren.

Beide Verfahren nutzen eine Vielzahl von Datenspeichern, wie Datenbanken, Data Warehouses und Data Lakes, und jedes Verfahren hat seine Vor- und Nachteile. ELT ist besonders nützlich für große, unstrukturierte Datensätze, da das Laden direkt aus der Quelle erfolgen kann. ELT ist ideal für die Verwaltung von Big Data, da die Extraktion und Speicherung von Daten im Vorfeld nicht viel Planung erfordert.

Der ETL-Prozess hingegen erfordert zu Beginn mehr Definitionsaufwand. Es müssen spezifische Datenpunkte für die Extraktion identifiziert werden, zusammen mit potenziellen „Schlüsseln“ für die Integration über verteilte Quellsysteme hinweg. Auch nach Abschluss dieser Arbeit müssen die Business Rules für Datenkonvertierungen erstellt werden. Diese Arbeit hängt in der Regel von den Datenanforderungen für eine bestimmte Art der Datenanalyse ab, die den Grad der Verdichtung der Daten bestimmen.

Obwohl ELT mit der Einführung von Cloud Databases immer beliebter geworden ist, hat es seine eigenen Nachteile, da es sich um ein neueres Verfahren handelt, was bedeutet, dass die Best Practices noch etabliert werden müssen.

So funktioniert ETL

Am einfachsten lässt sich die Funktionsweise von ETL verstehen, wenn Sie wissen, was in den einzelnen Schritten des Prozesses geschieht.

Extrahieren

Bei der Datenextraktion werden die Rohdaten von den Quellorten in einen Staging-Bereich kopiert oder exportiert. Datenverwaltungsteams können Daten aus einer Vielzahl von Datenquellen extrahieren, wobei es sich um strukturierte oder unstrukturierte Daten handeln kann. Zu diesen Quellen gehören unter anderem:

SQL- oder NoSQL -Server
CRM- und ERP-Systeme
Einfachdateien
E-Mail
Webseiten

Transformation

Im Staging-Bereich werden die Rohdaten einer Datenverarbeitung unterzogen. Hier werden die Daten für den beabsichtigten analytischen Anwendungsfall transformiert und konsolidiert. Diese Phase kann die folgenden Aufgaben umfassen:

Filtern, Bereinigen, Deduplizieren, Validieren und Authentifizieren der Daten.
Durchführen von Berechnungen, Übersetzungen oder Zusammenfassungen auf Grundlage der Rohdaten. Hierzu gehören z. B. das Ändern von Zeilen- und Spaltenüberschriften, das Umrechnen von Währungen oder anderen Maßeinheiten, das Bearbeiten von Textstrings und vieles mehr.
Durchführen von Audits zur Sicherstellung von Datenqualität und Compliance.
Entfernen, Verschlüsseln oder Schützen von Daten, die von Branchen- oder Regierungsbehörden reguliert werden.
Formatieren der Daten in Tabellen oder verbundenen Tabellen, die dem Schema des Ziel-Data-Warehouse entsprechen.

Laden

In diesem letzten Schritt werden die transformierten Daten aus dem Staging-Bereich in ein Ziel-Data-Warehouse verschoben. In der Regel beinhaltet dies ein anfängliches Laden aller Daten, gefolgt von einem regelmäßigen Laden von inkrementellen Datenänderungen und, seltener, von vollständigen Aktualisierungen, um Daten im Warehouse zu löschen und zu ersetzen. Bei den meisten Unternehmen, die ETL verwenden, ist der Prozess automatisiert, genau definiert, kontinuierlich und stapelgesteuert. Normalerweise findet ETL außerhalb der Geschäftszeiten statt, wenn der Datenverkehr auf den Quellsystemen und im Data Warehouse am niedrigsten ist.

ETL und andere Datenintegrationsmethoden

ETL und ELT sind nur zwei Methoden der Datenintegration, und es gibt noch weitere Ansätze, die zur Erleichterung von Datenintegrations-Workflows verwendet werden. Einige davon sind:

Change Data Capture (CDC) erkennt und erfasst nur die Quelldaten, die sich geändert haben, und verschiebt diese Daten in das Zielsystem. CDC kann verwendet werden, um die während des ETL-Schrittes „Extrahieren“ benötigten Ressourcen zu reduzieren. Darüber hinaus kann es auch unabhängig davon verwendet werden, um umgewandelte Daten in Echtzeit in einen Data Lake oder ein anderes Repository zu verschieben.
Data Replication kopiert Änderungen in Datenquellen in Echtzeit oder in Batches in eine zentrale Datenbank. Data Replication wird häufig als Datenintegrationsmethode aufgeführt. Tatsächlich wird es am häufigsten zur Erstellung von Backups für die Notfallwiederherstellung verwendet.
Bei der Datenvirtualisierung wird eine Software-Abstraktionsschicht verwendet, um eine einheitliche, integrierte und vollständig nutzbare Ansicht der Daten zu erstellen, ohne dass die Quelldaten physisch in ein Zielsystem kopiert, transformiert oder geladen werden müssen. Die Funktionalität der Datenvirtualisierung ermöglicht es einem Unternehmen, virtuelle Data Warehouses, Data Lakes und Data Marts aus denselben Quelldaten für die Datenspeicherung zu erstellen, ohne die Kosten und die Komplexität des Aufbaus und der Verwaltung separater Plattformen für jede einzelne. Datenvirtualisierung kann zwar neben ETL eingesetzt werden, wird aber zunehmend als Alternative zu ETL und anderen Methoden der physischen Datenintegration gesehen.
Stream Data Integration (SDI) ist genau das, wonach es sich anhört – es konsumiert kontinuierlich Datenströme in Echtzeit, transformiert sie und lädt sie zur Analyse in ein Zielsystem. Das Schlüsselwort hier ist kontinuierlich. Anstatt Momentaufnahmen von Daten zu integrieren, die zu einem bestimmten Zeitpunkt aus den Quellen extrahiert wurden, integriert SDI die Daten kontinuierlich, sobald sie verfügbar sind. SDI ermöglicht einen Datenspeicher für Analysen, maschinelles Lernen und Echtzeitanwendungen zur Verbesserung der Customer Experience, Betrugserkennung und mehr.

Vorteile und Herausforderungen von ETL

ETL-Lösungen verbessern die Qualität, indem sie eine Datenbereinigung durchführen, bevor die Daten in ein anderes Repository geladen werden. ETL ist ein zeitaufwändiger Batch-Vorgang und wird daher eher für die Erstellung kleinerer Zieldatenspeicher empfohlen, die weniger häufig aktualisiert werden müssen. Im Gegensatz dazu werden Datenintegrationsmethoden – einschließlich ELT (Extrahieren, Laden, Transformieren), Change Data Capture (CDC) und Datenvirtualisierung – für die Integration von immer größeren Datenmengen, die sich ändern, oder von Datenströmen in Echtzeit verwendet.

Mehr über Datenintegration erfahren

ETL-Tools

In der Vergangenheit haben Unternehmen ihren eigenen ETL-Code geschrieben. Mittlerweile stehen viele Open-Source- und kommerzielle ETL-Tools und Cloud-Services zur Auswahl. Zu den typischen Funktionen dieser Produkte gehören:

Umfassende Automatisierung und Benutzerfreundlichkeit: Führende ETL-Tools automatisieren den gesamten Datenfluss – von Datenquellen bis hin zum Ziel-Data-Warehouse. Viele Tools empfehlen Regeln zum Extrahieren, Transformieren und Laden der Daten.
Eine visuelle Drag-and-Drop-Oberfläche: Diese Funktionalität kann zum Festlegen von Regeln und Datenflüssen verwendet werden.
Unterstützung für komplexe Datenverwaltung: Dies umfasst Unterstützung bei komplexen Berechnungen, Datenintegrationen und String-Manipulationen.
Sicherheit und Compliance: Die besten ETL-Tools verschlüsseln Daten sowohl in Bewegung als auch im Ruhezustand und sind für die Einhaltung von Branchen- oder Regierungsvorschriften wie HIPAA und DSGVO zertifiziert.

Darüber hinaus haben sich viele ETL-Tools dahingehend entwickelt, dass sie ELT-Funktionen enthalten und die Integration von Echtzeit- und Streaming-Daten für Anwendungen der künstlichen Intelligenz (KI) unterstützen.

Die Zukunft der Integration – API mit EAI

Programmierschnittstellen (Application Programming Interfaces, APIs) unter Verwendung von Enterprise Application Integration (EAI) können anstelle von ETL für eine flexiblere, skalierbare Lösung verwendet werden, die auch die Integration von Workflows umfasst. ETL ist zwar immer noch die primäre Datenintegrationsressource, EAI wird jedoch zunehmend zusammen mit APIs in webbasierten Umgebungen verwendet.

Weiterführende Lösungen

IBM Cloud Pak for Data

IBM Cloud Pak for Data ist eine offene, erweiterbare Datenplattform, die eine Data Fabric bietet, mit der alle Daten für KI und Analysen in jeder Cloud verfügbar gemacht werden.

Mehr über IBM Cloud Pak for Data

IBM DataOps

KI eröffnet neue Möglichkeiten, den Wert von Daten zu erschließen. Organisieren Sie Ihre Daten, um sie mit DataOps-Lösungen für eine KI- und Multicloud-Welt fit zu machen.

Erkunden Sie IBM DataOps

Datenintegration

Die Datenintegration ermöglicht es Ihnen, strukturierte und unstrukturierte Daten umzuwandeln und sie auf einer skalierbaren Big-Data-Plattform an jedes beliebige System bereitzustellen.

Erkunden Sie die Datenintegration

Ressourcen

Hive als Tool für ETL oder ELT

Lernen Sie, wie man Daten extrahiert, transformiert und lädt ODER extrahiert, lädt und dann transformiert, und entdecken Sie, wie Sie mit diesem Tool große Datensätze mühelos verarbeiten und analysieren können.

ELT vs. ETL: Welche Unterschiede gibt es?

Lernen Sie die Gemeinsamkeiten und Unterschiede bei den Definitionen, Vorteilen und Anwendungsfällen von ELT und ETL kennen.

Implementierung von ETL-Flows mit Node-RED

Entdecken Sie die Leistungsfähigkeit von ETL-Flows mit Node-RED und erfahren Sie, wie Sie diese kritischen Prozesse rationalisieren, implementieren und automatisieren und das volle Potenzial Ihrer Daten ausschöpfen können.