Startseite
Themen
Was ist ETL (Extrahieren, Transformieren, Laden)?
ETL – die Abkürzung steht für Extrahieren, Transformieren, Laden – ist ein seit langem bestehender Datenintegrationsprozess, der dazu dient, Daten aus verschiedenen Quellen zu einem einzelnen, konsistenten Datensatz zu kombinieren, der dann in ein Data Warehouse, einen Data Lake oder ein anderes Zielsystem geladen wird.
Als die Datenbanken in den 1970er Jahren immer beliebter wurden, wurde ETL als Verfahren zur Integration und zum Laden von Daten für Berechnungen und Analysen eingeführt und wurde schließlich zur Hauptmethode für die Verarbeitung von Daten für Data-Warehousing-Projekte.
ETL bildet die Grundlage für die Arbeitsabläufe in den Bereichen Datenanalyse und maschinelles Lernen. Mithilfe einer Reihe von Business Rules werden Daten bereinigt und so organisiert, dass sie auf spezifische Business-Intelligence-Bedürfnisse wie monatliche Berichte zugeschnitten sind. Darüber hinaus kann ETL aber auch fortschrittlichere Analysen durchführen, mit deren Hilfe Back-End-Prozesse oder Endbenutzererfahrungen verbessert werden können. ETL wird von Unternehmen häufig verwendet, um:
Lesen Sie das kostenlose O’Reilly-E-Book, um zu erfahren, wie Sie mit Presto, der Open-Source-SQL-Engine für Datenanalysen, loslegen können.
Der offensichtlichste Unterschied zwischen ETL und ELT ist der Unterschied in der Reihenfolge der Vorgänge. ELT kopiert oder exportiert die Daten von den Quellspeichern, aber anstatt sie zur Transformation in einen Staging-Bereich zu laden, lädt es die Rohdaten direkt in den Zieldatenspeicher, um sie nach Bedarf zu transformieren.
Beide Verfahren nutzen eine Vielzahl von Datenspeichern, wie Datenbanken, Data Warehouses und Data Lakes, und jedes Verfahren hat seine Vor- und Nachteile. ELT ist besonders nützlich für große, unstrukturierte Datensätze, da das Laden direkt aus der Quelle erfolgen kann. ELT ist ideal für die Verwaltung von Big Data, da die Extraktion und Speicherung von Daten im Vorfeld nicht viel Planung erfordert.
Der ETL-Prozess hingegen erfordert zu Beginn mehr Definitionsaufwand. Es müssen spezifische Datenpunkte für die Extraktion identifiziert werden, zusammen mit potenziellen „Schlüsseln“ für die Integration über verteilte Quellsysteme hinweg. Auch nach Abschluss dieser Arbeit müssen die Business Rules für Datenkonvertierungen erstellt werden. Diese Arbeit hängt in der Regel von den Datenanforderungen für eine bestimmte Art der Datenanalyse ab, die den Grad der Verdichtung der Daten bestimmen.
Obwohl ELT mit der Einführung von Cloud Databases immer beliebter geworden ist, hat es seine eigenen Nachteile, da es sich um ein neueres Verfahren handelt, was bedeutet, dass die Best Practices noch etabliert werden müssen.
Am einfachsten lässt sich die Funktionsweise von ETL verstehen, wenn Sie wissen, was in den einzelnen Schritten des Prozesses geschieht.
Bei der Datenextraktion werden die Rohdaten von den Quellorten in einen Staging-Bereich kopiert oder exportiert. Datenverwaltungsteams können Daten aus einer Vielzahl von Datenquellen extrahieren, wobei es sich um strukturierte oder unstrukturierte Daten handeln kann. Zu diesen Quellen gehören unter anderem:
Im Staging-Bereich werden die Rohdaten einer Datenverarbeitung unterzogen. Hier werden die Daten für den beabsichtigten analytischen Anwendungsfall transformiert und konsolidiert. Diese Phase kann die folgenden Aufgaben umfassen:
In diesem letzten Schritt werden die transformierten Daten aus dem Staging-Bereich in ein Ziel-Data-Warehouse verschoben. In der Regel beinhaltet dies ein anfängliches Laden aller Daten, gefolgt von einem regelmäßigen Laden von inkrementellen Datenänderungen und, seltener, von vollständigen Aktualisierungen, um Daten im Warehouse zu löschen und zu ersetzen. Bei den meisten Unternehmen, die ETL verwenden, ist der Prozess automatisiert, genau definiert, kontinuierlich und stapelgesteuert. Normalerweise findet ETL außerhalb der Geschäftszeiten statt, wenn der Datenverkehr auf den Quellsystemen und im Data Warehouse am niedrigsten ist.
ETL und ELT sind nur zwei Methoden der Datenintegration, und es gibt noch weitere Ansätze, die zur Erleichterung von Datenintegrations-Workflows verwendet werden. Einige davon sind:
ETL-Lösungen verbessern die Qualität, indem sie eine Datenbereinigung durchführen, bevor die Daten in ein anderes Repository geladen werden. ETL ist ein zeitaufwändiger Batch-Vorgang und wird daher eher für die Erstellung kleinerer Zieldatenspeicher empfohlen, die weniger häufig aktualisiert werden müssen. Im Gegensatz dazu werden Datenintegrationsmethoden – einschließlich ELT (Extrahieren, Laden, Transformieren), Change Data Capture (CDC) und Datenvirtualisierung – für die Integration von immer größeren Datenmengen, die sich ändern, oder von Datenströmen in Echtzeit verwendet.
In der Vergangenheit haben Unternehmen ihren eigenen ETL-Code geschrieben. Mittlerweile stehen viele Open-Source- und kommerzielle ETL-Tools und Cloud-Services zur Auswahl. Zu den typischen Funktionen dieser Produkte gehören:
Darüber hinaus haben sich viele ETL-Tools dahingehend entwickelt, dass sie ELT-Funktionen enthalten und die Integration von Echtzeit- und Streaming-Daten für Anwendungen der künstlichen Intelligenz (KI) unterstützen.
Programmierschnittstellen (Application Programming Interfaces, APIs) unter Verwendung von Enterprise Application Integration (EAI) können anstelle von ETL für eine flexiblere, skalierbare Lösung verwendet werden, die auch die Integration von Workflows umfasst. ETL ist zwar immer noch die primäre Datenintegrationsressource, EAI wird jedoch zunehmend zusammen mit APIs in webbasierten Umgebungen verwendet.
IBM Cloud Pak for Data ist eine offene, erweiterbare Datenplattform, die eine Data Fabric bietet, mit der alle Daten für KI und Analysen in jeder Cloud verfügbar gemacht werden.
KI eröffnet neue Möglichkeiten, den Wert von Daten zu erschließen. Organisieren Sie Ihre Daten, um sie mit DataOps-Lösungen für eine KI- und Multicloud-Welt fit zu machen.
Die Datenintegration ermöglicht es Ihnen, strukturierte und unstrukturierte Daten umzuwandeln und sie auf einer skalierbaren Big-Data-Plattform an jedes beliebige System bereitzustellen.
Lernen Sie, wie man Daten extrahiert, transformiert und lädt ODER extrahiert, lädt und dann transformiert, und entdecken Sie, wie Sie mit diesem Tool große Datensätze mühelos verarbeiten und analysieren können.
Lernen Sie die Gemeinsamkeiten und Unterschiede bei den Definitionen, Vorteilen und Anwendungsfällen von ELT und ETL kennen.
Entdecken Sie die Leistungsfähigkeit von ETL-Flows mit Node-RED und erfahren Sie, wie Sie diese kritischen Prozesse rationalisieren, implementieren und automatisieren und das volle Potenzial Ihrer Daten ausschöpfen können.