ETL – kurz für „Extract, Transform, Load“ – ist ein Datenintegrationsprozess, bei dem Daten aus mehreren Quellen kombiniert, bereinigt und organisiert werden, um sie in einem einzigen, konsistenten Datensatz für die Speicherung in einem Data Warehouse, Data Lake oder einem anderen Zielsystem bereitzustellen.
ETL-Datenpipelines bilden die Grundlage für die Arbeitsabläufe in den Bereichen Datenanalyse und maschinelles Lernen. Mithilfe einer Reihe von Business Rules bereinigt und organisiert ETL Daten, um spezifische Business-Intelligence-Anforderungen zu erfüllen, z. B. monatliche Berichte, kann jedoch auch fortschrittlichere Analysen durchführen, die Back-End-Prozesse und Endbenutzererfahrungen verbessern können. ETL-Pipelines werden von Unternehmen häufig verwendet, um:
Daten aus Altlast-Systemen zu extrahieren
Daten zu bereinigen, um die Datenqualität zu verbessern und Konsistenz herzustellen
Daten in eine Zieldatenbank zu laden
Seit dem Zeitalter des Abakus generieren Unternehmen Daten, aber die moderne Analyse wurde erst mit der Einführung des digitalen Computers und der Datenspeicherung möglich.
Ein großer Fortschritt wurde in den 1970er Jahren mit der Umstellung auf größere zentralisierte Datenbanken erzielt. ETL wurde dann als Prozess zur Integration und zum Laden von Daten für Berechnungen und Analysen eingeführt und wurde schließlich zur Hauptmethode für die Verarbeitung von Daten für Data-Warehousing-Projekte.
Ende der 1980er Jahren wurden Data Warehouses und das Verschieben von transaktionalen Datenbanken zu relationalen Datenbanken, die die Informationen in relationalen Datenformaten speichern, immer beliebter. In älteren Transaktionsdatenbanken wurden die Informationen transaktionsweise gespeichert, wobei mit jeder Transaktion doppelte Kundeninformationen gespeichert wurden, sodass es keine einfache Möglichkeit gab, über einen längeren Zeitraum hinweg einheitlich auf Kundendaten zuzugreifen. Mit relationalen Datenbanken wurde die Analyse zur Grundlage von Business Intelligence (BI) und zu einem wichtigen Tool in der Entscheidungsfindung.
Bis zum Aufkommen ausgefeilterer ETL-Software handelte es sich bei den ersten Versuchen weitgehend um manuelle Bemühungen des IT-Teams, Daten aus verschiedenen Systemen und Konnektoren zu extrahieren, die Daten in ein gemeinsames Format umzuwandeln und sie dann in miteinander verbundene Tabellen zu laden. Dennoch waren die ersten ETL-Schritte die Mühe wert, denn fortschrittliche Algorithmen und der Aufstieg neuronaler Netze eröffneten immer umfangreichere Möglichkeiten für analytische Erkenntnisse.
Das Zeitalter der Big Data begann in den 1990er Jahren, als die Rechengeschwindigkeit und Speicherkapazität rapide zunahmen und große Datenmengen aus neuen Quellen wie sozialen Medien und dem Internet der Dinge (IoT) abgerufen wurden. Ein einschränkender Faktor blieb jedoch bestehen, da die Daten häufig in lokalen Data Warehouses gespeichert waren.
Der nächste große Schritt sowohl in der Datenverarbeitung als auch im ETL-Bereich war das Cloud Computing, das Ende der 1990er Jahre populär wurde. Mithilfe von Data Warehouses wie Amazon Web Services (AWS), Microsoft Azure und Snowflake können Daten nun weltweit abgerufen und schnell skaliert werden, sodass ETL-Lösungen bemerkenswert detaillierte Erkenntnisse und neue Wettbewerbsvorteile liefern können.
Die neueste Entwicklung sind ETL-Lösungen, die Datenströme zur Gewinnung sekundengenauer Erkenntnisse aus riesigen Datenmengen nutzen.
Der offensichtlichste Unterschied zwischen ETL und ELT – extrahieren, laden, transformieren – liegt in der in der Reihenfolge der Vorgänge. ELT kopiert oder exportiert die Daten von den Quellspeichern, aber anstatt sie zur Transformation in einen Staging-Bereich zu laden, lädt es die Rohdaten direkt in den Zieldatenspeicher, um sie nach Bedarf zu transformieren.
Beide Verfahren nutzen eine Vielzahl von Datenspeichern, wie Datenbanken, Data Warehouses und Data Lakes, und jedes Verfahren hat seine Vor- und Nachteile. ELT ist nützlich für die Aufnahme großer, unstrukturierter Datensätze, da das Laden direkt aus der Quelle erfolgen kann. ELT ist ideal für die Verwaltung von Big Data, da die Extraktion und Speicherung von Daten im Vorfeld nicht viel Planung erfordert.
Der ETL-Prozess erfordert zu Beginn mehr Definitionsaufwand. Es müssen spezifische Datenpunkte für die Extraktion identifiziert werden, zusammen mit potenziellen „Schlüsseln“ für die Integration über verteilte Quellsysteme hinweg. Die Quelle der Eingabedaten wird häufig mithilfe von Metadaten nachverfolgt. Auch nach Abschluss dieser Arbeit müssen die Business Rules für Datenkonvertierungen erstellt werden. Diese Arbeit hängt in der Regel von den Datenanforderungen für eine bestimmte Art der Datenanalyse ab, die den Grad der Verdichtung der Daten bestimmen.
Während ELT-Pipelines mit der Einführung von Cloud-Datenbanken immer beliebter geworden sind, ist die ELT-Technologie immer noch ein Entwicklungsprozess. Und das wiederum bedeutet, dass sich Best Practices noch in der Entwicklung befinden.
Am einfachsten lässt sich die Funktionsweise von ETL verstehen, wenn Sie wissen, was in den einzelnen Schritten des Prozesses geschieht.
Bei der Datenextraktion werden die Rohdaten von den Quellorten in einen Staging-Bereich kopiert oder exportiert. Datenverwaltungsteams können Daten aus einer Vielzahl von Datenquellen extrahieren, wobei es sich um strukturierte oder unstrukturierte Daten handeln kann. Zu diesen Datentypen gehören unter anderem:
Im Staging-Bereich werden die Rohdaten einer Datenverarbeitung unterzogen. Hier werden die Daten für den beabsichtigten analytischen Anwendungsfall transformiert und konsolidiert. Diese Phase des Transformationsprozesses kann Folgendes umfassen:
In diesem letzten Schritt werden die transformierten Daten aus dem Staging-Bereich in ein Ziel-Data-Warehouse verschoben. In der Regel beinhaltet dies ein anfängliches Laden aller Daten, gefolgt von einem regelmäßigen Laden von inkrementellen Datenänderungen und, seltener, von vollständigen Aktualisierungen, um Daten im Warehouse zu löschen und zu ersetzen. Bei den meisten Unternehmen, die ETL verwenden, ist der Prozess automatisiert, genau definiert, kontinuierlich und stapelgesteuert. Normalerweise findet ETL außerhalb der Geschäftszeiten statt, wenn der Datenverkehr auf den Quellsystemen und im Data Warehouse am niedrigsten ist.
ETL und ELT sind nur zwei Methoden der Datenintegration, und es gibt noch weitere Ansätze, die zur Erleichterung von Datenintegrations-Workflows verwendet werden. Einige davon sind:
ETL-Lösungen verbessern die Qualität, indem sie eine Datenbereinigung durchführen, bevor die Daten in ein anderes Repository geladen werden. ETL ist ein zeitaufwändiger Batch-Vorgang und wird daher eher für die Erstellung kleinerer Zieldatenspeicher empfohlen, die weniger häufig aktualisiert werden müssen. Im Gegensatz dazu werden Datenintegrationsmethoden – einschließlich ELT (Extrahieren, Laden, Transformieren), Change Data Capture (CDC) und Datenvirtualisierung – für die Integration von immer größeren Datenmengen, die sich ändern, oder von Datenströmen in Echtzeit verwendet.
In der Vergangenheit haben Unternehmen ihren eigenen ETL-Code geschrieben. Mittlerweile stehen viele Open-Source- und kommerzielle ETL-Tools und cloudbasierte Services zur Auswahl. Zu den typischen Funktionen dieser Produkte gehören:
Darüber hinaus haben sich viele ETL-Tools dahingehend entwickelt, dass sie ELT-Funktionen enthalten und die Integration von Echtzeit- und Streaming-Daten für Anwendungen der künstlichen Intelligenz (KI) unterstützen.
Programmierschnittstellen (Application Programming Interfaces, APIs) unter Verwendung von Enterprise Application Integration (EAI) können anstelle von ETL für eine flexiblere, skalierbare Lösung verwendet werden, die auch die Integration von Workflows umfasst. ETL ist zwar immer noch die primäre Datenintegrationsressource, EAI wird jedoch zunehmend zusammen mit APIs in webbasierten Umgebungen verwendet.
Ein modernisiertes ETL-Tool für eine vertrauenswürdige Datenpipeline auf einer cloudnativen Erkenntnisplattform.
Erstellen Sie mit IBM-Datenintegrationslösungen belastbare, leistungsstarke und kostenoptimierte Datenpipelines für Ihre generativen KI-Initiativen, Echtzeitanalysen, Lagermodernisierungen und betrieblichen Anforderungen.
Erschließen Sie den Wert von Unternehmensdaten mit IBM Consulting und bauen Sie ein erkenntnisorientiertes Unternehmen auf, das Ihnen geschäftliche Vorteile verschafft.