Was ist ETL (Extrahieren, Transformieren, Laden)?

Eine Frau arbeitet online am Laptop, prüft E-Mails und plant im Internet, während sie bei der Arbeit allein in einem Büro sitzt

Was ist ETL?

ETL – kurz für „Extract, Transform, Load“ – ist ein Datenintegrationsprozess, bei dem Daten aus mehreren Quellen kombiniert, bereinigt und organisiert werden, um sie in einem einzigen, konsistenten Datensatz für die Speicherung in einem Data Warehouse, Data Lake oder einem anderen Zielsystem bereitzustellen.

ETL-Datenpipelines bilden die Grundlage für die Arbeitsabläufe in den Bereichen Datenanalyse und maschinelles Lernen. Mithilfe einer Reihe von Business Rules bereinigt und organisiert ETL Daten, um spezifische Business-Intelligence-Anforderungen zu erfüllen, z. B. monatliche Berichte, kann jedoch auch fortschrittlichere Analysen durchführen, die Back-End-Prozesse und Endbenutzererfahrungen verbessern können. ETL-Pipelines werden von Unternehmen häufig verwendet, um:

Daten aus Altlast-Systemen zu extrahieren
Daten zu bereinigen, um die Datenqualität zu verbessern und Konsistenz herzustellen
Daten in eine Zieldatenbank zu laden

3D-Design aus Kugeln, die auf einer Schiene rollen

Die neuesten Erkenntnisse und Insights zu KI

Entdecken Sie von Experten kuratierte Erkenntnisse und Neuigkeiten zu KI, Cloud und mehr im wöchentlichen Newsletter Think.

Wie sich ETL entwickelt hat

Seit dem Zeitalter des Abakus generieren Unternehmen Daten, aber die moderne Analyse wurde erst mit der Einführung des digitalen Computers und der Datenspeicherung möglich.

Ein großer Fortschritt wurde in den 1970er Jahren mit der Umstellung auf größere zentralisierte Datenbanken erzielt. ETL wurde dann als Prozess zur Integration und zum Laden von Daten für Berechnungen und Analysen eingeführt und wurde schließlich zur Hauptmethode für die Verarbeitung von Daten für Data-Warehousing-Projekte.

Ende der 1980er Jahren wurden Data Warehouses und das Verschieben von transaktionalen Datenbanken zu relationalen Datenbanken, die die Informationen in relationalen Datenformaten speichern, immer beliebter. In älteren Transaktionsdatenbanken wurden die Informationen transaktionsweise gespeichert, wobei mit jeder Transaktion doppelte Kundeninformationen gespeichert wurden, sodass es keine einfache Möglichkeit gab, über einen längeren Zeitraum hinweg einheitlich auf Kundendaten zuzugreifen. Mit relationalen Datenbanken wurde die Analyse zur Grundlage von Business Intelligence (BI) und zu einem wichtigen Tool in der Entscheidungsfindung.

Bis zum Aufkommen ausgefeilterer ETL-Software handelte es sich bei den ersten Versuchen weitgehend um manuelle Bemühungen des IT-Teams, Daten aus verschiedenen Systemen und Konnektoren zu extrahieren, die Daten in ein gemeinsames Format umzuwandeln und sie dann in miteinander verbundene Tabellen zu laden. Dennoch waren die ersten ETL-Schritte die Mühe wert, denn fortschrittliche Algorithmen und der Aufstieg neuronaler Netze eröffneten immer umfangreichere Möglichkeiten für analytische Erkenntnisse.

Das Zeitalter der Big Data begann in den 1990er Jahren, als die Rechengeschwindigkeit und Speicherkapazität rapide zunahmen und große Datenmengen aus neuen Quellen wie sozialen Medien und dem Internet der Dinge (IoT) abgerufen wurden. Ein einschränkender Faktor blieb jedoch bestehen, da die Daten häufig in lokalen Data Warehouses gespeichert waren.

Der nächste große Schritt sowohl in der Datenverarbeitung als auch im ETL-Bereich war das Cloud Computing, das Ende der 1990er Jahre populär wurde. Mithilfe von Data Warehouses wie Amazon Web Services (AWS), Microsoft Azure und Snowflake können Daten nun weltweit abgerufen und schnell skaliert werden, sodass ETL-Lösungen bemerkenswert detaillierte Erkenntnisse und neue Wettbewerbsvorteile liefern können.

Die neueste Entwicklung sind ETL-Lösungen, die Datenströme zur Gewinnung sekundengenauer Erkenntnisse aus riesigen Datenmengen nutzen.

Mixture of Experts | 28. August, Folge 70

KI entschlüsseln: Wöchentlicher Nachrichtenüberblick

Schließen Sie sich unserer erstklassigen Expertenrunde aus Ingenieuren, Forschern, Produktführern und anderen an, die sich durch das KI-Rauschen kämpfen, um Ihnen die neuesten KI-Nachrichten und Erkenntnisse zu liefern.

Die neuesten Podcast-Folgen ansehen

ETL versus ELT

Der offensichtlichste Unterschied zwischen ETL und ELT – extrahieren, laden, transformieren – liegt in der in der Reihenfolge der Vorgänge. ELT kopiert oder exportiert die Daten von den Quellspeichern, aber anstatt sie zur Transformation in einen Staging-Bereich zu laden, lädt es die Rohdaten direkt in den Zieldatenspeicher, um sie nach Bedarf zu transformieren.

Beide Verfahren nutzen eine Vielzahl von Datenspeichern, wie Datenbanken, Data Warehouses und Data Lakes, und jedes Verfahren hat seine Vor- und Nachteile. ELT ist nützlich für die Aufnahme großer, unstrukturierter Datensätze, da das Laden direkt aus der Quelle erfolgen kann. ELT ist ideal für die Verwaltung von Big Data, da die Extraktion und Speicherung von Daten im Vorfeld nicht viel Planung erfordert.

Der ETL-Prozess erfordert zu Beginn mehr Definitionsaufwand. Es müssen spezifische Datenpunkte für die Extraktion identifiziert werden, zusammen mit potenziellen „Schlüsseln“ für die Integration über verteilte Quellsysteme hinweg. Die Quelle der Eingabedaten wird häufig mithilfe von Metadaten nachverfolgt. Auch nach Abschluss dieser Arbeit müssen die Business Rules für Datenkonvertierungen erstellt werden. Diese Arbeit hängt in der Regel von den Datenanforderungen für eine bestimmte Art der Datenanalyse ab, die den Grad der Verdichtung der Daten bestimmen.

Während ELT-Pipelines mit der Einführung von Cloud-Datenbanken immer beliebter geworden sind, ist die ELT-Technologie immer noch ein Entwicklungsprozess. Und das wiederum bedeutet, dass sich Best Practices noch in der Entwicklung befinden.

So funktioniert ETL

Am einfachsten lässt sich die Funktionsweise von ETL verstehen, wenn Sie wissen, was in den einzelnen Schritten des Prozesses geschieht.

Extrahieren

Bei der Datenextraktion werden die Rohdaten von den Quellorten in einen Staging-Bereich kopiert oder exportiert. Datenverwaltungsteams können Daten aus einer Vielzahl von Datenquellen extrahieren, wobei es sich um strukturierte oder unstrukturierte Daten handeln kann. Zu diesen Datentypen gehören unter anderem:

SQL- oder NoSQL-Server
CRM- und ERP-Systeme
JSON und XML
Flatfile-Datenbanken
E-Mail
Webseiten

Transformieren

Im Staging-Bereich werden die Rohdaten einer Datenverarbeitung unterzogen. Hier werden die Daten für den beabsichtigten analytischen Anwendungsfall transformiert und konsolidiert. Diese Phase des Transformationsprozesses kann Folgendes umfassen:

Filterung, Bereinigung, Aggregation, Entfernung von Duplikaten, Validierung und Authentifizierung der Daten. Auf diese Weise kann sichergestellt werden, dass nur korrekte und relevante Daten angezeigt werden.
Durchführen von Berechnungen, Übersetzungen oder Zusammenfassungen auf Grundlage der Rohdaten. Hierzu gehören z. B. das Ändern von Zeilen- und Spaltenüberschriften, das Umrechnen von Währungen oder anderen Maßeinheiten, das Bearbeiten von Textstrings und vieles mehr.
Durchführung von Audits zur Sicherstellung der Datenqualität und Compliance sowie Berechnung von Metriken.
Entfernen, Verschlüsseln oder Schützen von Daten, die von Branchen- oder Regierungsbehörden reguliert werden.
Formatieren der Daten in Tabellen oder verbundenen Tabellen, die dem Schema des Ziel-Data-Warehouse entsprechen.

Laden

In diesem letzten Schritt werden die transformierten Daten aus dem Staging-Bereich in ein Ziel-Data-Warehouse verschoben. In der Regel beinhaltet dies ein anfängliches Laden aller Daten, gefolgt von einem regelmäßigen Laden von inkrementellen Datenänderungen und, seltener, von vollständigen Aktualisierungen, um Daten im Warehouse zu löschen und zu ersetzen. Bei den meisten Unternehmen, die ETL verwenden, ist der Prozess automatisiert, genau definiert, kontinuierlich und stapelgesteuert. Normalerweise findet ETL außerhalb der Geschäftszeiten statt, wenn der Datenverkehr auf den Quellsystemen und im Data Warehouse am niedrigsten ist.

ETL und andere Datenintegrationsmethoden

ETL und ELT sind nur zwei Methoden der Datenintegration, und es gibt noch weitere Ansätze, die zur Erleichterung von Datenintegrations-Workflows verwendet werden. Einige davon sind:

Change Data Capture (CDC) erkennt und erfasst nur die Quelldaten, die sich geändert haben, und verschiebt diese Daten in das Zielsystem. CDC kann verwendet werden, um die während des ETL-Schrittes „Extrahieren“ benötigten Ressourcen zu reduzieren. Darüber hinaus kann es auch unabhängig davon verwendet werden, um umgewandelte Daten in Echtzeit in einen Data Lake oder ein anderes Repository zu verschieben.
Data Replication kopiert Änderungen in Datenquellen in Echtzeit oder in Batches in eine zentrale Datenbank. Data Replication wird häufig als Datenintegrationsmethode aufgeführt. Tatsächlich wird es am häufigsten zur Erstellung von Backups für die Notfallwiederherstellung verwendet.
Bei der Datenvirtualisierung wird eine Software-Abstraktionsschicht verwendet, um eine einheitliche, integrierte und vollständig nutzbare Ansicht der Daten zu erstellen, ohne dass die Quelldaten physisch in ein Zielsystem kopiert, transformiert oder geladen werden müssen. Die Funktionen der Datenvirtualisierung ermöglichen es einem Unternehmen, virtuelle Data Warehouses, Data Lakes und Data Marts aus denselben Quelldaten für die Datenspeicherung zu erstellen, ohne die Kosten und die Komplexität des Aufbaus und der Verwaltung separater Plattformen für jede einzelne. Datenvirtualisierung kann zwar neben ETL eingesetzt werden, wird aber zunehmend als Alternative zu ETL und anderen Methoden der physischen Datenintegration gesehen.
Stream Data Integration (SDI) ist genau das, wonach es sich anhört – es konsumiert kontinuierlich Datenströme in Echtzeit, transformiert sie und lädt sie zur Analyse in ein Zielsystem. Das Schlüsselwort hier ist kontinuierlich. Anstatt Momentaufnahmen von Daten zu integrieren, die zu einem bestimmten Zeitpunkt aus verschiedenen Quellen extrahiert wurden, integriert SDI die Daten kontinuierlich, sobald sie verfügbar sind. SDI ermöglicht einen Datenspeicher für Analysen, maschinelles Lernen und Echtzeitanwendungen zur Verbesserung der Customer Experience, Betrugserkennung und mehr.

Vorteile und Herausforderungen von ETL

ETL-Lösungen verbessern die Qualität, indem sie eine Datenbereinigung durchführen, bevor die Daten in ein anderes Repository geladen werden. ETL ist ein zeitaufwändiger Batch-Vorgang und wird daher eher für die Erstellung kleinerer Zieldatenspeicher empfohlen, die weniger häufig aktualisiert werden müssen. Im Gegensatz dazu werden Datenintegrationsmethoden – einschließlich ELT (Extrahieren, Laden, Transformieren), Change Data Capture (CDC) und Datenvirtualisierung – für die Integration von immer größeren Datenmengen, die sich ändern, oder von Datenströmen in Echtzeit verwendet.

ETL-Tools

In der Vergangenheit haben Unternehmen ihren eigenen ETL-Code geschrieben. Mittlerweile stehen viele Open-Source- und kommerzielle ETL-Tools und cloudbasierte Services zur Auswahl. Zu den typischen Funktionen dieser Produkte gehören:

Umfassende Automatisierung und Benutzerfreundlichkeit: Führende ETL-Tools automatisieren den gesamten Datenfluss – von Datenquellen bis hin zum Ziel-Data-Warehouse. Dies erspart Dateningenieuren die mühsame Arbeit des Verschiebens und Formatierens von Daten - für schnellere Ergebnisse und effizientere Abläufe.
Eine visuelle Drag-and-Drop-Oberfläche: Diese Funktionalität kann zum Festlegen von Regeln und Datenflüssen verwendet werden.
Unterstützung für komplexe Datenverwaltung: Dies umfasst Unterstützung bei komplexen Berechnungen, Datenintegrationen und String-Manipulationen.
Sicherheit und Compliance: Die besten ETL-Tools verschlüsseln Daten sowohl während der Übertragung als auch im Ruhezustand und sind zertifiziert, dass sie den branchenspezifischen oder behördlichen Vorschriften entsprechen, einschließlich HIPAA und GDPR.

Darüber hinaus haben sich viele ETL-Tools dahingehend entwickelt, dass sie ELT-Funktionen enthalten und die Integration von Echtzeit- und Streaming-Daten für Anwendungen der künstlichen Intelligenz (KI) unterstützen.

Die Zukunft der Integration – API mit EAI

Programmierschnittstellen (Application Programming Interfaces, APIs) unter Verwendung von Enterprise Application Integration (EAI) können anstelle von ETL für eine flexiblere, skalierbare Lösung verwendet werden, die auch die Integration von Workflows umfasst. ETL ist zwar immer noch die primäre Datenintegrationsressource, EAI wird jedoch zunehmend zusammen mit APIs in webbasierten Umgebungen verwendet.

Datenintegration für die, die in Sachen Daten führend sind

Erkunden Sie die wachsende Komplexität von Hybrid Cloud-Umgebungen zusammen mit Bausteinen für die Multicloud-Datenintegration wie Datenvirtualisierung, Replikation, Katalogisierung und Automatisierung, die dabei helfen können, den Wildwuchs einzugrenzen.

Ressourcen

2024 Gartner® Magic Quadrant™ for Data Integration Tools

IBM wurde im 2024 Gartner Magic Quadrant for Data Integration Tools zum 19. Mal in Folge als ein führender Anbieter im Bereich Datenintegrationstools genannt.

Steigerung der Akzeptanz von KI mit KI-fähigen Daten

Erfahren Sie, warum KI-gestützte Datenintelligenz und Datenintegration entscheidend sind, um die Bereitschaft für strukturierte und unstrukturierte Daten zu fördern und KI-Ergebnisse zu beschleunigen.

Das hybride, offene Data Lakehouse für KI

Entdecken Sie die Vorteile einer Data-Lakehouse-Strategie für Ihre Datenarchitektur, einschließlich der Kostenoptimierung Ihrer Workloads und der Skalierung von KI und Analysen, mit all Ihren Daten, überall.

Das Datendifferenzierungsmerkmal

Erkunden Sie den Leitfaden für Datenexperten zum Aufbau eines datengestützten Unternehmens und zur Förderung von geschäftlichen Vorteilen.

5 Gründe, warum Sie Ihre Datenintegration modernisieren sollten

Erfahren Sie mehr über die 5 wichtigsten Gründe, warum Sie Ihre Datenintegration mit IBM Cloud Pak for Data modernisieren sollten.

Gartner Prognose 2024: Wie sich KI auf Analytics-Nutzer auswirken wird

Erhalten Sie einzigartige Einblicke in die sich entwickelnde Geschäftswelt der ABI-Lösungen und hebt die wichtigsten Ergebnisse, Annahmen und Empfehlungen für Führungskräfte im Bereich Daten und Analysen hervor.

Weiterführende Lösungen

IBM DataStage

Ein modernisiertes ETL-Tool für eine vertrauenswürdige Datenpipeline auf einer cloudnativen Erkenntnisplattform.

DataStage entdecken

Lösungen zur Datenintegration

Erstellen Sie mit IBM-Datenintegrationslösungen belastbare, leistungsstarke und kostenoptimierte Datenpipelines für Ihre generativen KI-Initiativen, Echtzeitanalysen, Lagermodernisierungen und betrieblichen Anforderungen.

Datenintegrationslösungen entdecken

Beratungsservices für Daten und Analysen

Erschließen Sie den Wert von Unternehmensdaten mit IBM Consulting und bauen Sie ein erkenntnisorientiertes Unternehmen auf, das Ihnen geschäftliche Vorteile verschafft.

Analyse-Services entdecken

Machen Sie den nächsten Schritt

Entwerfen, entwickeln und führen Sie Jobs aus, die Daten verschieben und transformieren. Erleben Sie leistungsstarke automatisierte Integrationsfunktionen in einer Hybrid- oder Multicloud-Umgebung mit IBM DataStage, einem branchenführenden Datenintegrationstool.

IBM DataStage erkunden

Erkunden Sie die Datenintegrationslösungen