ETL (Extrahieren, Transformieren, Laden)
ETL ist ein Prozess, der Daten aus mehreren Quellen in ein Data-Warehouse oder ein anderes einheitliches Datenrepository extrahiert, transformiert und lädt
Schwarzer und blauer Hintergrund
Was ist ETL?

ETL steht für  Extrahieren, Transformieren und Laden  und ist ein Datenintegrationsprozess, bei dem Daten aus mehreren Datenquellen in einem einzigen, einheitlichen Datenspeicher kombiniert werden, der in ein  Data Warehouse  oder ein anderes Zielsystem geladen wird.

Als die Datenbanken in den 1970er Jahren immer beliebter wurden, wurde ETL als Verfahren zur Integration und zum Laden von Daten für Verarbeitung und Analysen eingeführt und wurde schließlich zum primären Verfahren für die Verarbeitung von Daten für Data-Warehousing-Projekte.

ETL bildet die Grundlage für Datenanalysen und maschinelle Lernprozesse. Durch eine Reihe von Geschäftsregeln bereinigt und organisiert ETL Daten in einer Weise, die spezifischen Business-Intelligence-Bedürfnissen entspricht, wie z. B. der monatlichen Berichterstattung, aber es kann auch fortgeschrittenere Analysen durchführen, die Back-End-Prozesse oder die  Endbenutzer -Errfahrung verbessern können. ETL wird häufig von Unternehmen eingesetzt, um: 

  • Daten aus  Altsystemen  zu extrahieren
  • Die Daten zu mit dem Zweck zu bereinigen, die Datenqualität zu verbessern und Konsistenz herzustellen.
  • Daten in eine  Zieldatenbank zu laden.
Mehr erfahren

Anschauen, wie man einen ETL-Job erstellt und ausführt

Bericht von Gartner "Magic Quadrant for Data Integration Tools" von 2021 lesen

Kurzbeschreibung "DataStage" von IBM lesen (169 KB)

ETL vs. ELT

Der offensichtlichste Unterschied zwischen ETL und ELT ist die unterschiedliche Reihenfolge der Operationen. ELT kopiert oder exportiert die Daten von den Quellspeichern, aber anstatt sie zur Transformation in einen Zwischenspeicherungsbereich zu laden, lädt es die Rohdaten direkt in den Zieldatenspeicher, wo sie nach Bedarf transformiert werden.

Beide Verfahren nutzen eine Vielzahl von Repositorys, wie Datenbanken, Data Warehouses und Data Lakes, und jedes Verfahren hat seine Vor- und Nachteile. ELT ist besonders nützlich für große, unstrukturierte Datensätze, da das Laden direkt aus der Quelle erfolgen kann. ELT eignet sich besser für Big Data-Management, da die Datenextraktion- und Speicherung nicht im Voraus geplant werden muss. Der ETL-Prozess hingegen erfordert zu Beginn mehr Definition. Spezifische Datenpunkte müssen für die Extraktion identifiziert werden, zusammen mit potenziellen "Schlüsseln" für die Integration über unterschiedliche Quellsysteme hinweg. Selbst wenn diese Arbeit abgeschlossen ist, müssen die Geschäftsregeln für die Datentransformation erstellt werden. Diese Arbeit kann in der Regel von den Datenanforderungen für einen bestimmten Typ der Datenanalyse abhängen, die die erforderliche Stufe der Auswertung der Daten bestimmen. Obwohl ELT mit der Einführung von Cloud-Datenbanken immer beliebter geworden ist, hat es seine eigenen Nachteile, da es sich um ein neueres Verfahren handelt, was bedeutet, dass die besten Praktiken noch in der Entwicklung sind.

So funktioniert ETL

Am einfachsten lässt sich die Funktionsweise von ETL verstehen, wenn man weiß, was in den einzelnen Schritten des Prozesses geschieht.

Extrahieren

Bei der Datenextraktion werden die Daten von den Quellpositionen in einen Zwischenspeicherungsbereich kopiert oder exportiert. Datenmanagementteams können Daten aus einer Vielzahl von Datenquellen extrahieren, die strukturiert oder unstrukturiert sein können. Zu diesen Quellen gehören unter anderem:

  • SQL- oder NoSQL -Server
  • CRM- und ERP-Systeme
  • Flat Files
  • E-Mail
  • Webseiten

Transformieren

Im Zwischenspeicherungsbereich werden die Rohdaten einer Datenverarbeitung unterzogen. Hier werden die Daten transformiert und für den vorgesehenen analytischen Anwendungsfall konsolidiert. Diese Phase kann die folgenden Aufgaben umfassen:

  • Filtern, Bereinigen, Entdoppeln, Validieren und Authentifizieren der Daten.
  • Durchführen von Berechnungen, Konversionen oder Summierungen auf Basis der Rohdaten. Dazu gehören das  Ändern von Zeilen- und Spaltenüberschriften aus Gründen der Konsistenz, das Umrechnen von Währungen oder anderen Maßeinheiten, das Bearbeiten von Textzeichenfolgen und vieles mehr.
  • Durchführung von Audits zur Sicherstellung der Datenqualität und der Einhaltung der Vorschriften.
  • Entfernen, Verschlüsseln oder Schützen von Daten, die von branchenspezifischen oder staatlichen Aufsichtsbehörden geregelt werden
  • Formatierung der Daten in Tabellen oder verbundenen Tabellen, die dem Schema des Ziel-Data-Warehouses entsprechen.

Laden

In diesem letzten Schritt werden die transformierten Daten aus dem Zwischenspeicherungsbereich in ein Ziel-Data Warehouse verschoben. Dies umfasst in der Regel ein anfängliches Laden aller Daten, gefolgt von einem regelmäßigen Laden inkrementeller Datenänderungen und, seltener, vollständige Aktualisierungen, um Daten im Lager zu löschen und auszutauschen. In den meisten Unternehmen, die ETL verwenden, ist der Prozess automatisiert, eindeutig definiert, zusammenhängend und Batch-gesteuert. Normalerweise findet ETL außerhalb der Geschäftszeiten statt, wenn der Datenverkehr auf den Quellsystemen und im Data Warehouse am geringsten ist.

ETL und andere Datenintegrationsmethoden

ETL und ELT sind nur zwei Methoden der Datenintegration, und es gibt noch weitere Ansätze, die zur Erleichterung der Datenintegrationsabläufe verwendet werden. Einige dieser schließen ein:

  • Change Data Capture (CDC) identifiziert und erfasst nur die Quelldaten, die sich geändert haben, und überträgt diese Daten in das Zielsystem. CDC kann verwendet werden, um die während des ETL-Extraktionsschritts erforderlichen Ressourcen zu reduzieren; es kann auch unabhängig davon verwendet werden, um transformierte Daten in Echtzeit in einen Data Lake oder ein anderes Repository zu verschieben.
  • Datenreplikation  kopiert Änderungen in Datenquellen in Echtzeit oder in Batches in eine zentrale Datenbank. Datenreplikation  wird häufig als Datenintegrationsmethode aufgelistet. Tatsächlich wird sie am häufigsten zur Erstellung von Sicherungskopien für die  Notfallwiederherstellung verwendet.
  • Datenvirtualisierung verwendet eine Software-Abstraktionsschicht, um eine einheitliche, integrierte und vollständig nutzbare  Ansicht  der Daten zu erstellen, ohne die Quelldaten physisch in ein Zielsystem zu kopieren, zu transformieren oder zu laden. Die Datenvirtualisierungs -Funktion ermöglicht es einem Unternehmen, virtuelle Data Warehouses, Data Lakes und Data Marts aus denselben Quelldaten für die Datenspeicherung zu erstellen, ohne die Kosten und die Komplexität des Aufbaus und der Verwaltung separater Plattformen für jede einzelne. Datenvirtualisierung kann zwar neben ETL eingesetzt werden, wird aber zunehmend als Alternative zu ETL und anderen Methoden der physischen Datenintegration gesehen.
  • Stream Data Integration (SDI) ist genau das, wonach es klingt: Es werden kontinuierlich Datenströme in Echtzeit erfasst, transformiert und zur Analyse in ein Zielsystem geladen. Das Schlüsselwort hier ist  kontinuierlich. Anstatt Momentaufnahmen von Daten zu integrieren, die zu einem bestimmten Zeitpunkt aus Quellen extrahiert wurden, integriert SDI die Daten kontinuierlich, sobald sie verfügbar sind. SDI ermöglicht einen Datenspeicher für Analysen, maschinelles Lernen und Echtzeitanwendungen zur Verbesserung des Kundenerlebnisses, der Betrugserkennung und mehr. 
Die Vorteile und Herausforderungen von ETL

ETL-Lösungen verbessern die Qualität, indem sie eine Datenbereinigung durchführen, bevor die Daten in ein anderes Repository geladen werden. ETL ist eine zeitaufwändige Stapelverarbeitungsoperation und wird eher für die Erstellung kleinerer Zieldaten-Repositorys empfohlen, die weniger häufig aktualisiert werden müssen, während andere Datenintegrationsmethoden - einschließlich ELT (Extrahieren, Laden, Transformieren), Änderungsdatenerfassung (CDC) und Datenvirtualisierung - für die Integration immer größerer Datenmengen, die sich ändern, oder für Datenströme in Echtzeit verwendet werden.

 

Mehr zur Datenintegration erfahren
ETL-Tools

In der Vergangenheit schrieben die Unternehmen ihren eigenen ETL-Code. Es gibt inzwischen viele Open-Source- und kommerzielle ETL-Tools und Cloud-Services, aus denen man wählen kann. Zu den typischen Funktionen dieser Produkte gehören die folgenden:

  • Umfassende Automation und Bedienungskomfort: Führende ETL-Tools automatisieren den gesamten Datenfluss, von den Datenquellen bis zum Ziel-Data Warehouse. Viele Tools empfehlen Regeln zum Extrahieren, Transformieren und Laden der Daten.
  • Eine grafisch orientierte Drag-and-drop-Schnittstelle:  Diese Funktion kann zum Festlegen von Regeln und Datenflüssen verwendet werden.
  • Unterstützung für komplexes Datenmanagement: Dazu gehört die Unterstützung bei komplexen Berechnungen, Datenintegrationen und Zeichenfolgemanipulationen.
  • Sicherheit und Einhaltung von Vorschriften : Die besten ETL-Tools verschlüsseln Daten sowohl bei der Übertragung als auch im Ruhezustand und sind für die Einhaltung von Branchen- und Regierungsvorschriften wie HIPAA und GDPR zertifiziert.

Darüber hinaus haben sich viele ETL-Tools weiterentwickelt und bieten nun auch ELT-Funktionen und unterstützen die  Integration von Echtzeit- und Streaming-Daten für Anwendungen der künstlichen Intelligenz (KI).

Die Zukunft der Integration - API  mit EAI

Anwendungsprogrammier-Schnittstellen (APIs) mit Enterprise Application Integration (EAI) können anstelle von ETL verwendet werden, um eine flexiblere, skalierbare Lösung mit  Workflow -Integration zu erhalten. Während ETL nach wie vor die primäre  Datenintegrations -Ressource ist, wird EAI zunehmend mit  APIs  in webbasierten Umgebungen eingesetzt.

Relevante Lösungen
IBM Cloud Pak for Data

IBM Cloud Pak for Data ist eine offene, erweiterbare Datenplattform, die ein Data Fabric zur Verfügung stellt, um alle Daten für KI und Analytics in jeder Cloud verfügbar zu machen.

IBM Cloud Pak for Data kennenlernen
IBM DataOps

KI erschließt den Nutzen Ihrer Daten auf neue Weise. Organisieren Sie Ihre Daten, um sie mit DataOps-Lösungen für KI und Multicloud vorzubereiten.

Mehr zu IBM DataOps
Datenintegration

Die Datenintegration ermöglicht es Ihnen, strukturierte und unstrukturierte Daten zu transformieren und jedem beliebigen System auf einer skalierbaren Big-Data-Plattform bereitzustellen.

Erkunden Sie die Datenintegration
Ressourcen Hive als Tool für ETL oder ELT
Extrahieren, Transformieren und Laden ODER Extrahieren, Transformieren und Laden
ELT vs. ETL: Was ist der Unterschied?
Lernen Sie die Gemeinsamkeiten und Unterschiede in den Definitionen, Vorteilen und Anwendungsfällen von ELT und ETL kennen.
Making Data Simple (Daten einfach machen): Al Martin und Michel Tricot diskutieren technisches ELT vs. ETL, Airbyte und Unternehmertum
Making Data Simple (Daten einfach machen) wird von Al Martin, VP, IBM Expert Services Delivery, gehostet und bietet die neuesten Überlegungen zu Big Data, KI und den Auswirkungen auf das Unternehmen von einer Reihe Fachleuten.
Machen Sie den nächsten Schritt

IBM bietet verschiedene Services und Lösungen zur Datenintegration an, die eine einsatzbereite Datenpipeline unterstützen und Ihrem Unternehmen die Tools an die Hand geben, die es für eine effiziente Skalierung benötigt. IBM, ein führendes Unternehmen im Bereich der Datenintegration, gibt Unternehmen die Sicherheit, die sie bei der Verwaltung von Big-Data-Projekten, -Anwendungen und Technologien für maschinelles Lernen benötigen. Mit branchenführenden Plattformen wie IBM Cloud Pak® for Data können Unternehmen ihre DataOps-Prozesse modernisieren und gleichzeitig erstklassige Virtualisierungstools nutzen, um die Verarbeitungsgeschwindigkeit und Skalierbarkeit zu erreichen, die ihr Unternehmen jetzt und in Zukunft benötigt.

IBM® Cloud Pak for Data ansehen