ETL (Extrahieren, Transformieren, Laden)

menu icon

ETL (Extrahieren, Transformieren, Laden)

ETL ist ein Prozess, bei dem Daten aus verschiedenen Quellen extrahiert, transformiert und in ein Data Warehouse oder ein anderes einheitliches Datenrepository geladen werden.

Was ist ETL?

ETL, die Abkürzung für Extrahieren, Transformieren und Laden, ist ein Datenintegrationsprozess, der Daten aus mehreren Datenquellen in einem einzigen, konsistenten Datenspeicher zusammenführt, der in ein Data Warehouse oder ein anderes Zielsystem geladen wird.

Als die Datenbanken in den 1970er Jahren immer beliebter wurden, wurde ETL als Verfahren zur Integration und zum Laden von Daten für Berechnungen und Analysen eingeführt und schließlich zur Hauptmethode zur Verarbeitung von Daten für Data-Warehousing-Projekte.

ETL bildet die Basis für Datenanalysen und maschinelles Lernen. Mithilfe einer Reihe von Geschäftsregeln bereinigt und organisiert ETL Daten in einer Weise, die spezifische Business-Intelligence-Anforderungen erfüllt, wie z. B. monatliche Berichte, aber auch fortgeschrittenere Analysen, die Back-End-Prozesse oder die Erfahrungen der Endbenutzer verbessern können. ETL wird von Unternehmen häufig eingesetzt, um: 

  •  Daten aus Altsystemen zu extrahieren
  • Daten zu bereinigen, um die Datenqualität zu verbessern und Konsistenz herzustellen
  • Daten in eine Zieldatenbank
  • zu laden

ETL versus ELT

Der offensichtlichste Unterschied zwischen ETL und ELT ist die unterschiedliche Reihenfolge der Abläufe. ELT kopiert oder exportiert die Daten von den Quellspeichern, aber anstatt sie zur Transformation in einen Staging-Bereich zu laden, lädt es die Rohdaten direkt in den Zieldatenspeicher, um sie nach Bedarf zu transformieren.

Beide Verfahren nutzen eine Vielzahl von Datenspeichern, wie z. B. Datenbanken, Data Warehouses und Data Lakes, und jedes Verfahren hat seine Vor- und Nachteile. ELT ist besonders nützlich bei großen, unstrukturierten Datensätzen, da das Laden direkt an der Quelle erfolgen kann. ELT eignet sich besser zur Verwaltung großer Datenmengen, da die Datenextraktion und -speicherung nicht im Voraus geplant werden muss. Der ETL-Prozess hingegen erfordert zu Beginn mehr Definition. Es müssen spezifische Datenpunkte zur Extraktion identifiziert werden, zusammen mit potenziellen „Schlüsseln“ zur Integration in heterogene Quellsysteme. Selbst nach Abschluss dieser Tätigkeiten müssen die Geschäftsregeln für die Datenkonvertierung erstellt werden. Das kann in der Regel von den Datenanforderungen für eine bestimmte Art der Datenanalyse abhängen, die den Verdichtungsgrad der Daten bestimmen. Obwohl ELT mit der Einführung cloudbasierter Datenbanken immer beliebter geworden ist, hat es eigenen Nachteile, da es sich um ein neueres Verfahren handelt, was bedeutet, dass sich bewährte Methoden erst noch etablieren müssen.

So funktioniert ETL

Die Funktionsweise von ETL erschließt sich am einfachsten darüber, was in den einzelnen Schritten des Prozesses passiert.

Extrahieren

Die Funktionsweise von ETL erschließt sich am einfachsten darüber, was in den einzelnen Schritten des Prozesses passiert. Datenverwaltungsteams können Daten aus einer Vielzahl von Quellen extrahieren, ob strukturiert oder unstrukturiert. Diese Quellen umfassen unter anderem:

  • SQL- oder NoSQL- Server
  • CRM- und ERP-Systeme
  • Unstrukturierte Dateien
  • E-Mails
  • Webseiten

Transformieren

Im Staging-Bereich werden die Rohdaten verarbeitet. Sie werden transformiert und für den beabsichtigten analytischen Anwendungsfall konsolidiert. Diese Phase kann die folgenden Aufgaben umfassen:

  • Filtern, Bereinigen, Entfernen von Duplikaten, Validieren und Authentifizieren der Daten.
  • Durchführung von Berechnungen, Übersetzungen oder Zusammenfassungen auf Basis der Rohdaten. Dazu gehören das  Ändern von Zeilen- und Spaltenüberschriften aus Gründen der Konsistenz, das Konvertieren von Währungen oder anderen Maßeinheiten, das Bearbeiten von Textzeichenfolgen und vieles mehr.
  • Durchführung von Audits zur Sicherstellung von Datenqualität und Compliance
  • Entfernen, Verschlüsseln oder Schützen von Daten, die branchenabhängig oder behördlich geregelt sind
  • Formatierung der Daten in Tabellen oder Join-Tabellen, die dem Schema des Ziel-Data-Warehouse entsprechen.

Laden

In diesem letzten Schritt werden die transformierten Daten aus dem Staging-Bereich in ein Ziel-Data-Warehouse verschoben. Dies beinhaltet in der Regel ein anfängliches Laden aller Daten, gefolgt von einem regelmäßigen Laden inkrementeller Datenänderungen und, seltener, einer vollständigen Aktualisierung, um Daten im Warehouse zu löschen und zu ersetzen. Bei den meisten Unternehmen, die ETL verwenden, ist der Prozess automatisiert, klar strukturiert, unterbrechungsfrei und batchgesteuert. Normalerweise findet ETL außerhalb der Geschäftszeiten statt, wenn der Datenverkehr auf den Quellsystemen und im Data Warehouse am geringsten ist.

ETL und andere Datenintegrationsmethoden

ETL und ELT sind nur zwei Methoden der Datenintegration. Es gibt noch weitere zur Vereinfachung der Integrationsabläufe verwendete Ansätze. Hier eine Auswahl:

  • Change Data Capture (CDC) identifiziert und erfasst nur die sich geänderten Quelldaten und überträgt sie in das Zielsystem. CDC benötigt weniger Ressourcen für das „Extrahieren“ während des ETL-Schrittes. Es kann auch unabhängig davon verwendet werden, um umgewandelte Daten in Echtzeit in einen Data Lake oder ein anderes Repository zu verschieben.
  • Bei der Datenreplikation werden Änderungen in Datenquellen in Echtzeit oder batchweise in eine zentrale Datenbank kopiert. Die Datenreplikation wird oft als Datenintegrationsmethode bezeichnet. Tatsächlich wird sie am häufigsten zur Erstellung von Backups bei der Disaster Recoveryverwendet.
  • Bei der Datenvirtualisierung wird eine Software-Abstraktionsschicht verwendet, um eine einheitliche, integrierte und vollständig nutzbare Ansicht der Daten zu erstellen – ohne die Quelldaten physisch in ein Zielsystem zu kopieren, umzuwandeln oder zu laden. Mit der Datenvirtualisierung kann ein Unternehmen virtuelle Data Warehouses, Data Lakes und Data Marts aus denselben Quelldaten zur Datenspeicherung erstellen, ohne aufwändig und teuer separate Plattformen für jede einzelne erstellen und verwalten zu müssen. Datenvirtualisierung kann zwar neben ETL eingesetzt werden, wird aber zunehmend als Alternative zu ETL und anderen Methoden der physischen Datenintegration gesehen.
  • Stream Data Integration (SDI) ist genau das, wonach es klingt – es liest unterbrechungsfrei Datenströme in Echtzeit ein, transformiert sie und lädt sie zur Analyse in ein Zielsystem. Das Schlüsselwort hier ist unterbrechungsfrei. Anstatt Momentaufnahmen von Daten zu integrieren, die zu einem bestimmten Zeitpunkt aus den Quellen extrahiert wurden, integriert SDI die Daten kontinuierlich, sobald sie verfügbar sind. SDI ermöglicht einen Datenspeicher für Analysen, maschinelles Lernen und Echtzeitanwendungen, um Nutzungskomfort, Betrugserkennung und mehr zu verbessern.  

Die Vorteile und Herausforderungen von ETL

ETL-Lösungen verbessern die Qualität durch Datenbereinigung, bevor die Daten in ein anderes Repository geladen werden. ETL ist ein zeitaufwändiger Batch-Vorgang und wird häufiger zur Erstellung kleinerer Zieldatenbestände empfohlen, die weniger häufig aktualisiert werden müssen. Andere Datenintegrationsmethoden hingegen ­– einschließlich ELT (Extrahieren, Laden, Transformieren), Änderungsdatenerfassung (CDC) und Datenvirtualisierung – eignen sich zur Integration immer größerer, sich ändernder Datenmengen, oder für Datenströme in Echtzeit.

Erfahren Sie mehr über Datenintegration.

ETL-Tools

Früher haben Unternehmen eigenen ETL-Code geschrieben. Mittlerweile stehen viele Open-Source- und kommerzielle ETL-Tools sowie Cloud-Services zur Auswahl. Typische Funktionen dieser Produkte sind:

  • Umfassende Automatisierung und Benutzerfreundlichkeit: Führende ETL-Tools automatisieren den gesamten Datenfluss, von den Datenquellen bis zum Ziel-Data-Warehouse. Viele Tools empfehlen Regeln zum Extrahieren, Transformieren und Laden der Daten.
  • Eine visuelle Drag-and-Drop-Oberfläche: Diese Funktion kann zur Festlegung von Regeln und Datenflüssen verwendet werden.
  • Unterstützung bei komplexer Datenverwaltung: Dazu gehört Hilfe bei komplexen Berechnungen, Datenintegrationen und Zeichenfolge-Manipulationen.
  • Sicherheit und Compliance: Die besten ETL-Tools verschlüsseln Daten sowohl bei der Übertragung als auch am Speicherort und sind zur Einhaltung branchenspezifischer und behördlicher Vorschriften wie HIPAA und DSGVO zertifiziert.

Darüber hinaus haben sich viele ETL-Tools dahingehend entwickelt, dass sie ELT-Funktionen enthalten und die Integration von Echtzeit- und Streaming-Daten für Anwendungen der künstlichen Intelligenz (KI) unterstützen.

Die Zukunft der Integration – API mit EAI

Anwendungsprogrammierschnittstellen (APIs) unter Verwendung von Enterprise Application Integration (EAI) können anstelle von ETL als flexiblere, skalierbare Lösung verwendet werden, die auch die Workflow -Integration umfasst. ETL ist zwar immer noch die wichtigste Ressource für die Datenintegration , aber EAI wird zunehmend mit APIs in webbasierten Umgebungen eingesetzt.

alsETL, Datenintegration und IBM Cloud®

IBM bietet verschiedene Datenintegrationstools und -services an, die eine geschäftsfähige Datenpipeline unterstützen und Ihrem Unternehmen die Werkzeuge an die Hand geben, die es zur effizienten Skalierung benötigt.

IBM, ein führendes Unternehmen im Bereich der Datenintegration, gibt Firmen das Vertrauen, das sie bei der Verwaltung von Big-Data-Projekten, SaaS-Anwendungen und Technologien für maschinelles Lernen benötigen. Mit branchenführenden Plattformen wie IBM Cloud Pak® for Datakönnen Unternehmen ihre DataOps -Prozesse modernisieren und dabei erstklassige Virtualisierungstools nutzen, um die jetzt und in Zukunft benötigte Geschwindigkeit und Skalierbarkeit zu erreichen.

Weitere Informationen darüber, wie Ihr Unternehmen eine effektive Datenintegrationsstrategie aufbauen und umsetzen kann, finden Sie in den IBM-Angeboten zur Datenintegration.

Melden Sie sich für eine IBMid an und erstellen Sie Ihr IBM-Cloud-Konto.

Ressourcen

FlightSafety International

Blick auf die Berge aus einem Flugzeug-Cockpit beim Flug

FlightSafety International arbeitete mit IBM Garage™ an der Entwicklung von FlightSmart zusammen, einer adaptive Lerntechnologie zur Integration in Flugsimulatoren.

Fallstudie lesen →