Power the agentic enterprise Think-Keynote ansehen

Was ist ETL (Extrahieren, Transformieren, Laden)?

Was ist ETL?

ETL – kurz für „Extrahieren, Transformieren, Laden“ – ist ein Datenintegrationsprozess, bei dem Daten aus verschiedenen Quellen zusammengeführt, bereinigt und zu einem einzigen, konsistenten Datensatz organisiert werden. Anschließend werden diese Daten in ein Data Warehouse, einen Data Lake oder ein anderes Zielsystem geladen.

ETL-Datenpipelines bilden die Grundlage für die Arbeitsabläufe in den Bereichen Datenanalyse und maschinelles Lernen. Mithilfe einer Reihe von Business Rules bereinigt und organisiert ETL Daten, um spezifische Business-Intelligence-Anforderungen zu erfüllen, wie beispielsweise monatliche Berichte. Darüber hinaus kann ETL auch komplexere Analysen durchführen, die zur Optimierung von Backend-Prozessen und zur Verbesserung der Benutzererfahrung beitragen können. ETL-Pipelines werden von Unternehmen häufig verwendet, um:

  • Daten aus Altlast-Systemen zu extrahieren

  • Daten zu bereinigen, um die Datenqualität zu verbessern und Konsistenz herzustellen

  • Daten in eine Zieldatenbank zu laden

Wie sich ETL entwickelt hat

Seit dem Zeitalter des Abakus generieren Unternehmen Daten, aber die moderne Analyse wurde erst mit der Einführung des digitalen Computers und der Datenspeicherung möglich.

Ein großer Fortschritt wurde in den 1970er Jahren mit der Umstellung auf größere zentralisierte Datenbanken erzielt. ETL wurde dann als Prozess zur Integration und zum Laden von Daten für Berechnungen und Analysen eingeführt und wurde schließlich zur Hauptmethode für die Verarbeitung von Daten für Data-Warehousing-Projekte.

In den späten 1980er Jahren gewannen Data Warehouses und der Übergang von transaktionalen Datenbanken zu relationalen Datenbanken, die die Informationen in relationalen Datenformaten speicherten, zunehmend an Beliebtheit. In älteren Transaktionsdatenbanken wurden die Informationen transaktionsweise gespeichert, wobei mit jeder Transaktion doppelte Kundeninformationen gespeichert wurden, sodass es keine einfache Möglichkeit gab, über einen längeren Zeitraum hinweg einheitlich auf Kundendaten zuzugreifen. Mit relationalen Datenbanken wurde die Analyse zur Grundlage von Business Intelligence (BI) und zu einem wichtigen Tool in der Entscheidungsfindung.

Bis zur Einführung anspruchsvollerer ETL-Software waren die ersten Versuche größtenteils manuelle Anstrengungen des IT-Teams, Daten aus verschiedenen Systemen und Konnektoren zu extrahieren. Anschließend wurden die Daten in ein einheitliches Format umgewandelt und in miteinander verknüpfte Tabellen geladen. Dennoch lohnten sich die frühen ETL-Schritte, da fortschrittliche Algorithmen und der Aufstieg neuronaler Netze immer tiefere Möglichkeiten für analytische Erkenntnisse eröffneten.

Das Zeitalter von Big Data begann in den 1990er Jahren, als die Rechengeschwindigkeit und die Speicherkapazität immer weiter zunahmen. Große Datenmengen wurden dann aus neuen Quellen wie sozialen Medien und dem Internet der Dinge (IoT) bezogen. Ein einschränkender Faktor blieb jedoch bestehen, da die Daten häufig in lokalen Data Warehouses gespeichert waren.

Der nächste große Schritt sowohl in der Datenverarbeitung als auch im ETL-Bereich war das Cloud Computing, das Ende der 1990er Jahre populär wurde. Mit Data Warehouses wie Amazon Web Services (AWS), Microsoft Azure und Snowflake können Daten nun von überall auf der Welt abgerufen werden. Diese Plattformen sind zudem schnell skalierbar, sodass ETL-Lösungen bemerkenswert detaillierte Erkenntnisse und neue Wettbewerbsvorteile liefern können.

Die neueste Entwicklung sind ETL-Lösungen durch Streaming-Daten, um sekundaktuelle Erkenntnisse aus riesigen Datenmengen zu liefern.

AI Academy

Ist Datenverwaltung das Geheimnis generativer KI?

Erfahren Sie, warum qualitativ hochwertige Daten für den erfolgreichen Einsatz generativer KI unerlässlich sind.

ETL versus ELT

Der offensichtlichste Unterschied zwischen ETL und ELT – extrahieren, laden, transformieren – liegt in der in der Reihenfolge der Vorgänge. ELT kopiert oder exportiert die Daten von den Quellspeichern, aber anstatt sie zur Transformation in einen Staging-Bereich zu laden, lädt es die Rohdaten direkt in den Zieldatenspeicher, um sie nach Bedarf zu transformieren.

Beide Prozesse verwenden zwar verschiedene Datenspeicher, wie Datenbanken, Data Warehouse und Data Lake, aber jeder Prozess hat seine Vor- und Nachteile. ELT ist nützlich für die Verarbeitung großer, unstrukturierter Datensätze, da das Laden direkt aus der Quelle erfolgen kann. ELT kann für die Datenverwaltung idealer sein, da es nicht viel Vorabplanung für Datenextraktion und Speicher erfordert.

Der ETL-Prozess erfordert von Anfang an eine klarere Definition. Es müssen spezifische Datenpunkte für die Extraktion identifiziert werden, zusammen mit potenziellen „Schlüsseln“ für die Integration über verteilte Quellsysteme hinweg. Die Quelle der Eingabedaten wird häufig mithilfe von Metadaten nachverfolgt. Auch nach Abschluss dieser Arbeit müssen die Business Rules für Datenkonvertierungen erstellt werden.

Diese Arbeit hängt in der Regel von den Datenanforderungen für eine bestimmte Art der Datenanalyse ab, die den Grad der Verdichtung der Daten bestimmen.

Während ELT-Pipelines mit der Einführung von Cloud-Datenbanken immer beliebter geworden sind, ist die ELT-Technologie immer noch ein Entwicklungsprozess. Und das wiederum bedeutet, dass sich Best Practices noch in der Entwicklung befinden.

So funktioniert ETL

Am einfachsten lässt sich die Funktionsweise von ETL verstehen, wenn Sie wissen, was in den einzelnen Schritten des Prozesses geschieht.

Extrahieren

Bei der Datenextraktion werden Rohdaten von den Quellorten in einen Zwischenbereich kopiert oder exportiert. Datenverwaltungsteams können Daten aus verschiedenen Quellen extrahieren, die sowohl strukturiert als auch unstrukturiert sein können. Zu diesen Datentypen gehören unter anderem:

  • SQL- oder NoSQL-Server
  • CRM- und ERP-Systeme
  • JSON und XML
  • Flatfile-Datenbanken
  • E-Mail
  • Webseiten

Transformieren

Im Staging-Bereich werden die Rohdaten einer Datenverarbeitung unterzogen. Hier werden die Daten für den beabsichtigten analytischen Anwendungsfall transformiert und konsolidiert. Diese Phase des Transformationsprozesses kann Folgendes umfassen:

  • Filterung, Bereinigung, Aggregation, Entfernung von Duplikaten, Validierung und Authentifizierung der Daten. Auf diese Weise kann sichergestellt werden, dass nur korrekte und relevante Daten angezeigt werden.
  • Durchführen von Berechnungen, Übersetzungen oder Zusammenfassungen auf Grundlage der Rohdaten. Hierzu gehören z. B. das Ändern von Zeilen- und Spaltenüberschriften, das Umrechnen von Währungen oder anderen Maßeinheiten, das Bearbeiten von Textstrings und vieles mehr.
  • Durchführung von Audits zur Sicherstellung der Datenqualität und Compliance sowie Berechnung von Metriken.
  • Entfernen, Verschlüsseln oder Schützen von Daten, die von Branchen- oder Regierungsbehörden reguliert werden.
  • Formatieren der Daten in Tabellen oder verbundenen Tabellen, die dem Schema des Ziel-Data-Warehouse entsprechen.

Laden

In diesem letzten Schritt werden die transformierten Daten aus dem Staging-Bereich in ein Ziel-Data-Warehouse verschoben. In der Regel beinhaltet dieser Prozess ein anfängliches Laden aller Daten, gefolgt von einem regelmäßigen Laden von inkrementellen Datenänderungen und, seltener, von vollständigen Aktualisierungen, um Daten im Warehouse zu löschen und zu ersetzen.

Bei den meisten Unternehmen, die ETL verwenden, ist der Prozess automatisiert, genau definiert, kontinuierlich und stapelgesteuert. Normalerweise findet ETL außerhalb der Geschäftszeiten statt, wenn der Datenverkehr auf den Quellsystemen und im Data Warehouse am niedrigsten ist.

ETL und andere Datenintegrationsmethoden

ETL und ELT sind nur zwei Methoden der Datenintegration; es gibt noch weitere Ansätze, die ebenfalls zur Erleichterung von Datenintegrations-Workflows verwendet werden. Zu diesen Methoden gehören unter anderem:

  • Change Data Capture (CDC) erkennt und erfasst nur die Quelldaten, die sich geändert haben, und verschiebt diese Daten in das Zielsystem. CDC kann verwendet werden, um die während des ETL-Schrittes „Extrahieren“ benötigten Ressourcen zu reduzieren. Es kann auch unabhängig davon verwendet werden, um umgewandelte Daten in Echtzeit in einen Data Lake oder ein anderes Repository zu verschieben.

  • Data Replication kopiert Änderungen in Datenquellen in Echtzeit oder in Batches in eine zentrale Datenbank. Data Replication wird häufig als Datenintegrationsmethode aufgeführt. Tatsächlich wird es am häufigsten zur Erstellung von Backups für die Notfallwiederherstellung verwendet.
  • Bei der Datenvirtualisierung wird eine Software-Abstraktionsschicht verwendet, um eine einheitliche, integrierte und vollständig nutzbare Ansicht der Daten zu erstellen, ohne dass die Quelldaten physisch in ein Zielsystem kopiert, transformiert oder geladen werden müssen. Mithilfe von Datenvirtualisierungsfunktionen kann ein Unternehmen aus denselben Quelldaten virtuelle Data Warehouses, Data Lakes und Data Marts zur Speicherung erstellen. Dieser Ansatz vermeidet den Aufwand und die Komplexität, die mit dem Aufbau und der Verwaltung separater Plattformen für jeden einzelnen Zweck verbunden sind. Datenvirtualisierung kann zwar neben ETL eingesetzt werden, wird aber zunehmend als Alternative zu ETL und anderen Methoden der physischen Datenintegration gesehen.

  • Stream Data Integration (SDI) ist genau das, wonach es sich anhört – es konsumiert kontinuierlich Datenströme in Echtzeit, transformiert sie und lädt sie zur Analyse in ein Zielsystem. Das Schlüsselwort hier ist kontinuierlich. Anstatt Datensnapshots zu einem bestimmten Zeitpunkt zu integrieren, integriert SDI ständig Daten. Es verarbeitet Informationen, sobald sie verfügbar sind. SDI ermöglicht einen Datenspeicher für Analysen, maschinelles Lernen und Echtzeitanwendungen zur Verbesserung der Customer Experience, Betrugserkennung und mehr.

Vorteile und Herausforderungen von ETL

ETL-Lösungen verbessern die Qualität, indem sie eine Datenbereinigung durchführen, bevor die Daten in ein anderes Repository geladen werden. ETL ist ein zeitaufwändiger Batch-Vorgang und wird daher eher für die Erstellung kleinerer Zieldatenspeicher empfohlen, die weniger häufig aktualisiert werden müssen. Im Gegensatz dazu werden Datenintegrationsmethoden – einschließlich ELT (Extrahieren, Laden, Transformieren), Change Data Capture (CDC) und Datenvirtualisierung – für die Integration von immer größeren Datenmengen, die sich ändern, oder von Datenströmen in Echtzeit verwendet.

ETL-Tools

In der Vergangenheit haben Unternehmen ihren eigenen ETL-Code geschrieben. Mittlerweile stehen viele Open-Source- und kommerzielle ETL-Tools und cloudbasierte Services zur Auswahl. Zu den typischen Funktionen dieser Produkte gehören:

  • Umfassende Automatisierung und Benutzerfreundlichkeit: Führende ETL-Tools automatisieren den gesamten Datenfluss – von Datenquellen bis hin zum Ziel-Data-Warehouse. Dies erspart Dateningenieuren die mühsame Arbeit des Verschiebens und Formatierens von Daten – für schnellere Ergebnisse und effizientere Abläufe.

  • Eine visuelle Drag-and-Drop-Oberfläche: Diese Funktionalität kann zum Festlegen von Regeln und Datenflüssen verwendet werden.

  • Unterstützung für komplexe Datenverwaltung: Diese Funktion umfasst Unterstützung bei komplexen Berechnungen, Datenintegrationen und String-Manipulationen.

  • Sicherheit und Compliance: Die besten ETL-Tools verschlüsseln Daten sowohl während der Übertragung als auch im Ruhezustand und sind gemäß Branchen- oder behördlichen Vorschriften zertifiziert, darunter HIPAA und DSGVO.

Darüber hinaus haben sich viele ETL-Tools dahingehend entwickelt, dass sie ELT-Funktionen enthalten und die Integration von Echtzeit- und Streaming-Daten für Anwendungen der künstlichen Intelligenz (KI) unterstützen.

Häufig gestellte Fragen zu ETL

Was ist ein Staging-Bereich?

Ein Staging-Bereich ist ein temporärer Speicherort zwischen Datenquellen und einem Zielort (z. B. einem Data Warehouse), der zur vorübergehenden Speicherung von Rohdaten dient. Er fungiert als „Laderampe“, an der Rohdaten bereinigt, geprüft und transformiert werden, bevor sie an den Zielort weitergeleitet werden.

Was ist der Unterschied zwischen anfänglichem und inkrementellem Laden?

Beim ersten Laden werden historische Daten aus einer Datenquelle zum ersten Mal extrahiert und in ein Zielsystem geladen. Dies umfasst den gesamten Datensatz und wird einmalig zu Beginn eines Projekts durchgeführt. Der inkrementelle Ladevorgang bezeichnet das Laden nur der Daten, die seit dem letzten Ladevorgang neu hinzugefügt, geändert oder gelöscht wurden. Diese Prozesse werden nach einem festgelegten Zeitplan ausgeführt.

Was sind Slowly Changing Dimensions (SCD)?

Dieser Begriff ist etwas mehrdeutig und wird auf zwei verschiedene Arten verwendet. Der Begriff Slowly Changing Dimensions („sich langsam verändernde Dimensionen“) bezieht sich auf Dimensionstabellen in einem Data Warehouse, die sich im Laufe der Zeit sporadisch ändern, anstatt einem festen Zeitplan zu folgen. Ein häufig genanntes Beispiel ist eine Kundenadresse. Der Begriff wird auch verwendet, um die Methoden und Techniken zu bezeichnen, die zur Handhabung und Verfolgung von Änderungen in Dimensionsdaten im Laufe der Zeit eingesetzt werden.

Wie gehe ich mit doppelten Daten um?

Um mit doppelten Daten umzugehen, sollten Unternehmen einen Prozess zur systematischen Identifizierung doppelter Daten und deren Typ, klare Regeln für das Entfernen oder Zusammenführen doppelter Daten und Leitplanken zur Verhinderung künftiger Einträge schaffen.

Verwandte Lösungen
IBM watsonx.data integration

Verwandeln Sie Rohdaten in KI-fähige Daten mit einer optimierten Benutzererfahrung für die Integration beliebiger Daten in einem beliebigen Stil

Mehr zu watsonx.data integration
Lösungen zur Datenintegration

Erstellen Sie mit IBM-Datenintegrationslösungen belastbare, leistungsstarke und kostenoptimierte Datenpipelines für Ihre generativen KI-Initiativen, Echtzeitanalysen, Lagermodernisierungen und betrieblichen Anforderungen.

Erkunden Sie die Datenintegrationslösungen
Beratungsdienste zu Daten und KI

Erfolgreiches Skalieren von KI mit der richtigen Strategie, Datensicherheit und Governance.

Beratungsservices für Daten und KI erkunden
Machen Sie den nächsten Schritt

Integrieren Sie sowohl strukturierte als auch unstrukturierte Daten mithilfe verschiedener Methoden – darunter Batch-Verarbeitung, Echtzeit-Streaming und Replikation –, damit Sie keine Zeit und kein Geld damit verschwenden, zwischen verschiedenen Tools hin- und herzuwechseln.

  1. IBM watsonx.data integration erkunden
  2. Erkunden Sie die Datenintegrationslösungen