Was ist Extraktion, Laden, Transformieren (ELT)?

Was ist ELT?

ELT steht für „Extrahieren, Laden, Transformieren“ (oder auch den englischen Begriff „Extract, Load, Transform“) und ist eine weitere Art der Datenintegrationsprozesse. Dabei werden Rohdaten von einem Quellensystem zu einer Zielressource wie z. B. einem Data Warehouse übertragen.

ELT weist zwar Ähnlichkeiten mit dem ETL-Prozess (Extrahieren, Transformieren, Laden) auf, ist aber ein grundlegend anderer Ansatz für die Datenvorverarbeitung, der erst in der jüngeren Vergangenheit durch den Übergang zu Cloud-Umgebungen an Beliebtheit gewonnen hat.

So wählen Sie das richtige Foundation Model für die KI

Nutzen Sie dieses Framework zur Modellauswahl, um das am besten geeignete Modell auszuwählen und dabei Ihre Leistungsanforderungen mit den Kosten, Risiken und Bereitstellungsanforderungen in Einklang zu bringen.

Ähnliche Inhalte

Registrieren Sie sich für das E-Book zu KI-Datenspeichern

So funktioniert ELT

Ein ELT-Prozess besteht aus drei Hauptphasen: dem Extrahieren, Laden und Transformieren. In diesem Abschnitt befassen wir uns genauer mit diesen Phasen.

Extrahieren

Bei der Datenextraktion werden die Daten von ihren Quellenspeicherorten in einen Staging-Bereich kopiert oder exportiert. Es werden Datensätze mit einer Vielzahl von Datentypen und aus praktisch jeder strukturierten oder unstrukturierten Quelle unterstützt, einschließlich:

SQL- oder NoSQL -Server
CRM- und ERP-Systeme
Text- und Dokumentdateien
E-Mails
Webseiten

Besonders häufig wird ELT allerdings für die Verarbeitung unstrukturierter Daten verwendet.

Laden

In diesem Schritt werden die transformierten Daten aus dem Staging-Bereich in einen Datenspeicherbereich (z. B. ein Data Warehouse oder einen Data Lake) verschoben.

In den meisten Unternehmen ist der werden Daten automatisch, kontinuierlich, stapelgesteuert und nach genauen Definitionen geladen. Üblicherweise wird ELT während der Geschäftszeiten durchgeführt, wenn der Datenverkehr auf den Quellsystemen und im Data Warehouse am höchsten ist und Anwender darauf warten, die Daten für Analysen oder andere Zwecke zu nutzen.

Transformation

In dieser Phase wird ein „Schema-on-write“-Ansatz verfolgt. Dieser Ansatz wendet mithilfe von SQL ein Schema auf die Daten an oder transformiert diese vor der Analyse. Dadurch kann die Konsistenz der Daten erhöht und die spätere Datenabfrage vereinfacht werden (im Kontrast zum „Schema-on-read“-Ansatz, der die Daten erst beim Auslesen in ein Schema strukturiert). Diese Phase kann Folgendes beinhalten:

Filterung, Bereinigung, Entfernung von Duplikaten, Validierung und Authentifizierung der Daten. Auf diese Weise kann sichergestellt werden, dass nur korrekte und relevante Daten angezeigt werden.
Durchführen von Berechnungen, Umsetzungen, Datenanalysen oder Zusammenfassungen auf Basis der Rohdaten. Dies kann alles umfassen, was für die spezifischen Business-Intelligence- oder Analysezwecke des Unternehmens erforderlich ist. Dazu zählt beispielsweise die Änderung von Zeilen- und Spaltenüberschriften aus Konsistenzgründen, die Konvertierung von Währungen oder Maßeinheiten, die Bearbeitung von Textzeichenfolgen, das Hinzufügen von Werten oder das Bilden von Durchschnittswerten.
Entfernen, Verschlüsseln, Ausblenden oder Schützen von Daten zur Einhaltung gesetzlicher oder branchenspezifischer Vorschriften. Wenn wichtige Compliance-Angelegenheiten in dieser Phase eingearbeitet werden, hilft das dabei, dass sämtliche angezeigten Datensätze vorschriftskonform sind, was Risiken durch Datenlecks oder Cyberangriffe minimiert.
Formatieren der Daten in Tabellen oder verknüpften Tabellen basierend auf dem im Data Warehouse bereitgestellten Schema. So können sämtliche Daten auf eine einheitliche Weise geladen werden, um einen späteren Abruf bestimmter Daten deutlich zu vereinfachen. Eine Strukturierung Ihrer Daten ermöglicht einen besseren Überblick und ressourcensparende Abfragen.

ETL vs. ELT

ELT und ELT haben sehr ähnliche Namen. Da kann es schon mal vorkommen, dass diese beiden Prozesse miteinander verwechselt werden – oder man sie gar für denselben Ansatz hält. Tatsächlich sind sie eng miteinander verwandt, es bestehen allerdings einige deutliche Unterschiede zwischen ELT und dem ETL-Prozess, der für Extrahieren, Transformieren und Laden steht. ETL ist ein Datenintegrationsprozess, der Daten aus verschiedenen Datenquellen in einem einzigen, konsistenten Datenspeicher zusammenführt, der dann in ein Data Warehouse oder ein anderes Zielsystem geladen wird. Ursprünglich wurden ETL-Tools für die Erstellung von Data Warehouses zur Unterstützung von Business-Intelligence-Anwendungen (BI-Anwendungen) sowie Anwendungen mit künstlicher Intelligenz (KI, auch AI für Artificial Intelligence) entwickelt.

ETL und ELT – welche Unterschiede gibt es?

Der offensichtliche Unterschied ist, dass der ELT-Prozess die Ladefunktion vor der Transformationsfunktion ausführt. Der zweite und dritte Schritt finden also in umgekehrter Reihenfolge statt. ELT kopiert oder exportiert die Daten von den Quellspeicherorten, aber anstatt sie zur Transformation in einen Staging-Bereich zu verschieben, lädt es die Rohdaten direkt in den Zieldatenspeicher, wo sie nach Bedarf transformiert werden können. ELT transformiert Daten also nicht während der Übertragung.

Die Unterschiede gehen allerdings über die Reihenfolge der Schritte hinaus. Bei ELT kann der Zieldatenspeicher ein Data Warehouse sein, häufiger ist es jedoch ein Data Lake – ein großer zentraler Speicher, der sowohl strukturierte als auch unstrukturierte Daten in großem Umfang speichern kann.

Data Lakes werden mit einer Big-Data-Plattform (z. B. Apache Hadoop) oder einem verteilten NoSQL-Datenmanagementsystem verwaltet. Sie eignen sich hervorragend als Unterstützung für den Bereich Business Intelligence, werden aber auch besonders häufig für künstliche Intelligenz, Machine Learning (maschinelles Lernen), prädiktive Analyse und Anwendungen entwickelt, die von Echtzeitdaten und Event-Streams gesteuert werden.

Darüber hinaus gibt es weitere Unterschiede zwischen ETL und ELT. Da ETL Daten transformiert, bevor sie in das zentrale Repository verschoben werden, kann dieser Prozess einfacher und systematischer für die Einhaltung des Datenschutzes sorgen als ELT. Wenn Analysten beispielsweise sensible Daten vor der Verwendung nicht transformieren, könnten diese unverschlüsselt im Data Lake vorliegen. Data-Scientists bevorzugen jedoch ELT, da es ihnen erlaubt, in einer „Sandbox“ mit Rohdaten zu experimentieren und ihre eigenen, auf spezifische Anwendungen zugeschnittenen Datentransformationen vorzunehmen. In den meisten Fällen hängt die Entscheidung zwischen ETL und ELT jedoch von den verfügbaren Unternehmensressourcen und -anforderungen ab.

Vorteile von ELT

ELT bietet Benutzern, die den Prozess in ihre Arbeitsabläufe integrieren wollen, mehrere Vorteile. Im Folgenden beschäftigen wir uns mit einigen der bemerkenswerten Vorteile:

Raschere Verfügbarkeit durch schnelleres Verschieben von Daten ans Ziel

Wenn große Mengen von Streaming-Daten erzeugt werden, ermöglicht ELT das sofortige Laden dieser Daten und transformiert sie, nachdem sie ihr Ziel erreicht haben. Dadurch wird eine Verlangsamung verhindert, die häufig durch das Transformieren vor dem Laden entsteht, wie z. B. bei ETL. Häufig müssen zeitlich sensible Entscheidungen auf der Grundlage dieser Daten getroffen werden, sodass Verzögerungen inakzeptabel sind. Dies ist beispielsweise beim Aktienmarkt der Fall, bei dem große Datenmengen entstehen, die in Echtzeit verarbeitet werden müssen. In solchen Szenarien ist ELT die optimale Lösung, da die Transformation hier erst erfolgt, nachdem die Daten ihr Ziel erreicht haben.

Entkoppeln von Problembereichen

Da die Daten bei der Ankunft am Zielort transformiert werden, ermöglicht ELT dem Empfänger der Daten, die Manipulation der Daten zu beeinflussen. Bei ELT wird durch die Entkopplung der Transformations- und Ladephase sichergestellt, dass sich Codierungsfehler oder andere Arten von Fehlern in der Transformationsphase nicht auf eine andere Phase auswirken. Stellen Sie es sich so vor: Wenn Sie einen Bausatz per Post vom Hersteller erhalten und ihn versehentlich falsch zusammenbauen, können Sie ihn einfach wieder auseinandernehmen und ihn dann korrekt zusammenbauen. Wenn aber der Hersteller für den Zusammenbau verantwortlich ist und Ihnen beim Erhalt ein Fehler auffällt, muss Ihnen der Hersteller nach einem wiederholten Zusammenbauen einen neuen Satz schicken, was deutlich mehr Zeit in Anspruch nehmen und mehr Umstände generieren würde. Auf eine ähnliche Weise profitieren Sie auch, wenn Sie Daten mithilfe von ELT erst nach dem Erhalt transformieren.

Vermeiden von Problemen bei der Serverskalierung

ELT nutzt das Potenzial und die Größe des Data Warehouse, um Transformationen oder skalierbare Berechnungen in großem Maßstab zu ermöglichen. Das Ziel-Data-Warehouse kann die Anzahl der Knoten je nach Bedarf erhöhen oder verringern. Dies gilt insbesondere für Cloud-Szenarien, in denen es mehrere Knoten innerhalb jedes Clusters gibt, sowie mehrere Cluster, die genutzt werden können. Dies ermöglicht eine bedarfsgerechte Flexibilität und Skalierbarkeit.

Kosteneinsparungen

ELT ist im Vergleich zu ETL nicht allzu ressourcenintensiv. Während ETL in der Regel einen leistungsfähigen Server und mehrere Datenbanken erfordert, ist für ELT ein weniger leistungsfähiger Server für die Datentransformation ausreichend. Zudem werden die bereits im Warehouse vorhandenen Ressourcen genutzt. Dies führt zu Kosteneinsparungen und einer gesteigerten Ressourceneffizienz.

Flexibilität

ELT ermöglicht es, ein beliebiges Ziel-Repository zu verwenden. Dies sorgt für flexible Kosten und leicht anpassbare Ressourcen. Data Warehouses nutzen die MPP-Architektur (Massively Parallel Processing), die es erlaubt, hohe Mengen an Prozessen gleichzeitig auszuführen. Zudem wird die spaltenorientierte Speicherung großer Datenmengen unterstützt, welche die Daten organisiert und somit eine besonders wirksame Kompression ermöglicht und so die Effizienz erhöht. Data Lake-Prozesse, die ein Schema oder ein Transformationsmodell anwenden, sobald die Daten empfangen werden (auch als „Schema-on-Read“ bezeichnet), können ebenfalls zum Einsatz kommen. Diese effizienten Prozesse bieten auch bei großen Datenmengen einen hohen Grad an Flexibilität.

Kontinuierlicher Betrieb

Der kontinuierliche Betrieb eignet sich ideal für alle Umgebungen, in denen ein schneller Zugriff auf die Daten erforderlich ist. ELT ist somit eine hervorragende Wahl für in Cloud-Umgebungen verwendete Daten, die häufig Anwendungen enthalten, auf die bei Bedarf immer wieder zugegriffen wird. Außerdem bietet die cloudnative ELT-Transformation die bereits erwähnten Vorteile in Bezug auf die Skalierbarkeit und Flexibilität.

Herausforderungen im Zusammenhang mit dem Wechsel von einer ETL- zu einer ELT-Architektur

Ein Unternehmen kann sich dazu entscheiden, von einer ETL- auf eine ELT-Architektur umzusteigen. Dafür gibt es viele mögliche Gründe. Es könnte beispielsweise sein, dass sich die Nutzung des Produkts oder Service verändert hat, sodass nun eine Reaktion und Interaktion in Echtzeit erforderlich ist. Oder vielleicht ist die Datenmenge exponentiell gewachsen und die Transformation vor dem Laden verzögert die Ladephase aufgrund der hohen Verarbeitungsanforderungen an die Infrastruktur. Ein Unternehmen kann sich aber auch für den Umstieg von ETL auf ELT entscheiden, wenn es auf die Cloud umgestiegen ist und die Verarbeitung auslagern oder die Daten am Ziel früher nutzen möchte.

In einem solchen Umstellungsszenario sollte man realistischerweise mit gewissen Herausforderungen rechnen. Zunächst einmal unterscheiden sich die Logik und der Code, die in ELT und ETL zum Einsatz kommen, grundlegend voneinander. Dadurch könnte es notwendig werden, das System vollständig neu zu konfigurieren. Möglicherweise müssen auch eine neue Infrastruktur oder ein neuer Anbieter mit Infrastruktur in der Cloud integriert werden. Darüber hinaus werden bei ELT die Rohdaten an das Ziel-Data-Warehouse gesendet, ohne dass diese zuvor im Rahmen einer Transformation unkenntlich gemacht werden. Daher ist die Sicherheit ein wichtiger Aspekt und muss gewährleistet werden, um die Daten zu schützen. Dies gilt sowohl für den generellen Schutz von Unternehmensdaten als auch insbesondere für sensible personenbezogene Kundendaten, die aus Compliance-Gründen besonderen Schutzes bedürfen.

Die Vergangenheit und Zukunft von ELT

ELT ist keine neue Technologie. In der Vergangenheit wurden häufig Staging-Tabellen verwendet, um Daten zur Verarbeitung und Transformation in ein Warehouse zu verschieben. Dabei kamen oft SQL-Scripts zum Einsatz. Da diese allerdings fest codiert sind, sind sie verhältnismäßig anfällig für Codierungsfehler. Bei der Verwendung von SQL hatten die Kunden die Wahl zwischen einer nativen Ausführung im Warehouse mit SQL-Scripts und einer deklarativen Programmierung, die auch als deklaratives Authoring bezeichnet wird. Das deklarative Authoring bietet die Vorteile modernerer, cloudbasierter Data-Warehouse-Umgebungen, indem ein Code erstellt wird, der beschreibt, was das Programm erreichen muss, und nicht, wie es dies tut. Dieser Prozess verhindert Codierungsfehler, die bei anderen Prozessen auftreten, insbesondere wenn die Transformation vor dem Laden erfolgt.

Anwendungsfälle

ELT wird in der Regel in Umgebungen mit hohem Datenaufkommen oder Echtzeitnutzung eingesetzt. Konkrete Beispiele sind: Konkrete Beispiele dafür sind:

Unternehmen, die sofortigen Zugriff benötigen. Beispiele hierfür sind Börsen oder Großanbieter von Aktien, Industrieerzeugnissen und anderen Materialien, die für Business-Intelligence-Anwendungen in Echtzeit auf aktuelle Daten zugreifen müssen. In derartigen Sektoren, in denen sich zentrale Variablen konstant ändern, kann ELT diese Daten verzögerungsfrei bereitstellen. So kann sich das Unternehmen jederzeit sicher sein, sämtliche Entscheidungen basierend auf den aktuellsten Datenwerten zu treffen.
Unternehmen mit riesigen Datenmengen. Dazu zählen beispielsweise Wetterdienste, deren meteorologische Systeme regelmäßig große Datenmengen sammeln, zusammenstellen und nutzen. Auch Unternehmen wie astronomische Labore mit extrem großen Teleskopen erzeugen große Datenmengen, die gesammelt und analysiert werden müssen. Doch auch Unternehmen mit einem großen Transaktionsvolumen könnten in diese Kategorie fallen. Zudem kommt es häufig zu Überschneidungen mit dem vorherigen Punkt, da es zahlreiche Branchen gibt, die große Datenmengen produzieren und nutzen und Echtzeitzugriff auf diese Daten benötigen.

Weiterführende Lösungen

IBM Cloud Pak for Data

IBM Cloud Pak for Data ist eine offene, erweiterbare Datenplattform, die eine Data-Fabric-Architektur zur Verfügung stellt, um alle Daten für KI und Analytics in jeder Cloud verfügbar zu machen.

IBM Cloud Pak for Data erkunden

IBM DataOps

KI erschließt neue Mehrwerte für Ihre Daten. Organisieren Sie Ihre Daten, um sie mit DataOps-Lösungen für KI und Multicloud vorzubereiten.

IBM DataOps erkunden

Datenintegration

Die Datenintegration ermöglicht es Ihnen, strukturierte und unstrukturierte Daten zu transformieren und sie jedem beliebigen System auf einer skalierbaren Big-Data-Plattform bereitzustellen.

Datenintegration erkunden

Machen Sie den nächsten Schritt

IBM DataStage ist ein branchenweit erstklassiges Datenintegrationstool zur Konzeption, Entwicklung und Abwicklung von Jobs, bei denen Daten verschoben und transformiert werden. Im Kern unterstützt DataStage Muster zum Extrahieren, Transformieren und Laden (ETL) sowie zum Extrahieren, Laden und Transformieren (ELT).

Mehr zu DataStage

Kostenlos testen

Was ist Extrahieren, Laden, Transformieren (ELT)?