Startseite
Themen
elt
ELT steht für „Extrahieren, Laden, Transformieren“ (oder auch den englischen Begriff „Extract, Load, Transform“) und ist eine weitere Art der Datenintegrationsprozesse. Dabei werden Rohdaten von einem Quellensystem zu einer Zielressource wie z. B. einem Data Warehouse übertragen.
ELT weist zwar Ähnlichkeiten mit dem ETL-Prozess (Extrahieren, Transformieren, Laden) auf, ist aber ein grundlegend anderer Ansatz für die Datenvorverarbeitung, der erst in der jüngeren Vergangenheit durch den Übergang zu Cloud-Umgebungen an Beliebtheit gewonnen hat.
Nutzen Sie dieses Framework zur Modellauswahl, um das am besten geeignete Modell auszuwählen und dabei Ihre Leistungsanforderungen mit den Kosten, Risiken und Bereitstellungsanforderungen in Einklang zu bringen.
Ein ELT-Prozess besteht aus drei Hauptphasen: dem Extrahieren, Laden und Transformieren. In diesem Abschnitt befassen wir uns genauer mit diesen Phasen.
Bei der Datenextraktion werden die Daten von ihren Quellenspeicherorten in einen Staging-Bereich kopiert oder exportiert. Es werden Datensätze mit einer Vielzahl von Datentypen und aus praktisch jeder strukturierten oder unstrukturierten Quelle unterstützt, einschließlich:
Besonders häufig wird ELT allerdings für die Verarbeitung unstrukturierter Daten verwendet.
In diesem Schritt werden die transformierten Daten aus dem Staging-Bereich in einen Datenspeicherbereich (z. B. ein Data Warehouse oder einen Data Lake) verschoben.
In den meisten Unternehmen ist der werden Daten automatisch, kontinuierlich, stapelgesteuert und nach genauen Definitionen geladen. Üblicherweise wird ELT während der Geschäftszeiten durchgeführt, wenn der Datenverkehr auf den Quellsystemen und im Data Warehouse am höchsten ist und Anwender darauf warten, die Daten für Analysen oder andere Zwecke zu nutzen.
In dieser Phase wird ein „Schema-on-write“-Ansatz verfolgt. Dieser Ansatz wendet mithilfe von SQL ein Schema auf die Daten an oder transformiert diese vor der Analyse. Dadurch kann die Konsistenz der Daten erhöht und die spätere Datenabfrage vereinfacht werden (im Kontrast zum „Schema-on-read“-Ansatz, der die Daten erst beim Auslesen in ein Schema strukturiert). Diese Phase kann Folgendes beinhalten:
ELT und ELT haben sehr ähnliche Namen. Da kann es schon mal vorkommen, dass diese beiden Prozesse miteinander verwechselt werden – oder man sie gar für denselben Ansatz hält. Tatsächlich sind sie eng miteinander verwandt, es bestehen allerdings einige deutliche Unterschiede zwischen ELT und dem ETL-Prozess, der für Extrahieren, Transformieren und Laden steht. ETL ist ein Datenintegrationsprozess, der Daten aus verschiedenen Datenquellen in einem einzigen, konsistenten Datenspeicher zusammenführt, der dann in ein Data Warehouse oder ein anderes Zielsystem geladen wird. Ursprünglich wurden ETL-Tools für die Erstellung von Data Warehouses zur Unterstützung von Business-Intelligence-Anwendungen (BI-Anwendungen) sowie Anwendungen mit künstlicher Intelligenz (KI, auch AI für Artificial Intelligence) entwickelt.
Der offensichtliche Unterschied ist, dass der ELT-Prozess die Ladefunktion vor der Transformationsfunktion ausführt. Der zweite und dritte Schritt finden also in umgekehrter Reihenfolge statt. ELT kopiert oder exportiert die Daten von den Quellspeicherorten, aber anstatt sie zur Transformation in einen Staging-Bereich zu verschieben, lädt es die Rohdaten direkt in den Zieldatenspeicher, wo sie nach Bedarf transformiert werden können. ELT transformiert Daten also nicht während der Übertragung.
Die Unterschiede gehen allerdings über die Reihenfolge der Schritte hinaus. Bei ELT kann der Zieldatenspeicher ein Data Warehouse sein, häufiger ist es jedoch ein Data Lake – ein großer zentraler Speicher, der sowohl strukturierte als auch unstrukturierte Daten in großem Umfang speichern kann.
Data Lakes werden mit einer Big-Data-Plattform (z. B. Apache Hadoop) oder einem verteilten NoSQL-Datenmanagementsystem verwaltet. Sie eignen sich hervorragend als Unterstützung für den Bereich Business Intelligence, werden aber auch besonders häufig für künstliche Intelligenz, Machine Learning (maschinelles Lernen), prädiktive Analyse und Anwendungen entwickelt, die von Echtzeitdaten und Event-Streams gesteuert werden.
Darüber hinaus gibt es weitere Unterschiede zwischen ETL und ELT. Da ETL Daten transformiert, bevor sie in das zentrale Repository verschoben werden, kann dieser Prozess einfacher und systematischer für die Einhaltung des Datenschutzes sorgen als ELT. Wenn Analysten beispielsweise sensible Daten vor der Verwendung nicht transformieren, könnten diese unverschlüsselt im Data Lake vorliegen. Data-Scientists bevorzugen jedoch ELT, da es ihnen erlaubt, in einer „Sandbox“ mit Rohdaten zu experimentieren und ihre eigenen, auf spezifische Anwendungen zugeschnittenen Datentransformationen vorzunehmen. In den meisten Fällen hängt die Entscheidung zwischen ETL und ELT jedoch von den verfügbaren Unternehmensressourcen und -anforderungen ab.
ELT bietet Benutzern, die den Prozess in ihre Arbeitsabläufe integrieren wollen, mehrere Vorteile. Im Folgenden beschäftigen wir uns mit einigen der bemerkenswerten Vorteile:
Wenn große Mengen von Streaming-Daten erzeugt werden, ermöglicht ELT das sofortige Laden dieser Daten und transformiert sie, nachdem sie ihr Ziel erreicht haben. Dadurch wird eine Verlangsamung verhindert, die häufig durch das Transformieren vor dem Laden entsteht, wie z. B. bei ETL. Häufig müssen zeitlich sensible Entscheidungen auf der Grundlage dieser Daten getroffen werden, sodass Verzögerungen inakzeptabel sind. Dies ist beispielsweise beim Aktienmarkt der Fall, bei dem große Datenmengen entstehen, die in Echtzeit verarbeitet werden müssen. In solchen Szenarien ist ELT die optimale Lösung, da die Transformation hier erst erfolgt, nachdem die Daten ihr Ziel erreicht haben.
Da die Daten bei der Ankunft am Zielort transformiert werden, ermöglicht ELT dem Empfänger der Daten, die Manipulation der Daten zu beeinflussen. Bei ELT wird durch die Entkopplung der Transformations- und Ladephase sichergestellt, dass sich Codierungsfehler oder andere Arten von Fehlern in der Transformationsphase nicht auf eine andere Phase auswirken. Stellen Sie es sich so vor: Wenn Sie einen Bausatz per Post vom Hersteller erhalten und ihn versehentlich falsch zusammenbauen, können Sie ihn einfach wieder auseinandernehmen und ihn dann korrekt zusammenbauen. Wenn aber der Hersteller für den Zusammenbau verantwortlich ist und Ihnen beim Erhalt ein Fehler auffällt, muss Ihnen der Hersteller nach einem wiederholten Zusammenbauen einen neuen Satz schicken, was deutlich mehr Zeit in Anspruch nehmen und mehr Umstände generieren würde. Auf eine ähnliche Weise profitieren Sie auch, wenn Sie Daten mithilfe von ELT erst nach dem Erhalt transformieren.
ELT nutzt das Potenzial und die Größe des Data Warehouse, um Transformationen oder skalierbare Berechnungen in großem Maßstab zu ermöglichen. Das Ziel-Data-Warehouse kann die Anzahl der Knoten je nach Bedarf erhöhen oder verringern. Dies gilt insbesondere für Cloud-Szenarien, in denen es mehrere Knoten innerhalb jedes Clusters gibt, sowie mehrere Cluster, die genutzt werden können. Dies ermöglicht eine bedarfsgerechte Flexibilität und Skalierbarkeit.
ELT ist im Vergleich zu ETL nicht allzu ressourcenintensiv. Während ETL in der Regel einen leistungsfähigen Server und mehrere Datenbanken erfordert, ist für ELT ein weniger leistungsfähiger Server für die Datentransformation ausreichend. Zudem werden die bereits im Warehouse vorhandenen Ressourcen genutzt. Dies führt zu Kosteneinsparungen und einer gesteigerten Ressourceneffizienz.
ELT ermöglicht es, ein beliebiges Ziel-Repository zu verwenden. Dies sorgt für flexible Kosten und leicht anpassbare Ressourcen. Data Warehouses nutzen die MPP-Architektur (Massively Parallel Processing), die es erlaubt, hohe Mengen an Prozessen gleichzeitig auszuführen. Zudem wird die spaltenorientierte Speicherung großer Datenmengen unterstützt, welche die Daten organisiert und somit eine besonders wirksame Kompression ermöglicht und so die Effizienz erhöht. Data Lake-Prozesse, die ein Schema oder ein Transformationsmodell anwenden, sobald die Daten empfangen werden (auch als „Schema-on-Read“ bezeichnet), können ebenfalls zum Einsatz kommen. Diese effizienten Prozesse bieten auch bei großen Datenmengen einen hohen Grad an Flexibilität.
Der kontinuierliche Betrieb eignet sich ideal für alle Umgebungen, in denen ein schneller Zugriff auf die Daten erforderlich ist. ELT ist somit eine hervorragende Wahl für in Cloud-Umgebungen verwendete Daten, die häufig Anwendungen enthalten, auf die bei Bedarf immer wieder zugegriffen wird. Außerdem bietet die cloudnative ELT-Transformation die bereits erwähnten Vorteile in Bezug auf die Skalierbarkeit und Flexibilität.
Ein Unternehmen kann sich dazu entscheiden, von einer ETL- auf eine ELT-Architektur umzusteigen. Dafür gibt es viele mögliche Gründe. Es könnte beispielsweise sein, dass sich die Nutzung des Produkts oder Service verändert hat, sodass nun eine Reaktion und Interaktion in Echtzeit erforderlich ist. Oder vielleicht ist die Datenmenge exponentiell gewachsen und die Transformation vor dem Laden verzögert die Ladephase aufgrund der hohen Verarbeitungsanforderungen an die Infrastruktur. Ein Unternehmen kann sich aber auch für den Umstieg von ETL auf ELT entscheiden, wenn es auf die Cloud umgestiegen ist und die Verarbeitung auslagern oder die Daten am Ziel früher nutzen möchte.
In einem solchen Umstellungsszenario sollte man realistischerweise mit gewissen Herausforderungen rechnen. Zunächst einmal unterscheiden sich die Logik und der Code, die in ELT und ETL zum Einsatz kommen, grundlegend voneinander. Dadurch könnte es notwendig werden, das System vollständig neu zu konfigurieren. Möglicherweise müssen auch eine neue Infrastruktur oder ein neuer Anbieter mit Infrastruktur in der Cloud integriert werden. Darüber hinaus werden bei ELT die Rohdaten an das Ziel-Data-Warehouse gesendet, ohne dass diese zuvor im Rahmen einer Transformation unkenntlich gemacht werden. Daher ist die Sicherheit ein wichtiger Aspekt und muss gewährleistet werden, um die Daten zu schützen. Dies gilt sowohl für den generellen Schutz von Unternehmensdaten als auch insbesondere für sensible personenbezogene Kundendaten, die aus Compliance-Gründen besonderen Schutzes bedürfen.
ELT ist keine neue Technologie. In der Vergangenheit wurden häufig Staging-Tabellen verwendet, um Daten zur Verarbeitung und Transformation in ein Warehouse zu verschieben. Dabei kamen oft SQL-Scripts zum Einsatz. Da diese allerdings fest codiert sind, sind sie verhältnismäßig anfällig für Codierungsfehler. Bei der Verwendung von SQL hatten die Kunden die Wahl zwischen einer nativen Ausführung im Warehouse mit SQL-Scripts und einer deklarativen Programmierung, die auch als deklaratives Authoring bezeichnet wird. Das deklarative Authoring bietet die Vorteile modernerer, cloudbasierter Data-Warehouse-Umgebungen, indem ein Code erstellt wird, der beschreibt, was das Programm erreichen muss, und nicht, wie es dies tut. Dieser Prozess verhindert Codierungsfehler, die bei anderen Prozessen auftreten, insbesondere wenn die Transformation vor dem Laden erfolgt.
ELT wird in der Regel in Umgebungen mit hohem Datenaufkommen oder Echtzeitnutzung eingesetzt. Konkrete Beispiele sind: Konkrete Beispiele dafür sind:
IBM Cloud Pak for Data ist eine offene, erweiterbare Datenplattform, die eine Data-Fabric-Architektur zur Verfügung stellt, um alle Daten für KI und Analytics in jeder Cloud verfügbar zu machen.
KI erschließt neue Mehrwerte für Ihre Daten. Organisieren Sie Ihre Daten, um sie mit DataOps-Lösungen für KI und Multicloud vorzubereiten.
Die Datenintegration ermöglicht es Ihnen, strukturierte und unstrukturierte Daten zu transformieren und sie jedem beliebigen System auf einer skalierbaren Big-Data-Plattform bereitzustellen.