ETL steht für Extrahieren, Transformieren und Laden und ist ein Datenintegrationsprozess, bei dem Daten aus mehreren Datenquellen in einem einzigen, einheitlichen Datenspeicher kombiniert werden, der in ein Data Warehouse oder ein anderes Zielsystem geladen wird.
Als die Datenbanken in den 1970er Jahren immer beliebter wurden, wurde ETL als Verfahren zur Integration und zum Laden von Daten für Verarbeitung und Analysen eingeführt und wurde schließlich zum primären Verfahren für die Verarbeitung von Daten für Data-Warehousing-Projekte.
ETL bildet die Grundlage für Datenanalysen und maschinelle Lernprozesse. Durch eine Reihe von Geschäftsregeln bereinigt und organisiert ETL Daten in einer Weise, die spezifischen Business-Intelligence-Bedürfnissen entspricht, wie z. B. der monatlichen Berichterstattung, aber es kann auch fortgeschrittenere Analysen durchführen, die Back-End-Prozesse oder die Endbenutzer -Errfahrung verbessern können. ETL wird häufig von Unternehmen eingesetzt, um:
Anschauen, wie man einen ETL-Job erstellt und ausführt
Bericht von Gartner "Magic Quadrant for Data Integration Tools" von 2021 lesen
Kurzbeschreibung "DataStage" von IBM lesen (169 KB)
Der offensichtlichste Unterschied zwischen ETL und ELT ist die unterschiedliche Reihenfolge der Operationen. ELT kopiert oder exportiert die Daten von den Quellspeichern, aber anstatt sie zur Transformation in einen Zwischenspeicherungsbereich zu laden, lädt es die Rohdaten direkt in den Zieldatenspeicher, wo sie nach Bedarf transformiert werden.
Beide Verfahren nutzen eine Vielzahl von Repositorys, wie Datenbanken, Data Warehouses und Data Lakes, und jedes Verfahren hat seine Vor- und Nachteile. ELT ist besonders nützlich für große, unstrukturierte Datensätze, da das Laden direkt aus der Quelle erfolgen kann. ELT eignet sich besser für Big Data-Management, da die Datenextraktion- und Speicherung nicht im Voraus geplant werden muss. Der ETL-Prozess hingegen erfordert zu Beginn mehr Definition. Spezifische Datenpunkte müssen für die Extraktion identifiziert werden, zusammen mit potenziellen "Schlüsseln" für die Integration über unterschiedliche Quellsysteme hinweg. Selbst wenn diese Arbeit abgeschlossen ist, müssen die Geschäftsregeln für die Datentransformation erstellt werden. Diese Arbeit kann in der Regel von den Datenanforderungen für einen bestimmten Typ der Datenanalyse abhängen, die die erforderliche Stufe der Auswertung der Daten bestimmen. Obwohl ELT mit der Einführung von Cloud-Datenbanken immer beliebter geworden ist, hat es seine eigenen Nachteile, da es sich um ein neueres Verfahren handelt, was bedeutet, dass die besten Praktiken noch in der Entwicklung sind.
Am einfachsten lässt sich die Funktionsweise von ETL verstehen, wenn man weiß, was in den einzelnen Schritten des Prozesses geschieht.
Bei der Datenextraktion werden die Daten von den Quellpositionen in einen Zwischenspeicherungsbereich kopiert oder exportiert. Datenmanagementteams können Daten aus einer Vielzahl von Datenquellen extrahieren, die strukturiert oder unstrukturiert sein können. Zu diesen Quellen gehören unter anderem:
Im Zwischenspeicherungsbereich werden die Rohdaten einer Datenverarbeitung unterzogen. Hier werden die Daten transformiert und für den vorgesehenen analytischen Anwendungsfall konsolidiert. Diese Phase kann die folgenden Aufgaben umfassen:
In diesem letzten Schritt werden die transformierten Daten aus dem Zwischenspeicherungsbereich in ein Ziel-Data Warehouse verschoben. Dies umfasst in der Regel ein anfängliches Laden aller Daten, gefolgt von einem regelmäßigen Laden inkrementeller Datenänderungen und, seltener, vollständige Aktualisierungen, um Daten im Lager zu löschen und auszutauschen. In den meisten Unternehmen, die ETL verwenden, ist der Prozess automatisiert, eindeutig definiert, zusammenhängend und Batch-gesteuert. Normalerweise findet ETL außerhalb der Geschäftszeiten statt, wenn der Datenverkehr auf den Quellsystemen und im Data Warehouse am geringsten ist.
ETL und ELT sind nur zwei Methoden der Datenintegration, und es gibt noch weitere Ansätze, die zur Erleichterung der Datenintegrationsabläufe verwendet werden. Einige dieser schließen ein:
ETL-Lösungen verbessern die Qualität, indem sie eine Datenbereinigung durchführen, bevor die Daten in ein anderes Repository geladen werden. ETL ist eine zeitaufwändige Stapelverarbeitungsoperation und wird eher für die Erstellung kleinerer Zieldaten-Repositorys empfohlen, die weniger häufig aktualisiert werden müssen, während andere Datenintegrationsmethoden - einschließlich ELT (Extrahieren, Laden, Transformieren), Änderungsdatenerfassung (CDC) und Datenvirtualisierung - für die Integration immer größerer Datenmengen, die sich ändern, oder für Datenströme in Echtzeit verwendet werden.
In der Vergangenheit schrieben die Unternehmen ihren eigenen ETL-Code. Es gibt inzwischen viele Open-Source- und kommerzielle ETL-Tools und Cloud-Services, aus denen man wählen kann. Zu den typischen Funktionen dieser Produkte gehören die folgenden:
Darüber hinaus haben sich viele ETL-Tools weiterentwickelt und bieten nun auch ELT-Funktionen und unterstützen die Integration von Echtzeit- und Streaming-Daten für Anwendungen der künstlichen Intelligenz (KI).
Anwendungsprogrammier-Schnittstellen (APIs) mit Enterprise Application Integration (EAI) können anstelle von ETL verwendet werden, um eine flexiblere, skalierbare Lösung mit Workflow -Integration zu erhalten. Während ETL nach wie vor die primäre Datenintegrations -Ressource ist, wird EAI zunehmend mit APIs in webbasierten Umgebungen eingesetzt.
IBM Cloud Pak for Data ist eine offene, erweiterbare Datenplattform, die ein Data Fabric zur Verfügung stellt, um alle Daten für KI und Analytics in jeder Cloud verfügbar zu machen.
KI erschließt den Nutzen Ihrer Daten auf neue Weise. Organisieren Sie Ihre Daten, um sie mit DataOps-Lösungen für KI und Multicloud vorzubereiten.
Die Datenintegration ermöglicht es Ihnen, strukturierte und unstrukturierte Daten zu transformieren und jedem beliebigen System auf einer skalierbaren Big-Data-Plattform bereitzustellen.