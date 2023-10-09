Die Architektur der Datenplattform hat eine interessante Geschichte. Um die Jahrtausendwende begannen die Unternehmen zu erkennen, dass die Arbeitsbelastung durch Berichte und Business Intelligence eine neue Lösung anstelle der Transaktionsanwendungen erforderte. Es entstand eine leseoptimierte Plattform, die Daten aus mehreren Anwendungen integrieren kann. Es handelte sich um ein Datawarehouse.
Innerhalb eines weiteren Jahrzehnts begannen Internet und Mobilfunk, Daten von unvorhergesehenem Umfang, Vielfalt und Geschwindigkeit zu generieren. Es wurde eine andere Datenplattformlösung benötigt. So entstand Data Lake, das unstrukturierte und strukturierte Daten mit enormem Volumen verarbeitet.
Noch ein Jahrzehnt ist vergangen. Und es wurde klar, dass Data Lake und Datawarehouse nicht mehr ausreichen, um die Geschäftskomplexität und die neue Workload der Unternehmen zu bewältigen. Es ist zu teuer. Der Wert der Datenprojekte ist schwer zu realisieren. Datenplattformen sind schwer zu verändern. Die Zeit verlangte wieder eine neue Lösung.
Raten Sie mal! Diesmal entstehen mindestens drei verschiedene Datenplattformlösungen: Data Lakehouse, Data Fabric und Data Mesh. Das ist zwar ermutigend, sorgt aber auch für Verwirrung auf dem Markt. Die Konzepte und Werte überschneiden sich. Je nachdem, wer gefragt wird, ergeben sich manchmal unterschiedliche Interpretationen.
Dieser Artikel versucht, diese Verwirrungen zu mildern. Die Konzepte werden erläutert. Und dann wird ein Framework eingeführt, das zeigt, wie diese drei Konzepte zueinander führen oder miteinander verwendet werden können.
Das Konzept Lakehouse wurde durch Databricks populär gemacht. Sie definierten es als: „Ein Data Lakehouse ist eine neue, offene Datenverwaltung-Architektur, die die Flexibilität, Kosteneffizienz und Größe von Data Lakes mit dem Datenverwaltung und ACID-Transaktionen von Data Warehouses kombiniert und so Business Intelligence (BI) und maschinelles Lernen (ML) auf allen Daten ermöglicht.“
Während traditionelle Data Warehouses einen Extract-Transform-Load (ETL)-Prozess zur Aufnahme von Daten nutzten, verlassen sich Data Lakes stattdessen auf einen Extract-Load-Transform (ELT)-Prozess. Extrahierte Daten aus mehreren Quellen werden in günstigem BLOB-Speicher geladen, dann umgewandelt und in ein Data Warehouse gespeichert, das teures block storage verwendet.
Diese Speicherarchitektur ist unflexibel und ineffizient. Die Transformation muss kontinuierlich durchgeführt werden, um den BLOB- und den Data Warehouse-Speicher synchron zu halten, was zusätzliche Kosten verursacht. Und die kontinuierliche Transformation ist immer noch zeitaufwendig. Bis die Daten zur Analyse bereit sind, sind die daraus gewonnenen Erkenntnisse im Vergleich zum aktuellen Stand der Transaktionssysteme bereits veraltet.
Darüber hinaus kann die Speicherung in Data Warehouses keine Workloads wie künstliche Intelligenz (KI) oder maschinelles Lernen (ML) unterstützen, die riesige Datenmengen für das Modelltraining benötigen. Für diese Workloads empfehlen Data Lake-Anbieter in der Regel, Daten in Flatfiles zu extrahieren, die ausschließlich für Modelltraining und Testzwecke verwendet werden. Dadurch kommt ein zusätzlicher ETL-Schritt hinzu, wodurch die Daten noch veralteter werden.
Data Lakehouses wurden entwickelt, um diese Probleme zu lösen. Die Speicherschicht des Data Warehouse wird aus den Lakehouse-Architekturen entfernt. Stattdessen wird eine kontinuierliche Datenkonvertierung innerhalb des BLOB-Speichers durchgeführt. Es wurden mehrere APIs hinzugefügt, sodass verschiedene Arten von Workloads dieselben Speicher-Buckets verwenden können. Diese Architektur ist gut für die Cloud geeignet, da AWS S3 oder Azure DLS2 den erforderlichen Speicherplatz bereitstellen können.
Das Data Fabric repräsentiert eine neue Generation von Datenplattformarchitekturen. Es kann definiert werden als: Eine lose gekoppelte Sammlung verteilter Dienste, die es ermöglicht, die richtigen Daten in der richtigen Form, zur richtigen Zeit und am richtigen Ort aus heterogenen Quellen transaktionaler und analytischer Natur über jede Cloud- und lokale Plattform hinweg verfügbar zu machen, meist über Self-Service, während nicht-funktionale Anforderungen wie Kosteneffizienz, Leistung, Governance, Sicherheit und Compliance erfüllt werden.
Zweck der Data Fabric ist es, Daten überall und jederzeit verfügbar zu machen, indem die mit Datenbewegung, Transformation und Integration verbundenen technologischen Komplexitäten abstrahiert werden, sodass jeder die Daten nutzen kann. Einige wichtige Merkmale der Data Fabric sind:
Ein Data Fabric besteht aus einem Netzwerk von Datenknoten (z. B. Datenplattformen und Datenbanken), die alle miteinander interagieren, um einen größeren Wert zu bieten. Die Datenknoten sind über das Hybrid- und Multi-Cloud-Computing-Ökosystem des Unternehmens verteilt.
Ein Data Fabric kann aus mehreren Data Warehouses, Data Lakes, IoT/Edge-Geräten und transaktionalen Datenbanken bestehen. Es kann Technologien umfassen, die von Oracle, Teradata und Apache Hadoop bis hin zu Snowflake auf Azure, RedShift auf AWS oder MS SQL im lokalen Rechenzentrum reichen, um nur einige zu nennen.
Das Data Fabric umfasst alle Phasen des Lebenszyklus von Dateninformationen und Erkenntnissen. Ein Knotenpunkt des Netzwerks liefert Rohdaten an einen anderen, der daraufhin Analysen durchführt. Diese Analysen können als REST-APIs innerhalb des Fabrics bereitgestellt werden, sodass sie von transaktionalen Aufzeichnungssystemen zur Entscheidungsfindung genutzt werden können.
Data Fabric ist darauf ausgelegt, die analytische und transaktionale Welt zusammenzubringen. Hier ist alles ein Knoten, und die Knoten interagieren über verschiedene Mechanismen miteinander. Einige davon erfordern eine Datenbewegung, während andere einen Datenzugriff ohne Bewegung ermöglichen. Die zugrunde liegende Idee ist, dass Datensilos (und Differenzierungen) in dieser Architektur irgendwann verschwinden werden.
Sicherheits- und Governance-Richtlinien werden immer dann durchgesetzt, wenn Daten innerhalb des Data Fabric übertragen oder abgerufen werden. So wie Istio Security Governance auf Container in Kubernetes anwendet, wendet das Data Fabric in Echtzeit Richtlinien auf Daten nach ähnlichen Prinzipien an.
Data Fabrics fördern die Auffindbarkeit von Daten. Hier können Daten-Assets in Kategorien veröffentlicht werden, wodurch ein unternehmensweiter Marktplatz entsteht. Dieser Marktplatz bietet einen Suchmechanismus, der Metadaten und einen Wissensgraph nutzt, um die Entdeckung von Assets zu ermöglichen. Dies ermöglicht den Zugriff auf Daten in allen Phasen ihres Wertlebenszyklus.
Das Aufkommen der Data Fabric eröffnet neue Möglichkeiten, Unternehmenskulturen und Betriebsmodelle zu transformieren. Da Data Fabrics verteilt, aber inklusiv sind, fördert ihre Verwendung eine föderierte, aber einheitliche Verwaltung von Data Fabric. Dadurch werden die Daten vertrauenswürdiger und zuverlässiger. Der Marktplatz wird es allen Stakeholdern im Unternehmen erleichtern, Daten zu entdecken und für Innovationen zu nutzen. Diverse Teams werden es leichter finden, zusammenzuarbeiten und gemeinsam genutzte Assets mit einem gemeinsamen Zielbewusstsein zu verwalten.
Data Fabric ist eine umfassende Architektur, in der einige neue Technologien (z. B. Datenvirtualisierung) eine Schlüsselrolle spielen. Aber es ermöglicht bestehenden Datenbanken und Datenplattformen, an einem Netzwerk teilzunehmen, in dem ein Datenkatalog oder Datenmarktplatz bei der Entdeckung neuer Assets helfen kann. Metadaten spielen hier eine wichtige Rolle bei der Entdeckung der Assets.
Data Mesh als Konzept wird von Thoughtworks eingeführt. Sie definierten es als:„...Eine Analysedaten-Architektur und ein Betriebsmodell, bei dem Analysedaten als Produkt behandelt werden und den Teams gehören, die die Analysedaten am besten kennen und nutzen.“ Das Konzept basiert auf vier Prinzipien: Domainbesitz, Daten als Produkt, Self-Service-Datenplattformen und föderierte Computational Governance.
Die Konzepte Data Fabric und Data Mesh überschneiden sich. Zum Beispiel empfehlen beide eine verteilte Architektur – im Gegensatz zu zentralisierten Plattformen wie Datawarehouse, Data Lake und Data Lakehouse. Beide wollen die Idee eines Datenprodukts fördern, das über eine Plattform angeboten wird.
Es gibt auch Unterschiede. Wie aus der obigen Definition hervorgeht, geht es bei einem Data Mesh im Gegensatz zum Data Fabric um Analysedaten. Es ist enger gefasst als ein Data Fabric. Zweitens betont es das Betriebsmodell und die Kultur, d. h. es geht über eine reine Architektur wie Data Fabrics hinaus. Die Art des Datenprodukts kann in Data Fabrics generisch sein, während ein Data Mesh eindeutig bereichsbezogenes Eigentum an Datenprodukten vorschreibt.
Natürlich haben diese drei Konzepte ihren eigenen Fokus und ihre eigene Stärke. Dennoch ist die Überschneidung offensichtlich.
Das Lakehouse unterscheidet sich von den beiden anderen. Es ist eine neue Technologie, wie ihre Vorgänger. Es kann kodifiziert werden. Auf dem Markt gibt es mehrere Produkte, darunter Databricks, Azure Synapse und Amazon Athena.
Data Mesh erfordert ein neues Betriebsmodell und einen kulturellen Wandel. Oft erfordern solche kulturellen Veränderungen eine Veränderung der kollektiven Denkweise des Unternehmens. Folglich kann ein Data Mesh revolutionär sein. Sie kann in einem kleineren Teil des Unternehmens von Grund auf aufgebaut werden, bevor sie sich auf den Rest des Unternehmens ausbreitet.
Data Fabric hat keine solchen Voraussetzungen wie Data Mesh. Es erwartet keinen solchen kulturellen Wandel. Es kann aus vorhandenen Assets aufgebaut werden, in die das Unternehmen im Laufe der Jahre investiert hat. Daher ist sein Ansatz evolutionär.
Wie kann ein Unternehmen also all diese Konzepte übernehmen?
Es kann die Einführung eines Lakehouse als Teil seiner eigenen Entwicklung einer Datenplattform betrachten. Zum Beispiel könnte eine Bank ihr zehn Jahre altes Datawarehouse loswerden und alle BI- und KI-Anwendungsfälle von einer einzigen Datenplattform aus bereitstellen, indem sie ein Lakehouse implementiert.
Wenn das Unternehmen komplex ist und über mehrere Datenplattformen verfügt, wenn die Datenerkennung eine Herausforderung darstellt, wenn die Datenlieferung an verschiedenen Teilen des Unternehmens schwierig ist – kann Data Fabric die passende Architektur sein. Neben bestehenden Datenplattform-Knoten können dort auch ein oder mehrere Lakehouse-Knoten teilnehmen. Sogar die transaktionalen Datenbanken können als Knoten dem Fabric-Netzwerk beitreten, um Assets anzubieten oder zu konsumieren.
Um die geschäftliche Komplexität zu Adresse, wenn das Unternehmen einen Kulturwandel hin zu einem bereichsbezogenen Dateneigentum vollzieht, fördert Self-Service in der Datenerkennung und -bereitstellung und einführt eine föderierte Governance – sind sie auf dem Weg zu einem Datennetz. Wenn die Data-Fabric-Architektur bereits vorhanden ist, kann das Unternehmen sie als wichtige Grundlage für ihre Data-Mesh-Reise verwenden. Zum Beispiel kann der Data-Fabric-Marktplatz domänenzentrierte Datenprodukte – ein wichtiges Data-Mesh-Ergebnis – anbieten. Die metadatengestützte Entdeckung, die bereits als Funktion durch Data Fabric etabliert wurde, kann bei der Entdeckung neuer Datenprodukte aus dem Mesh nützlich sein.
Jedes Unternehmen kann sich seine jeweiligen Geschäftsziele ansehen und entscheiden, welcher Einstiegspunkt am besten zu ihm passt. Aber auch wenn die Einstiegspunkte oder Motivationen unterschiedlich sein können, kann ein Unternehmen auf seinem Weg zur Datenzentrierung problemlos alle drei Konzepte zusammen verwenden.
