Was ist ein Data Mesh?

13. April 2022

Was ist ein Data Mesh?

Ein Data Mesh ist eine dezentrale Datenarchitektur, die Daten nach bestimmten Geschäftsbereichen wie Marketing, Vertrieb, Kundenservice und so weiter sortiert, damit diejenigen, die die Daten erstellen, mehr Kontrolle darüber haben.

Da die Produzenten die Daten in ihrem Bereich gut kennen, können sie Richtlinien für die Data Governance festlegen, die sich auf Dokumentation, Qualität und Zugriff konzentrieren. Das wiederum ermöglicht einen Self-Service innerhalb des gesamten Unternehmens. Dieser föderierte Ansatz beseitigt zwar viele operative Engpässe, die mit zentralisierten, monolithischen Systemen verbunden sind, bedeutet aber nicht zwangsläufig, dass Sie keine herkömmlichen Speichersysteme wie Data Lakes oder Data Warehouses verwenden können. Es bedeutet lediglich, dass sich deren Verwendung von einer einzigen, zentralisierten Datenplattform auf mehrere dezentrale Datenrepositorys verlagert hat.

Es ist wichtig zu wissen, dass ein Data Mesh die Nutzung von cloudnativen und Cloud-Plattform-Technologien fördert, um die Ziele der Datenverwaltung zu erreichen. Dieses Konzept wird oft mit Microservices verglichen, was das Verständnis für seine Verwendung in diesem Bereich erleichtert. Da diese verteilte Architektur besonders bei der Skalierung des Datenbedarfs in einem Unternehmen hilfreich ist, kann man davon ausgehen, dass ein Data Mesh nicht für alle Arten von Unternehmen geeignet ist. So werden kleinere Unternehmen möglicherweise nicht von den Vorteilen eines Data Mesh profitieren, da ihre Unternehmensdaten nicht so komplex sind wie die größerer Unternehmen.

Zhamak Dehghani, eine Tech-Führungskraft bei der IT-Beratungsfirma ThoughtWorks, hat das Konzept von Data Mesh als Lösung für die Probleme zentralisierter, monolithischer Datenstrukturen, wie Datenzugriff und -organisation, bekannt gemacht. Die Einführung des Konzepts wurde durch die COVID-19-Pandemie weiter beschleunigt, um einen kulturellen Wandel voranzutreiben und die organisatorische Komplexität im Zusammenhang mit Daten zu verringern.

3D-Design aus Kugeln, die auf einer Schiene rollen

Die neuesten Erkenntnisse und Insights zu KI

Entdecken Sie von Experten kuratierte Erkenntnisse und Neuigkeiten zu KI, Cloud und mehr im wöchentlichen Newsletter Think. 

Wie funktioniert ein Data Mesh?

Ein Data Mesh bedeutet für Unternehmen einen kulturellen Wandel im Umgang mit ihren Daten. Daten sind nicht mehr nur ein Nebenprodukt eines Prozesses, sondern werden zum eigentlichen Produkt. Dabei sind die Datenproduzenten die Eigentümer der Datenprodukte. Früher war ein zentrales Infrastrukturteam für die Datenhoheit über alle Bereiche zuständig. Im Data-Mesh-Modell liegt die Verantwortung aber bei den Produzenten, weil sie die Experten sind. Dank ihres Verständnisses der primären Datennutzer und der Art und Weise, wie diese die operativen und Analysedaten des Unternehmensbereichs nutzen, können sie APIs im besten Interesse aller Beteiligten entwickeln.

Obwohl dieses bereichsorientierte Design auch die Datenproduzenten für die Dokumentation semantischer Definitionen, die Katalogisierung von Metadaten und die Festlegung von Richtlinien für Berechtigungen und Nutzung verantwortlich macht, gibt es immer noch ein zentrales Data-Governance-Team, das diese Standards und Verfahren rund um die Daten durchsetzt. Und obwohl die Bereichsteams in einer Data-Mesh-Architektur für ihre ETL-Datenpipelines verantwortlich sind, ist ein zentrales Data-Engineering-Team nach wie vor erforderlich. Ihre Verantwortung konzentriert sich jedoch mehr auf die Bestimmung der besten Dateninfrastrukturlösungen für die zu speichernden Datenprodukte.

Ähnlich wie eine Microservices-Architektur einfache Dienste miteinander verbindet, um Funktionen für eine Geschäfts- oder Verbraucheranwendung bereitzustellen, nutzt ein Data Mesh funktionale Bereichen als Mittel zur Festlegung von Parametern für die Daten. Dadurch können diese wie ein Produkt behandelt werden, auf das Benutzer im gesamten Unternehmen zugreifen können. Auf diese Weise ermöglicht ein Data Mesh eine flexiblere Datenintegration und interoperable Funktionen, bei denen Daten aus mehreren Bereichen sofort von Benutzern für Geschäftsanalysen, Data-Science-Experimente und vieles mehr genutzt werden können.

Mixture of Experts | 25. April, Folge 52

KI entschlüsseln: Wöchentlicher Nachrichtenüberblick

Schließen Sie sich unserer erstklassigen Expertenrunde aus Ingenieuren, Forschern, Produktführern und anderen an, die sich durch das KI-Rauschen kämpfen, um Ihnen die neuesten KI-Nachrichten und Erkenntnisse zu liefern.

Data Mesh vs. Data Lake

Wie bereits erwähnt, ist ein Data Mesh eine verteilte Datenarchitektur, bei der Daten nach Bereichen organisiert sind, damit sie für alle Nutzer in einem Unternehmen leichter zugänglich sind. Ein Data Lake ist eine kostengünstige Speicherumgebung, in der normalerweise Petabytes an strukturierten, halbstrukturierten und unstrukturierten Daten für Geschäftsanalysen, maschinelles Lernen und andere allgemeine Anwendungen gespeichert werden. Ein Data Mesh ist ein architektonischer Ansatz für Daten, zu dem ein Data Lake gehören kann. Ein zentraler Data Lake wird aber meistens als Ablageplatz für Daten genutzt, weil er oft für Daten verwendet wird, die noch keinen festen Zweck haben. Das kann dazu führen, dass er zu einem Datensumpf wird, also einem Data Lake, der nicht über die nötige Datenqualität und Datenverwaltung verfügt, um aussagekräftige Erkenntnisse zu liefern.

Data Mesh vs. Data Fabric

Eine Data Fabric ist ein Architekturkonzept, das sich auf die Automatisierung von Datenintegration, Datentechnik und Governance in einer Datenwertschöpfungskette zwischen Datenanbietern und Datennutzern konzentriert. Eine Data Fabric basiert auf dem Konzept der „aktiven Metadaten“, bei dem Wissensgraphen, Semantik und künstliche Intelligenz/maschinelles Lernen genutzt werden, um Muster in verschiedenen Arten von Metadaten (z. B. Systemprotokolle, soziale Medien usw.) zu erkennen und diese Erkenntnisse zur Automatisierung und Orchestrierung der Datenwertschöpfungskette zu nutzen (z. B. damit ein Datennutzer ein Datenprodukt finden und dieses automatisch bereitgestellt bekommen kann). Eine Data Fabric ist kein Ersatz für ein Data Mesh, sondern ergänzt es. Sie macht das Data Mesh sogar besser, weil sie wichtige Teile davon automatisieren kann, wie zum Beispiel das schnellere Erstellen von Datenprodukten, das Durchsetzen globaler Governance und das einfachere Zusammenführen mehrerer Datenprodukte.

Vorteile eines Data Mesh

Demokratisierung von Daten: Data-Mesh-Architekturen erleichtern Self-Service-Anwendungen aus mehreren Datenquellen und erweitern den Zugang zu Daten über technische Ressourcen wie Data Scientists, Datentechniker und Entwickler hinaus. Dadurch, dass die Daten durch dieses bereichsorientierte Design besser auffindbar und zugänglich sind, werden Datensilos und betriebliche Engpässe reduziert, was eine schnellere Entscheidungsfindung ermöglicht und technischen Nutzern die Möglichkeit zur Priorisierung von Aufgaben gibt, bei denen sie ihre Fähigkeiten besser einsetzen können.

Kosteneffizienz: Diese verteilte Architektur führt weg von der Batch-Datenverarbeitung und fördert stattdessen den Einsatz von Cloud-Datenplattformen und Streaming-Pipelines, um Daten in Echtzeit zu erfassen. Der Cloud-Speicher bietet einen zusätzlichen Kostenvorteil, da die Datenteams große Cluster nach Bedarf zusammenstellen können und nur für den benötigten Speicherplatz bezahlen. Wer also zusätzliche Rechenleistung benötigt, um einen Auftrag in Stunden statt Tagen auszuführen, kann dies in einer Cloud-Datenplattform durch den Erwerb zusätzlicher Rechenknoten problemlos erreichen. Das bedeutet auch, dass so der Überblick über die Speicherkosten verbessert wird, was wiederum eine bessere Budget- und Ressourcenzuweisung für die Entwicklungsteams ermöglicht.

Geringere technische Schulden: Eine zentrale Dateninfrastruktur bringt mehr technische Probleme mit sich, weil das System kompliziert ist und viel Zusammenarbeit braucht, um es am Laufen zu halten. Je mehr Daten sich in einem Repository sammeln, desto langsamer wird das ganze System. Wenn die Datenpipeline nach Zuständigkeiten aufgeteilt wird, können Datenteams besser auf die Bedürfnisse aller Datennutzer eingehen und so das Speichersystem entlasten. Außerdem können sie die Daten leichter zugänglich machen, indem sie APIs zur Verfügung stellen, wodurch die Gesamtzahl der einzelnen Anfragen sinkt.

Interoperabilität: Bei einem Data-Mesh-Modell einigen sich die Datenverantwortlichen im Voraus, wie bereichsübergreifende Datenfelder standardisiert werden sollen, was die Interoperabilität erleichtert. Auf diese Weise können die Bereichsteams bei der Strukturierung ihrer jeweiligen Datensätze die relevanten Regeln anwenden, um Daten schnell und einfach bereichsübergreifend zu verknüpfen. Zu den häufig standardisierten Feldern gehören Feldtypen, Metadaten, Schema-Flags und vieles mehr. Durch die Einheitlichkeit über verschiedene Bereiche hinweg können Datennutzer einfacher mit APIs arbeiten und Anwendungen entwickeln, die besser zu ihren Geschäftsanforderungen passen.

Sicherheit und Compliance: Data-Mesh-Architekturen sorgen für bessere Governance-Praktiken, weil sie bei der Durchsetzung von Datenstandards für bereichsunabhängige Daten und bei der Zugriffskontrolle für sensible Daten helfen. So wird sichergestellt, dass Unternehmen gesetzliche Vorschriften wie die HIPAA-Bestimmungen einhalten, während das Design dieses Daten-Ökosystems die Einhaltung durch Datenprüfungen unterstützt. Durch das Protokollieren und Verfolgen von Daten in einer Data-Mesh-Architektur wird die Observability fest im System verankert, sodass Prüfer sehen können, welche Benutzer auf bestimmte Daten zugreifen und wie oft das passiert.

Anwendungsfälle eines Data Mesh

Während verteilte Data-Mesh-Architekturen weiterhin auf dem Vormarsch sind, helfen sie Teams bereits heute dabei, ihre Ziele der Skalierbarkeit für gängige Big-Data-Anwendungsfälle zu erreichen. Dazu gehören:

  • Business-Intelligence-Dashboards: Wenn neue Initiativen entstehen, benötigen die Teams in der Regel angepasste Datenübersichten, um die Leistung dieser Projekte zu verstehen. Data-Mesh-Architekturen können dieses Bedürfnis nach Flexibilität und Anpassung unterstützen, indem sie Daten für die Nutzer besser zugänglich machen.

  • Automatisierte virtuelle Assistenten: Unternehmen setzen Chatbots häufig zur Unterstützung von Call-Centern und Kundenserviceteams ein. Da häufig gestellte Fragen verschiedene Datensätze betreffen können, kann eine verteilte Datenarchitektur mehr Daten-Assets für diese virtuellen Agentensysteme verfügbar machen.

  • Customer Experience:Kundendaten ermöglichen es Unternehmen, ihre Nutzer besser zu verstehen und ihnen ein personalisiertes Erlebnis zu bieten. Dies wurde in einer Vielzahl von Branchen beobachtet, vom Marketing bis zum Gesundheitswesen.

  • Projekte für maschinelles Lernen: Durch die Standardisierung von bereichsunabhängigen Daten können Data Scientists leichter Daten aus verschiedenen Datenquellen zusammenführen und so den Zeitaufwand für die Datenverarbeitung reduzieren. Diese Zeit kann dazu beitragen, die Anzahl der in eine Produktionsumgebung übernommenen Modelle zu beschleunigen und so die Ziele im Bereich der Automatisierung zu erreichen.
Weiterführende Lösungen
IBM Data Product Hub

Verwalten Sie Daten als Produkt über den gesamten Lebenszyklus hinweg. Verwaltung des Lebenszyklus von Datenprodukten vom Onboarding bis zur Stilllegung mit einem robusten System für die Versionierung, Pflege und Aktualisierung von Datenprodukten.

Data Product Hub erkunden
IBM Data-Intelligence-Lösungen

Wandeln Sie Rohdaten schnell in umsetzbare Erkenntnisse um, vereinheitlichen Sie Data Governance, Datenqualität, -herkunft und -freigabe und stellen Sie Ihren Datennutzern zuverlässige und kontextualisierte Daten zur Verfügung.

Data-Intelligence-Lösungen entdecken
Beratungsservices für Daten und Analysen

Erschließen Sie den Wert von Unternehmensdaten mit IBM Consulting und bauen Sie ein erkenntnisorientiertes Unternehmen auf, das Ihnen geschäftliche Vorteile verschafft.

Analysedienste erkunden
Machen Sie den nächsten Schritt

Um erfolgreich zu sein, müssen Unternehmen Daten nutzen, um die Kundenbindung zu stärken, Geschäftsprozesse zu automatisieren und mit KI-gestützten Lösungen Innovationen zu schaffen.

Analyselösungen entdecken Entdecken Sie den Data Product Hub