Was ist ein Data Mesh?

Autoren

Alexandra Jonker

Staff Editor

IBM Think

Alice Gomstyn

Staff Writer

IBM Think

Was ist ein Data Mesh?

Ein Data Mesh ist eine dezentralisierte Datenarchitektur, die Daten nach Geschäftsbereichen wie Marketing, Vertrieb oder Kundenservice ordnet. Domain-Datenproduzenten behandeln ihre Daten wie ein Produkt, sodass Geschäftsanwender Daten aus dem gesamten Unternehmen leicht finden, verstehen und verwenden können.

Dieses domänengesteuerte Design behebt viele der operativen Engpässe, die in zentralisierten, monolithischen Datensystemen auftreten. Die Einführung eines Data Mesh macht jedoch traditionelle Datenspeicher (wie Data Lake oder Data Warehouse) nicht obsolet. Stattdessen verlagern sich ihre Rollen von der Bereitstellung als einzelne, zentralisierte Datenplattformen hin zur Unterstützung mehrerer dezentraler Datenspeicher.

Das Konzept des Data Mesh wurde von Zhamak Dehghani, einem Director für neue Technologien bei der IT-Beratungsfirma ThoughtWorks, eingeführt und bekannt gemacht. Sie schlug diese verteilte Datenarchitektur als Lösung für die inhärenten Herausforderungen zentralisierter Datenarchitekturen vor, wie z. B. eingeschränkte Zugänglichkeit und organisatorische Silos.

Data Mesh wird häufig mit einer Microservice-Architektur verglichen – bei der eine einzelne Anwendung aus vielen kleineren, lose gekoppelten Diensten besteht –, da beide Dezentralisierung, Autonomie und Skalierbarkeit betonen.

Warum ein Data Mesh verwenden?

Jeden Tag erstellen und sammeln Organisationen riesige Datenmengen. Jede Abteilung oder Geschäftseinheit erstellt Datensätze, die oft in unterschiedlichen Repositories gespeichert und typischerweise von einem zentralisierten Datenteam verwaltet werden.

Diese Trennung schafft Silos – isolierte Sammlungen von operativen und analytischen Daten, die den Datenaustausch behindern, die Datenqualität verringern und datengesteuerte Entscheidungsfindung schwächen. Datensilos schränken auch die Effektivität von Initiativen in den Bereichen Big Data, maschinelles Lernen (ML) und künstliche Intelligenz (KI) ein.

Tatsächlich geben laut dem IBM Data Differentiator 82 % der Unternehmen an, dass Datensilos kritische Workflows stören, und 68 % der Unternehmensdaten bleiben unanalysiert.

Verteilte Datennetzarchitekturen lösen diese Herausforderungen, indem sie den Besitz und die Verwaltung von Daten dezentralisieren. Anstatt sich auf ein zentralisiertes Datenteam und traditionelle Pipelines zu verlassen, wird das Dateneigentum an die Domain-Teams übertragen. Diese Teams verwalten ihre eigenen Daten und stellen sie dem Rest des Unternehmens über Self-Service-Dateninfrastruktur zur Verfügung.

Dieser Data-as-a-Product-Ansatz legt Wert auf Zugänglichkeit, Governance und Nützlichkeit. Er basiert auf dem Prinzip, dass Daten, wie jedes hochwertige Konsumgut, so verwaltet und organisiert werden sollten, dass sie den spezifischen Datenbedürfnissen ihrer Nutzer gerecht werden.

Was ist ein Datenprodukt?

Ein Datenprodukt ist ein wiederverwendbares, in sich geschlossenes Asset, das Daten, Metadaten, Semantik und Vorlagen umfasst. Es ist für spezifische Anwendungsfälle konzipiert und soll einer Vielzahl von Anwendern im gesamten Unternehmen helfen, aus Daten, die sonst isoliert bleiben würden, einen sinnvollen Geschäftswert zu ziehen.

Datenprodukte werden anhand eines Product-Thinking-Ansatzes und unter Anwendung traditioneller Produktentwicklungsprinzipien entwickelt. Bei diesem Ansatz geht es darum, die Datenbedürfnisse der Benutzer zu verstehen, hochwertige Funktionen zu priorisieren und auf der Grundlage von Feedback zu iterieren.

Effektive Datenprodukte sollten auffindbar, verständlich, interoperabel, teilbar, sicher und wiederverwendbar sein.

Wie funktioniert ein Data Mesh?

Das Data-Mesh-Paradigma ist mehr als nur eine technische Umsetzung. Es geht um einen kulturellen Wandel in der Art und Weise, wie Unternehmen über Dateneigentum und -zugriff denken. Traditionell haben Unternehmen Domaindaten als Nebenprodukt eines Prozesses oder Systems behandelt. Da Data-Mesh-Daten jedoch als Produkt behandelt, werden die Domain-Teams zu Eigentümern der Datenprodukte.

Laut Zhamak Dehghani gibt es vier Kernprinzipien von Data Mesh:1

  1. Domänenorientierter dezentraler Datenbesitz und Architektur
  2. Daten als Produkt
  3. Self-Service-Dateninfrastruktur als Plattform
  4. Föderierte computergestützte Governance

Domänenorientierte dezentrale Datenhoheit und Architektur

Traditionell würde ein zentralisiertes Infrastruktur- oder Datentechnikteam die domänenübergreifende Datenhoheit behalten. In einem Data-Mesh-Modell ist dieses Eigentum dezentralisiert und verlagert sich auf Domänenteams – jene, die den Daten am nächsten sind und am besten mit deren Anwendungsmöglichkeiten vertraut sind. Diese Dateninhaber sind dafür verantwortlich, Datenprodukte zu erstellen, die auf diese spezifischen Anwendungen zugeschnitten sind.

Domänenteams verwalten außerdem ihre eigenen Extract, Transform, Load (ETL)/Extract, Load, Transform (ELT)-Pipelines innerhalb einer Data-Mesh-Architektur. Diese Verantwortung beseitigt jedoch nicht die Notwendigkeit eines zentralen Datenverarbeitungsteams. Stattdessen verlagert sich ihre Aufgabe auf die Bereitstellung und Pflege der besten Dateninfrastrukturlösungen für das Speichern und die Bereitstellung von Datenprodukten.

Daten als Produkt

Ein Data-as-a-Product (DaaP)-Ansatz behandelt Datensätze als marktfähige Produkte, die verschiedenen Nutzern innerhalb und außerhalb einer Organisation bereitgestellt werden können. Domänendatenprodukte werden den Nutzern der gesamten Organisation durch Anwendungsprogrammierschnittstellen (APIs) oder Datenaustauschplattformen zugänglich gemacht.

Auf diese Weise ermöglicht ein Data-Mesh-Ansatz eine flexiblere Datenintegration und interoperable Datenprodukte. Daten aus mehreren Bereichen können problemlos für Datenanalyse, Data Science, maschinelles Lernen und andere Anwendungsfälle verwendet werden.

Self-Service-Dateninfrastruktur als Plattform

Eine Self-Service-Datenplattform verfügt über Tools, die Domänenteams – mit weniger spezialisierten Produkten – dabei helfen, Wissen aufzubauen – neue Datenprodukte zu erstellen, zu pflegen und zu teilen. Das Datenplattform-Team kann Datendienstleistungen wie skalierbarer Datenspeicher, Datenpipeline-Orchestrierung, Datenabstammung und mehr anbieten.

Die Self-Service-Plattform kann auch verschiedene Ebenen oder Schichten haben, um verschiedene Benutzer zu bedienen. Dehghani nennt drei Beispiele: eine Ebene für die Bereitstellung der Dateninfrastruktur, eine Ebene für die Erfahrung der Entwickler von Datenprodukten und eine Ebene für die Überwachung des Datennetzes.

Föderierte Governance und Pipeline-Management

In einem Data-Mesh-Ökosystem sind Domänenteams für die Definition von Data-Governance-Richtlinien in Bezug auf Dokumentation, Qualität und Zugriff verantwortlich. Dazu gehört die Pflege semantischer Definitionen, die Katalogisierung von Metadaten sowie das Festlegen von Berechtigungen und Nutzungsrichtlinien.

Diese Standardisierung unterstützt den Self-Service-Datenzugriff im gesamten Unternehmen, während ein zentrales Data-Governance-Team organisatorische Standards festlegt und aufrechterhält.

AI Academy

Ist Datenverwaltung das Geheimnis generativer KI?

Erfahren Sie, warum qualitativ hochwertige Daten für den erfolgreichen Einsatz generativer KI unerlässlich sind.

Data Mesh vs. Data Fabric

Data Fabric und Data Mesh sind komplementäre Datenarchitekturen. Tatsächlich erweitern Data Fabrics oft die Funktionalität und ermöglichen die Implementierung eines Data Mesh.

Ein Data Fabric nutzt intelligente und automatisierte Systeme, um Silos abzubauen, Datenressourcen zu verwalten und Datenverwaltung in großem Maßstab zu optimieren. Es konzentriert sich auf die Automatisierung der Datenerfassung, Datenintegration, Data Engineering und Governance. Beispielsweise kann ein Data Fabric wichtige Teile des Data Mesh automatisieren, wie die Erstellung von Datenprodukten und die Verwaltung ihres Lebenszyklus.

Vorteile eines Data Mesh

Unternehmen, die Data-Mesh-Architekturen einsetzen, profitieren von einer Reihe von Vorteilen, darunter:

  • Datendemokratisierung und Auffindbarkeit
  • Kosteneffizienzen
  • Flexibilität bei der Skalierung
  • Weniger technische Probleme
  • Verbesserte Interoperabilität
  • Stärkere Sicherheit und Compliance

Datendemokratisierung und Auffindbarkeit

Data-Mesh-Architekturen können den Self-Service-Datenzugriff erleichtern, indem sie Datensätze auffindbar und nutzbar machen. Diese Demokratisierung erweitert den Datenzugang über technische Teams hinaus – wie Data Scientists, Data Engineers und Entwickler. Mit angemessener Governance kann dieser Ansatz auch Datensilos und operative Engpässe verringern und schnellere und agilere Entscheidungen ermöglichen.

Kosteneffizienzen

Die verteilte Architektur von Data Mesh kann die Nutzung von Cloud-Datenplattformen und -pipelines für Echtzeit-Datenstreaming fördern. Diese Tools können die Transparenz über Speicher- und Verarbeitungskosten verbessern und so ein besseres Budget und eine bessere Ressourcenzuweisung für Engineering-Teams ermöglichen.

Flexibilität bei der Skalierung

Wenn Unternehmen Data Mesh auf Cloud implementieren, können Datenteams Speicher und Ressourcen nach Bedarf skalieren. Wenn beispielsweise zusätzliche Rechenleistung erforderlich ist, um einen Auftrag in Stunden statt Tagen abzuschließen, kann das Unternehmen problemlos temporäre, zusätzliche Rechenknoten bereitstellen.

Weniger technische Probleme

Durch die Verteilung der Verantwortung für die Datenpipeline nach Bereichen entfallen die Komplexität und die Zusammenarbeit, die für die Pflege eines zentralisierten Datensystems erforderlich ist. Dieser dezentrale Ansatz reduziert technische Belastungen und Schulden und beschleunigt die Bereitstellung an Datennutzer.

Verbesserte Interoperabilität

Data Mesh ermutigt Domain-Teams , sich auf standardisierte, domänenunabhängige Datenfelder und -formate (wie Feldtyp, Metadaten und Schema-Flags) zu einigen. Diese gemeinsamen Regeln erleichtern die Integration und Wiederverwendung, indem sie die schnelle und einfache Anwendung relevanter Regeln in verschiedenen Bereichen ermöglichen.

Stärkere Sicherheit und Compliance

Data-Mesh-Architekturen helfen dabei, Datenregeln und Zugriffskontrollen auf Domänenebene durch standardisierte Regeln und eingebettete Observability durchzusetzen. Diese starke Governance-Position trägt dazu bei, sicherzustellen, dass Organisationen Vorschriften zu sensiblen Daten einhalten, wie zum Beispiel den US Health Insurance Portability and Accountability Act (HIPAA).

Anwendungsfälle eines Data Mesh

Durch Domain-Ownership und ein dezentrales Datenökosystem helfen Data-Mesh-Architekturen Organisationen, die Datenzugänglichkeit und -benutzerfreundlichkeit in verschiedenen Anwendungsfällen zu verbessern, darunter:

Dashboards für Business Intelligence (BI)

Auffindbare, domäneneigene und kuratierte Datensätze unterstützen BI-Initiativen. Teams können diese Datensätze problemlos zu BI-Dashboards und Datenvisualisierung hinzufügen, ohne die technische Unterstützung eines zentralen Data-Engineering-Teams.

Automatisierte virtuelle Assistenten

Chatbots und virtuelle Agenten schneiden am besten ab, wenn sie Zugang zu hochwertigen, relevanten Daten haben. Eine Data-Mesh-Architektur trägt dazu bei, dass mehr hochwertige Datenquellen aus verschiedenen Bereichen für diese Systeme verfügbar werden.

Customer Experience

Unternehmen können sich einen einheitlicheren Überblick über ihre Kunden verschaffen, indem sie standardisierte Kundendaten aus verschiedenen Domänen kombinieren. Diese Sichtweise kann die gesamte Customer Experience verbessern, einschließlich Personalisierung und Zielgruppen.

Maschinelles Lernen und KI-Projekte

Standardisierte Daten verringern die Zeit, die Data Scientists benötigen, um Daten aus verschiedenen Bereichen zu kombinieren. Diese Zeiteinsparung beschleunigt die Datenverarbeitung und erhöht die Anzahl der Modelle, die in eine Produktionsumgebung überführt werden können.

3D-Rendering einer Spirale aus mehreren nebeneinander angeordneten Symbolen, darunter eine Kamera, ein Lautstärkeregler und ein Klemmbrett
Weiterführende Lösungen
IBM® StreamSets

Erstellen und verwalten Sie intelligente Streaming-Datenpipelines über eine intuitive grafische Benutzeroberfläche, die eine nahtlose Datenintegration in Hybrid- und Multicloud-Umgebungen ermöglicht.

StreamSets erkunden
IBM watsonx.data

Watsonx.data ermöglicht es Ihnen, Analysen und KI mit all Ihren Daten zu skalieren, unabhängig davon, wo sie sich befinden, und zwar über einen offenen, hybriden und kontrollierten Datenspeicher.

IBM watsonx.data entdecken
Beratungsservices für Daten und Analysen

Erschließen Sie den Wert von Unternehmensdaten mit IBM Consulting® und bauen Sie ein erkenntnisgesteuertes Unternehmen auf, das Ihnen geschäftliche Vorteile verschafft.

Analyse-Services entdecken
Machen Sie den nächsten Schritt

Entwerfen Sie eine Datenstrategie, die Datensilos beseitigt, die Komplexität reduziert und die Datenqualität verbessert, um außergewöhnliche Kunden- und Mitarbeitererfahrungen zu schaffen.

  1. Lösungen für Datenmanagement erkunden
  2. IBM watsonx.data entdecken
Fußnoten

Data Mesh Principles and Logical Architecture“, Martin Fowler, 3. Dezember 2020.