Qu'est-ce que le data mesh ?

Découvrez ce qu'est le data mesh, son rapport avec une data fabric et comment il tire parti de la décentralisation pour démocratiser les données dans une grande organisation

Des passants traversant une cour
Qu'est-ce que le data mesh ?

Le data mesh est une architecture de données décentralisée qui organise les données par domaine d'activité spécifique (par exemple, le marketing, les ventes, le service client, etc.). Un data mesh permet de transférer la propriété des données aux producteurs d'un jeu de données donné. Grâce à cette compréhension des données du domaine, les producteurs de données sont capables de définir des politiques de gouvernance des données axées sur la documentation, la qualité et l'accès. Cela permet également une utilisation en libre-service dans toute une organisation. Bien que cette approche fédérée élimine de nombreux goulots d'étranglement opérationnels associés aux systèmes monolithiques centralisés, cela ne signifie pas nécessairement que vous ne pouvez pas utiliser les systèmes de stockage traditionnels, comme les datalakes ou les entrepôts de données. Cela signifie simplement que leur utilisation est passée d'une plateforme de données unique et centralisée à plusieurs référentiels de données décentralisés.

Il convient de noter que le data mesh favorise l'adoption de technologies cloud natives et de plateformes cloud pour évoluer et atteindre les objectifs en termes de gestion des données. Ce concept est couramment comparé aux microservices pour aider le public à comprendre son utilisation dans ce contexte. Cette architecture distribuée étant particulièrement utile pour faire évoluer les besoins en données dans une organisation, on peut en déduire qu'un data mesh peut ne pas convenir à tous les types d'entreprises ; c'est-à-dire que les petites entreprises peuvent ne pas tirer parti d'un data mesh, car leurs données d'entreprise peuvent ne pas être aussi complexes que celles d'une grande organisation.  

Zhamak Dehghani, directrice de la technologie pour la société de conseil en informatique ThoughtWorks, est reconnue pour avoir promu le concept de data mesh en tant que solution aux défis inhérents aux structures de données centralisées et monolithiques, telles que l'accessibilité et l'organisation des données. Son adoption a été davantage stimulée par la pandémie de COVID-19 dans le but de provoquer un changement culturel et de réduire la complexité organisationnelle autour des données.


Comment fonctionne le data mesh ?

Un data mesh implique un changement culturel dans la façon dont les entreprises perçoivent leurs données. Au lieu d'utiliser les données comme un sous-produit d'un processus, elles deviennent le produit, sur lequel les producteurs de données agissent en tant que propriétaires de produits de données. Historiquement, une équipe d'infrastructure centralisée conservait la propriété des données dans tous les domaines, mais l'accent mis sur la réflexion produit dans le cadre d'un modèle de data mesh transfère cette propriété aux producteurs, car ils sont les experts en la matière. Leur compréhension des principaux consommateurs de données et de la manière dont ils exploitent les données opérationnelles et analytiques du domaine leur permet de concevoir des API en tenant compte de leurs intérêts. Bien que cette conception axée sur le domaine rende également les producteurs de données responsables de la documentation des définitions sémantiques, du catalogage des métadonnées et de la définition des politiques d'autorisations et d'utilisation, il existe toujours une équipe de gouvernance des données centralisée pour appliquer ces normes et procédures autour des données. De plus, alors que les équipes de domaine deviennent responsables de leurs pipelines de données ETL dans une architecture de data mesh, cela n'élimine pas le besoin d'une équipe d'ingénierie de données centralisée. Cependant, leur responsabilité se concentre davantage sur la détermination des meilleures solutions d'infrastructure de données pour les produits de données stockés.

Tout comme une architecture de microservices associe des services légers pour fournir des fonctionnalités à une application destinée aux entreprises ou aux consommateurs, un data mesh utilise des domaines fonctionnels pour définir des paramètres autour des données, leur permettant d'être traitées comme un produit qui peut être accessibles aux utilisateurs de l'ensemble de l'organisation. De cette façon, un data mesh permet une intégration de données plus flexible et des fonctionnalités interopérables, où les données de plusieurs domaines peuvent être immédiatement consommées par les utilisateurs pour l'analyse métier, l'expérimentation de la science des données, etc.


Data mesh vs datalake

Comme indiqué précédemment, un data mesh est une architecture de données distribuée, où les données sont organisées par domaine pour les rendre plus accessibles aux utilisateurs d'une organisation. Un datalake est un environnement de stockage à faible coût, qui héberge généralement des pétaoctets de données structurées, semi-structurées et non structurées pour l'analyse métier, l'apprentissage automatique et d'autres applications générales. Un data mesh est une approche architecturale des données, dont un datalake peut faire partie. Cependant, un datalake central est plus généralement utilisé comme dépotoir pour les données, car il est fréquemment utilisé pour ingérer des données qui n'ont pas encore d'objectif défini. En conséquence, il peut devenir un marécage de données, c'est-à-dire un datalake dépourvu de la qualité des données et des pratiques de gouvernance des données appropriées pour fournir des apprentissages pertinents.


Data mesh vs data fabric

Une data fabric est un concept d'architecture qui se concentre sur l'automatisation de l'intégration des données, l'ingénierie des données et la gouvernance dans une chaîne de valeur des données entre les fournisseurs de données et les consommateurs de données. Une data fabric est basée sur la notion de « métadonnées actives » qui utilise le graphe de connaissances, la sémantique et la technologie IA/ML pour découvrir des modèles dans divers types de métadonnées (par exemple, les journaux système, les réseaux sociaux, etc.) et appliquer ces informations afin d'automatiser et d'orchestrer la chaîne de valeur des données (par exemple, permettre à un consommateur de données de trouver un produit de données, puis de lui fournir automatiquement ce produit de données). Une data fabric est complémentaire d'un data mesh et non mutuellement exclusive. En fait, la data fabric améliore le data mesh, car elle peut automatiser ses éléments clés, tels que la création de produits de données plus rapidement, l'application d'une gouvernance globale et la simplification de l'orchestration de la combinaison de plusieurs produits de données.


Avantage du data mesh

Démocratisation des données : les architectures de data mesh facilitent les applications en libre-service à partir de plusieurs sources de données, élargissant l'accès aux données au-delà des ressources plus techniques, à savoir les scientifiques des données, les ingénieurs des données et les développeurs. En rendant les données plus détectables et accessibles via cette conception axée sur le domaine, le data mesh réduit les silos de données et les goulots d'étranglement opérationnels : la prise de décision est de fait plus rapide et les utilisateurs techniques peuvent ainsi hiérarchiser les tâches qui mettent davantage à profit leurs compétences.

Rentabilité : cette architecture distribuée s'éloigne du traitement de données par lots et favorise plutôt l'adoption de plateformes de données cloud et de pipelines de streaming pour collecter des données en temps réel. Le stockage dans le cloud offre un avantage supplémentaire en terme de coûts : les équipes en charge des données peuvent créer de grands clusters selon les besoins, et ne payent que pour le stockage utilisé. Ainsi, si vous avez besoin d'une puissance de calcul supplémentaire pour exécuter une tâche en quelques heures et non pas en quelques jours, vous pouvez facilement le faire sur une plateforme cloud en achetant des nœuds de calcul supplémentaires. Cela signifie également que le data mesh améliore la visibilité sur les coûts de stockage, en permettant une meilleure allocation du budget et des ressources pour les équipes d'ingénierie.

Une dette technique moindre : une infrastructure de données centralisée entraîne une dette technique plus importante en raison de la complexité et de la collaboration requise pour maintenir le système. Au fur et à mesure que les données s'accumulent dans un référentiel, elles commencent également à ralentir le système global. En répartissant le pipeline de données par propriété de domaine, les équipes en charge des données peuvent mieux répondre aux demandes de leurs consommateurs de données et réduire les contraintes techniques sur le système de stockage. Elles peuvent également fournir une plus grande accessibilité aux données à l'aide d'API avec lesquelles les utilisateurs peuvent s'interfacer, ce qui permet de réduire le volume global de demandes individuelles.

Interopérabilité : dans le cadre d'un modèle de data mesh, les propriétaires de données s'accordent sur la manière de normaliser à l'avance les champs de données indépendants du domaine, ce qui facilite l'interopérabilité. Ainsi, lorsqu'une équipe de domaine structure ses jeux de données respectifs, elle applique les règles pertinentes pour permettre de lier rapidement et facilement les données entre les domaines.  Les champs couramment normalisés sont les suivants : le type de champ, les métadonnées, les indicateurs de schéma, etc. La cohérence entre les domaines permet aux consommateurs de données de s'interfacer plus facilement avec les APIs et de développer des applications pour répondre de manière plus appropriée à leurs besoins métier.

Sécurité et conformité : les architectures de data mesh favorisent des pratiques de gouvernance plus solides, car elles permettent d'appliquer des normes de données pour les données indépendantes du domaine et des contrôles d'accès pour les données sensibles. Cela garantit que les organisations respectent les réglementations gouvernementales, telles que les restrictions HIPPA. De plus, la structure de cet écosystème de données prend en charge cette conformité grâce à l'activation des audits de données. Les données de journalisation et de suivi dans une architecture de data mesh intègrent l'observabilité dans le système, ce qui permet aux auditeurs de savoir quels sont les utilisateurs qui accèdent à des données spécifiques et la fréquence de cet accès.


Cas d'utilisation d'un data mesh

Alors que les architectures de data mesh distribuées sont de plus en plus adoptées, elles permettent aux équipes d'atteindre leurs objectifs en termes d'évolutivité pour les cas d'utilisation courants du Big Data. Ces derniers comprennent :

  • Des tableaux de bord d'informatique décisionnelle : à mesure que de nouvelles initiatives surgissent, les équipes ont généralement besoin de vues de données personnalisées pour comprendre les performances de ces projets. Les architectures de data mesh peuvent répondre à ce besoin de flexibilité et de personnalisation en rendant les données plus accessibles aux consommateurs de données. 
  • Des assistants virtuels automatisés : les entreprises utilisent couramment des chatbots pour assister les centres d'appels et les équipes de service client. Les questions fréquemment posées pouvant concerner divers jeux de données, une architecture de données distribuée peut rendre plus d'actifs de données disponibles pour ces systèmes d'agents virtuels.
  • Expérience client : les données clients permettent aux entreprises de mieux comprendre leurs utilisateurs ; elles peuvent ainsi leur proposer des expériences plus personnalisées. Cela a été observé dans une variété de secteurs, allant du marketing aux soins de santé.
  • Projets d'apprentissage automatique : en normalisant les données indépendantes du domaine, les scientifiques des données peuvent plus facilement assembler des données provenant de diverses sources de données, ce qui permet de réduire le temps consacré au traitement des données. Ce temps peut permettre d'augmenter le nombre de modèles qui passent dans un environnement de production, et d'atteindre les objectifs d'automatisation.

Solutions IBM

IBM Cloud Pak for Data

IBM prend en charge la mise en œuvre d'un data mesh avec IBM Data Fabric sur Cloud Pak for Data. IBM Data Fabric est une solution unifiée qui contient toutes les fonctionnalités nécessaires pour créer des produits de données et permettre l'accès et l'utilisation gouvernés et orchestrés de ces produits de données. IBM Data Fabric permet la mise en œuvre d'un data mesh sur n'importe quelle plateforme (par exemple, des datalakes sur site, des entrepôts de données dans le cloud, etc.), permettant un véritable libre-service au niveau de l'entreprise et la réutilisation des produits de données, peu importe où se trouvent les données.



Passer à l'étape suivante

IBM prend en charge la mise en œuvre d'un data mesh via ses solutions de data fabric. L'approche d'IBM en matière de data fabric résout quatre principaux problèmes courants des clients : la gouvernance et la confidentialité des données, l'intégration de données multicloud, MLOps et une IA digne de confiance et Customer 360, qui sont tous fournis sur sa plateforme de cloud hybride, IBM Cloud Pak for Data.