Qu’est-ce qu’un data mesh ?

Auteurs

Staff Editor

IBM Think

Staff Writer

IBM Think

Qu’est-ce qu’un data mesh ?

Un data mesh est une architecture de données décentralisée qui organise les données par domaine d’activité, tel que le marketing, les ventes ou le service client. Les producteurs de données de domaine traitent leurs données comme un produit, permettant aux utilisateurs professionnels de trouver, de comprendre et d’utiliser facilement les données provenant de l’ensemble de l’organisation.

Cette conception orientée domaine résout bon nombre des goulets d’étranglement opérationnels rencontrés dans les systèmes de données centralisés et monolithiques. Cependant, l’adoption d’un data mesh ne rend pas obsolètes les systèmes de stockage de données traditionnels (tels que les data lakes ou les entrepôts de données). Au contraire, leur rôle évolue : ils ne servent plus de plateformes de données uniques et centralisées, mais prennent en charge plusieurs référentiels de données décentralisés.

Le concept de maillage de données a été introduit et popularisé par Zhamak Dehghani, directeur des technologies émergentes pour la société de conseil informatique ThoughtWorks. Elle a proposé cette architecture de données distribuée comme solution aux défis inhérents aux architectures de données centralisées, tels que l’accessibilité limitée et les silos organisationnels.

Le data mesh est souvent comparé à une architecture de microservices, où une seule application est composée de nombreux services plus petits et faiblement couplés, car les deux mettent l’accent sur la décentralisation, l’autonomie et l’évolutivité.

Pourquoi utiliser un maillage de données ?

Chaque jour, les organisations créent et collectent d’énormes quantités de données. Chaque département ou unité métier génère des ensembles de données souvent stockés dans des dépôts disparates et généralement gérés par une équipe de données centralisée.

Cette séparation crée des silos de données — des collections isolées de données opérationnelles et analytiques qui entravent le partage des données, réduisent la qualité des données et affaiblissent la prise de décision basée sur les données. Les silos de données limitent également l'efficacité des initiatives relatives au Big Data, à l'apprentissage automatique (ML) et à l'intelligence artificielle (IA).

En réalité, selon le IBM Data Differentiator, 82 % des entreprises déclarent que les silos de données perturbent les workflows critiques, et 68 % des données d’entreprise ne sont pas analysées.

Les architectures de maillage de données distribuées répondent à ces défis en décentralisant la propriété et la gestion des données. Plutôt que de s'appuyer sur une équipe de données centralisée et des pipelines traditionnels, la propriété des données est transférée aux équipes de domaine. Ces équipes gèrent leurs propres données et les fournissent en tant que produit au reste de l'organisation via une infrastructure de données en libre-service.

Cette approche des données en tant que produit met l'accent sur l'accessibilité, la gouvernance et l'utilité. Elle repose sur le principe que les données, comme tout produit de consommation de haute qualité, doivent être gérées et organisées de manière à répondre aux besoins spécifiques de leurs utilisateurs.

Qu’est-ce qu’un produit de données ?

Un produit de données est un actif réutilisable et autonome qui comprend des données, des métadonnées, de la sémantique et des modèles. Il est conçu pour des cas d'utilisation spécifiques et pour servir un large éventail d'utilisateurs au sein de l'entreprise, en les aidant à extraire une valeur commerciale significative de données qui pourraient autrement être cloisonnées.

Le développement des produits de données s’appuie sur les principes traditionnels de la discipline et sur une approche orientée produit. Cette approche consiste à comprendre les besoins en données des utilisateurs, à prioriser les fonctionnalités à forte valeur ajoutée et à itérer en fonction des retours d'expérience.

Les produits de données efficaces doivent être découvrables, compréhensibles, interopérables, partageables, sécurisés et réutilisables.

Analyse approfondie : qu’est-ce qu’un produit de données ?

Les dernières actualités technologiques, étayées par des avis d’experts

Restez au fait des tendances les plus étonnantes du secteur dans le domaine de l’IA, de l’automatisation, des données et bien d’autres avec la newsletter Think. Consultez la Déclaration de confidentialité d’IBM.

Comment fonctionne le data mesh ?

Le paradigme du maillage de données est bien plus qu'une simple mise en œuvre technique. Elle implique un changement culturel dans la façon dont les organisations abordent la propriété et l’accès aux données. Traditionnellement, les organisations traitaient les données de domaine comme un sous-produit d'un processus ou d'un système. Toutefois, étant donné que le maillage des données traite les données comme un produit, les équipes de domaine deviennent les propriétaires du produit de données.

Selon Zhamak Dehghani, le data mesh repose sur quatre principes fondamentaux :¹

Propriété et architecture des données décentralisées et orientées vers un domaine
Données en tant que produit
Infrastructure de données en libre-service en tant que plateforme
Gouvernance informatique fédérée

Propriété et architecture des données décentralisées orientées domaine

Traditionnellement, une infrastructure centralisée ou une équipe d'ingénierie des données assurait la propriété des données dans tous les domaines. Dans un modèle de maillage de données, cette propriété est décentralisée et revient aux équipes de domaine — celles les plus proches des données et les plus familières avec leur utilisation. Ces propriétaires de données sont responsables de la production de produits de données adaptés à ces usages spécifiques.

Les équipes de domaine gèrent également leurs propres pipelines d’extraction, de transformation et de chargement (ETL) ou d’extraction, de chargement et de transformation (ELT) au sein d’une architecture de data mesh. Cependant, cette responsabilité n’élimine pas la nécessité d’une équipe d’ingénierie des données centralisée. Son rôle consiste désormais à fournir et maintenir les meilleures solutions d’infrastructure de données pour le stockage et la fourniture de produits de données.

Données en tant que produit

L'approche des données en tant que produit (DaaP) considère les jeux de données comme des produits commercialisables qui peuvent être servis à divers utilisateurs à l'intérieur et à l'extérieur d'une entreprise. Les produits de données de l'Entreprise sont rendus accessibles aux utilisateurs de l'Entreprise par le biais d'interfaces de programmation d’application (API) ou de plateformes de partage de données.

Ainsi, une approche de maillage de données permet une intégration des données plus flexible et des produits de données interopérables. Les données provenant de plusieurs domaines peuvent être facilement utilisées pour l'analyse des données, la science des données, l'apprentissage automatique et d'autres cas d'utilisation.

Infrastructure de données en libre-service en tant que plateforme

Une plateforme de données en libre-service dispose d’outils qui aident les équipes de domaine, qui ont moins de connaissances spécialisées sur la conception de produits, à créer, maintenir et partager de nouveaux produits de données. L’équipe de la plateforme de données peut fournir des services tels que le stockage de données Évolutif, l’orchestration des pipelines de données, la traçabilité des données et plus encore.

La plateforme en libre-service peut également comporter différents plans, ou couches, pour servir différents utilisateurs. M. Dehghani cite trois exemples : un plan d'approvisionnement de l'infrastructure de données, un plan d'expérience du développeur de produits de données et un plan de supervision du maillage de données.

Gouvernance fédérée et gestion des pipelines

Dans un écosystème de maillage de données, les équipes de domaine sont responsables de définir les politiques de gouvernance des données liées à la documentation, à la qualité et à l’accès. Cela inclut le maintien des définitions sémantiques, le catalogage des métadonnées et la définition des permissions et des politiques d’utilisation.

Cette normalisation favorise l'accès aux données en libre-service dans l'ensemble de l'organisation, tandis qu'une équipe centralisée de gouvernance des données établit et maintient des normes organisationnelles.

AI Academy

La gestion des données est-elle le secret de l’IA générative ?

Découvrez pourquoi des données de haute qualité sont essentielles pour une utilisation réussie de l’IA générative.

Accéder à l’épisode

Data mesh et data fabric

Data Fabric et Data Mesh sont des architectures de données complémentaires. En fait, les data fabric améliorent souvent la fonctionnalité et permettent la mise en œuvre d’un maillage de données.

Une data fabric utilise des systèmes intelligents et automatisés pour briser les silos, gérer les actifs de données et optimiser la gestion des données à l’échelle. Elle se concentre sur l’automatisation de l’ingestion, de l’intégration, de l’ingénierie et de la gouvernance des données. Ainsi, une data fabric peut automatiser des éléments clés du data mesh, tels que la création de produits de données et la gestion de leur cycle de vie.

Découvrez les différences entre data fabric et data mesh

Avantages du data mesh

Les organisations qui adoptent des architectures de maillage de données peuvent bénéficier de nombreux avantages, notamment :

Démocratisation et découvrabilité des données
Efficacité des coûts
Flexibilité à l’échelle
Réduction de la dette technique
Interopérabilité améliorée
Sécurité et conformité renforcées

Démocratisation des données et découvrabilité

Les architectures de maillage de données peuvent faciliter l'accès aux données en libre-service en rendant les jeux de données détectables et utilisables. Cette démocratisation élargit l’accès aux données au-delà des équipes techniques, telles que les data scientists, les ingénieurs de données et les développeurs. Avec une gouvernance adéquate, cette approche peut également réduire les silos de données et les blocages opérationnels, permettant ainsi une prise de décision plus rapide et plus agile.

Rentabilité économique

L’architecture distribuée du data mesh peut favoriser l’adoption de plateformes de données cloud et de pipelines pour la diffusion de données en temps réel. Ces outils peuvent améliorer la visibilité sur les coûts de stockage et de traitement, permettant une meilleure allocation du budget et des ressources pour les équipes d’ingénierie.

Flexibilité à l’échelle

Lorsque les organisations mettent en œuvre un maillage de données sur une infrastructure cloud, les équipes chargées des données peuvent adapter les ressources de stockage et de calcul en fonction des besoins. Par exemple, si une puissance de calcul supplémentaire est nécessaire pour terminer un travail en heures au lieu de jours, l’entreprise peut facilement fournir des nœuds de calcul temporaires et supplémentaires.

Réduction de la dette technique

La répartition de la responsabilité des pipelines de données par domaine élimine la complexité et la collaboration nécessaires au maintien d’un système de données centralisé. Cette approche décentralisée réduit les contraintes techniques et la dette technique, et accélère la mise à disposition aux consommateurs de données.

Interopérabilité améliorée

Le maillage des données encourage les équipes du domaine à se mettre d'accord sur des champs et des formats de données normalisés et agnostiques (tels que le type de champ, les métadonnées et les drapeaux de schéma). Ces règles partagées facilitent l'intégration et la réutilisation en permettant d'appliquer rapidement et facilement des règles pertinentes dans différents domaines.

Sécurité et conformité renforcées

Les architectures de maillage de données aident à appliquer les règles relatives aux données et les contrôles d'accès au niveau du domaine grâce à des règles standardisées et à une observabilité intégrée. Cette posture de gouvernance solide contribue à garantir que les organisations respectent les réglementations relatives aux données sensibles, telles que la loi américaine sur la portabilité et la responsabilité de l’assurance maladie (HIPAA).

Cas d’utilisation du data mesh

Grâce à la propriété du domaine et à un écosystème de données décentralisé, les architectures de maillage de données aident les entreprises à améliorer l'accessibilité et la facilité d'utilisation des données dans toute une série de cas d’utilisation, notamment :

Des tableaux de bord de Business intelligence (BI)

Les ensembles de données accessibles, détenus par le domaine et sélectionnés avec soin soutiennent les initiatives de BI. Les équipes peuvent facilement ajouter ces ensembles de données aux tableaux de bord BI et aux visualisations de données sans l'assistance technique d'une équipe centrale d'ingénierie des données.

Assistants virtuels automatisés

Les chatbots et les agents conversationnels performent mieux lorsqu’ils ont accès à des données de qualité et pertinentes. Une architecture data mesh permet de mettre à la disposition de ces systèmes des sources de données de haute qualité provenant de tous les domaines.

Expérience client

Les entreprises peuvent obtenir une vision plus unifiée de leurs clients en combinant des données clients standardisées provenant de tous les domaines. Cette vision peut améliorer l’expérience client globale, notamment les efforts de personnalisation et de ciblage.

Projets de machine learning et d'IA

Les données standardisées réduisent le temps que les data scientists doivent consacrer à combiner des données de différents domaines. Ce gain de temps accélère le traitement des données et augmente le nombre de modèles qui peuvent être déplacés vers un environnement de production.

Rendu 3D d'une spirale de plusieurs icônes alignées comme un appareil photo, un bouton de volume et un clipboard

Consultez le guide du responsable des données pour découvrir comment préparer les données de votre organisation à l'IA.

Ressources

Rendu 3D de plusieurs icônes alignées, comme un microphone et une caméra

Les agents d’IA s'appuient sur des données. Les vôtres sont-elles prêtes ?

Vos données sont votre avantage concurrentiel. Découvrez comment les exploiter en toute sécurité et générer un ROI mesurable grâce à l’IA dans ce court webinaire.

La gestion des données expliquée

Techsplainers by IBM présente l’essentiel des données pour l’IA, des concepts clés aux cas d’utilisation concrets. Des épisodes clairs et rapides vous permettent d’apprendre rapidement les principes fondamentaux.

Rendu 3D de plusieurs icônes alignées comme un bouton de volume et un presse-papiers

Unifiez vos données pour dimensionner votre IA

Découvrez pourquoi la mise en place de données adaptées à l’IA commence souvent par un accès efficace aux données structurées et non structurées, ainsi que les défis auxquels peuvent être confrontés les responsables des données.

Des frais juridiques aux informations stratégiques

Découvrez comment un agent juridique alimenté par l’IA aide à accélérer la prise de décision, à réduire le travail manuel et à améliorer la conformité.

Deux hommes qui discutent dans un podcast

AI Academy : Élaborer une stratégie de données pour l’IA d’entreprise

Dans cet épisode, Cathy Reese explique pourquoi les entreprises doivent aujourd’hui se doter d’une stratégie de données adaptée à l’IA avancée, en s’appuyant sur leurs ressources de données les plus qualitatives.

Rendu 3D de plusieurs icônes alignées telles qu’un appareil photo et des avions en papier

Le data lakehouse hybride et ouvert pour l'IA

Simplifiez l’accès aux données et automatisez la gouvernance des données. Découvrez la puissance de l’intégration d’une stratégie de data lakehouse dans votre architecture de données, notamment l’optimisation des coûts de vos workloads et le dimensionnement de l’IA et des analyses, avec toutes vos données, partout.

Rapport sur le coût d’une violation de données 2025

Les coûts liés aux violations de données ont atteint un nouveau sommet. Obtenez des informations actualisées sur les menaces de cybersécurité et leur incidence financière sur les entreprises.

Rendu 3D de deux lignes de plusieurs icônes telles qu’un appareil photo, un bouton de volume et un presse-papiers.

Guide du responsable des données adaptées à l’IA

Comprenez les mesures concrètes que les responsables des données peuvent prendre pour surmonter les défis en matière de données, établir les bases d'un socle de données de confiance et préparer les données de votre entreprise pour l’IA.

Rendu 3D de plusieurs icônes alignées comme un appareil photo, un bouton de volume et un clipboard

Comment la direction transforme les informations en impact

Découvrez les retours de 1 700 CDO dans ce rapport intersectoriel dédié aux responsables de données.

Solutions connexes

IBM StreamSets

Créez et gérez des pipelines intelligents de diffusion de données en continu via une interface graphique intuitive, facilitant ainsi une intégration fluide des données dans les environnements hybrides et multicloud.

Découvrir StreamSets

IBM watsonx.data

watsonx.data vous permet d’adapter le dimensionnement des analyses et de l’IA à toutes vos données, où qu’elles se trouvent, grâce à un entrepôt de données ouvert, hybride et gouverné.

Découvrir watsonx.data

Services de conseil pour les données et les analyses

Avec IBM Consulting, exploitez les données de votre entreprise et développez une organisation basée sur les informations pour tirer des avantages métier.

Découvrir les services d’analytique

Passez à l’étape suivante

Élaborez une stratégie de gestion des données qui élimine les silos, réduit la complexité et améliore la qualité des données pour offrir une expérience client et collaborateur exceptionnelle.

Notes de bas de page

¹ « Principes et architecture logique du maillage de données », Martin Fowler, 3 décembre 2020.

Qu’est-ce qu’un data mesh ?

Qu’est-ce qu’un data mesh ?

Pourquoi utiliser un maillage de données ?

Qu’est-ce qu’un produit de données ?

Les dernières actualités technologiques, étayées par des avis d’experts

Merci ! Vous êtes abonné(e).

Comment fonctionne le data mesh ?

Propriété et architecture des données décentralisées orientées domaine

Données en tant que produit

Infrastructure de données en libre-service en tant que plateforme

Gouvernance fédérée et gestion des pipelines

La gestion des données est-elle le secret de l’IA générative ?

Data mesh et data fabric

Avantages du data mesh

Démocratisation des données et découvrabilité

Rentabilité économique

Flexibilité à l’échelle

Réduction de la dette technique

Interopérabilité améliorée

Sécurité et conformité renforcées

Cas d’utilisation du data mesh

Ressources

Notes de bas de page