Un produit de données est un ensemble réutilisable et autonome qui combine des données, des métadonnées, de la sémantique et des modèles afin de prendre en charge divers cas d’utilisation métier. Parmi ses composants, on peut citer des jeux de données, des tableaux de bord, des rapports, des modèles de machine learning (ML), des requêtes prédéfinies ou encore des pipelines de données.
Le développement des produits de données s’appuie sur les principes traditionnels de la discipline et sur une approche orientée produit. Cette dernière consiste à comprendre les besoins des utilisateurs, à hiérarchiser les fonctionnalités à forte valeur ajoutée et à itérer en fonction des retours d’expérience. En fin de compte, elle considère les données comme un produit conçu pour résoudre des problèmes spécifiques rencontrés par les utilisateurs.
Les produits de données se caractérisent par leur découvrabilité, leur interopérabilité et leur exploitabilité. Ils permettent à tous, des utilisateurs professionnels aux data scientists en passant par les ingénieurs et les intendants des données, d’extraire une valeur significative des données piégées au sein de l’entreprise.
Le concept de « produit de données » a été popularisé en 2019 par Zhamak Dehghani, directrice technologique chez ThoughtWorks, une société de conseil en informatique, qui l’a présenté comme un élément central de l’architecture « data mesh ». Le concept de « data mesh » désigne une architecture de données décentralisée qui organise les données par domaine d’activité (marketing, ventes, service client, etc.) afin d’offrir plus d’autonomie aux producteurs de jeux de données.
Pour être efficace, un produit de données doit présenter plusieurs caractéristiques clés :
Les parties prenantes doivent pouvoir facilement découvrir et trouver le produit de données adapté à leur cas d’utilisation.
Un produit de données doit comprendre des métadonnées claires et être structuré en fonction de domaines d’activité spécifiques, afin de permettre aux consommateurs de données et aux équipes spécialisées d’interpréter et d’appliquer efficacement les informations.
Les produits de données doivent s’intégrer de manière transparente à d’autres systèmes afin de fournir des informations cohérentes sur toutes les plateformes.
Les produits de données doivent être regroupés en une unité cohérente pouvant être facilement distribuée dans toute l’organisation, afin de garantir une utilisation et une compréhension uniformes entre les équipes.
Les produits de données doivent être dotés de contrôles d’accès et de mesures de sécurité afin de garantir que seuls les utilisateurs autorisés peuvent accéder aux données, tout en respectant la conformité.
Un produit de données bien conçu doit être constitué de composants modulaires qui peuvent être réutilisés pour créer de nouveaux produits de données ou générer des informations dérivées, car cela augmente l’efficacité et réduit les efforts redondants.
Selon McKinsey, les entreprises orientées données ont 23 fois plus de chances d’acquérir des clients et 19 fois plus de chances d’être rentables. Cependant, malgré la demande croissante en matière de prise de décision fondée sur les données, de nombreuses organisations continuent de se heurter à un certain nombre d’obstacles, notamment les silos de données, l’enfermement propriétaire et les risques de non-conformité dus à des cadres de gouvernance des données insuffisants.
Pour relever ces défis, certaines organisations ont adopté une approche « donnée en tant que produit » (data-as-a-product ou DaaP), qui consiste à traiter les données en tant qu’actifs gérés et consommables plutôt qu’en tant que sous-produits des opérations.
Les méthodologies DaaP mettent l’accent sur la structuration et la gouvernance des données afin d’éclairer les décisions et d’améliorer l’expérience utilisateur. Sur cette base, les produits de données offre la possibilité de gérer les données de manière structurée et en libre-service, ce qui réduit la dépendance vis-à-vis des équipes techniques tout en facilitant la prise de décision en temps réel.
Les organisations qui investissent dans des produits de données constatent une amélioration de l’accès aux données, de l’interopérabilité, du stockage et de la gouvernance des données. Dans tous les secteurs, les produits de données permettent d’améliorer l’automatisation, de faciliter la prise de décision fondée sur les données et d’aligner la stratégie de données sur les objectifs à long terme de l’entreprise. En tirant parti de plateformes de données, de modèles de machine learning et d’outils de visualisation robustes, les organisations donnent à leurs équipes les moyens de maximiser la valeur de leurs données.
Les produits de données offrent souvent ces avantages en renforçant les capacités de différents rôles au sein de l’organisation :
La manière dont les organisations gèrent les données a évolué au fil du temps, passant d’une approche passive basée sur les actifs, à une stratégie active axée sur les produits.
Traditionnellement, les entreprises ont considéré les données avant tout comme des informations à collecter et à stocker. Selon cette approche, les données sont centralisées dans un entrepôt de données ou un système source, organisées par domaine (finance, marketing, etc.) et attribuées à des équipes centralisées. Les résultats sont souvent mesurés en fonction du volume de données stockées (en téraoctets, par exemple), dans l’espoir que le simple fait de disposer d’une plus grande quantité de données incitera les employés à les utiliser.
Cependant, les métadonnées sont généralement définies par les services informatiques et ne sont pas adaptées aux consommateurs de données. Par conséquent, une grande partie des efforts consacrés aux données porte sur l’analyse descriptive et le reporting, c’est-à-dire sur les événements passés plutôt que sur l’utilisation proactive des données pour résoudre des problèmes métier.
En revanche, considérer les données en tant que produit déplace l’attention du stockage vers l’utilisation et la création de valeur. Au cours de leur cycle de vie, les produits de données sont conçus, testés et itérés, à l’instar des produits logiciels qui suivent une méthodologie agile ou DataOps.
La propriété est spécifique à un domaine (par exemple, un produit de données marketing géré par des experts en marketing), ce qui garantit la pertinence et la qualité des données. Les données sont également organisées en fonction de besoins de consommation précis, avec des métadonnées détaillées fournies par l’entreprise. Les produits de données sont ainsi facilement découvrables et compréhensibles par les utilisateurs professionnels.
Étant donné que les propriétaires de données assument la responsabilité des produits de données, l’utilisation, la qualité et la valeur dérivée d’un produit font l’objet d’une surveillance continue via des boucles de rétroaction avec les utilisateurs finaux.
Les résultats se mesurent par l’amélioration de la prise de décision, l’augmentation du chiffre d’affaires ou la réduction des coûts, plutôt que par le nombre de téraoctets stockés. Par conséquent, la mise en place de produits de données permet de résoudre des problèmes métier grâce à des analyses avancées, telles que la modélisation prédictive et prescriptive.
Un produit de données bien structuré comprend plusieurs composants qui garantissent la fonctionnalité et l’utilisabilité au sein de l’écosystème de données de l’entreprise :
Les produits de données peuvent être classés en fonction de la qualité et du niveau de raffinement des données. Voici quelques exemples :
Produits de données provenant des systèmes sources. Ce type de produit de données brut (ou ayant subi une transformation minimale) sert souvent de base à des disciplines telles que la science des données et l’IA générative.
Produits de données qui ont été curés et consolidés en données maîtresses qui normalisent les entités clés (telles que les clients ou les produits) afin d’assurer la cohérence entre les systèmes.
Produits de données affinés, traités et conçus pour soutenir la prise de décision et générer des informations exploitables.
En suivant un cycle de gestion des produits structuré, les équipes chargées des données peuvent créer des produits de données qui restent utiles, évolutifs et adaptés aux besoins changeants de l’entreprise.
Voici les principales étapes du cycle de vie d’un produit de données :
Dans tous les secteurs, les organisations s’appuient sur des produits de données pour générer de la valeur, soutenir leurs initiatives stratégiques et résoudre des problèmes critiques.
Voici quelques exemples concrets de produits de données :
Pour développer des produits de données, il est nécessaire d’adopter une approche stratégique qui repose sur plusieurs éléments : la compréhension de la consommation des données, la cartographie des interactions avec les données, l’évaluation de la valeur marchande et l’itération pour la mise à l’échelle.
La première étape de création d’un produit de données consiste à analyser la manière dont les données sont actuellement consommées dans l’organisation. Cela implique d’identifier les utilisateurs cibles, de comprendre les données qu’ils utilisent et les raisons pour lesquelles ces données leur sont utiles.
L’examen de l’utilisation des données (volume, fréquence, sensibilité et type) permet de déterminer quels jeux de données ont le plus de valeur. Privilégier les groupes d’utilisateurs les plus influents constitue un excellent moyen d’orienter les efforts initiaux vers les domaines les plus susceptibles d’avoir un impact sur l’activité.
Une fois les modèles de consommation des données clairement définis, l’étape suivante consiste à cartographier le parcours des données. La création de cartes détaillées des interactions avec les données dans le monde réel permet de visualiser la manière dont les données circulent entre les différents systèmes et équipes.
Ces cartes peuvent servir de base à la réflexion autour de nouveaux cas d’utilisation générateurs de revenus. Formuler des hypothèses sur la manière dont les produits de données peuvent améliorer les processus métier permet aux organisations d’explorer différentes façons de transformer les données brutes en informations exploitables et pertinentes.
Une fois les informations validées, l’étape suivante consiste à itérer et à mettre à l’échelle. Plutôt que de s’en remettre uniquement aux équipes informatiques centrales, les organisations peuvent favoriser l’agilité et l’innovation en donnant aux domaines et équipes opérationnels les moyens d’affiner et d’améliorer le produit de données. Une fois les améliorations apportées, le projet peut être étendu à d’autres équipes et domaines, garantissant ainsi que le produit de données évolue correctement et continue de générer de la valeur pour l’entreprise.
Gérez les données en tant que produit tout au long de leur cycle de vie. Maîtrisez le cycle de vie des produits de données, de l’intégration à leur retrait, grâce à un système robuste de gestion des versions, de maintenance et de mise à jour des produits de données.
Transformez rapidement les données brutes en informations exploitables, unifiez la gouvernance, la qualité, la traçabilité et le partage des données, et offrez aux consommateurs des données fiables et contextualisées.
Avec IBM Consulting, exploitez les données de votre entreprise et développez une organisation basée sur les informations pour tirer des avantages métier.