Date de publication : 23 février 2024
Contributeurs : Tim Mucci, Cole Stryker
Le Data as a product (DaaP) est une approche de la gestion et de l’analyse des données où les ensembles de données sont traités comme des produits autonomes conçus, créés et gérés à l’intention des utilisateurs finaux. Ce concept consiste à appliquer les principes de gestion des produits au cycle de vie des données, en privilégiant la qualité, la simplicité d’utilisation et la satisfaction des utilisateurs.
Le concept de données en tant que produit est devenu une stratégie largement utilisée par les organisations qui souhaitent exploiter tout le potentiel de leurs actifs de données.
Le DaaP transforme les données brutes en un produit structuré, accessible et de valeur. Cette transformation encourage les organisations à considérer leurs données accumulées sur plusieurs décennies, constituées de documentation, d’ensembles de données et d’enregistrements numériques, comme un riche référentiel d’informations essentielles à la prise de décisions stratégiques et à l’engagement client.
Souvent enfermées dans des silos, les données sont peu accessibles et leur potentiel est sous-utilisé. L’émergence du DaaP marque un tournant dans cette démarche, en prônant une approche systématique de la gestion des données qui met l’accent sur l’accessibilité, la gouvernance et la fonctionnalité. Cette méthodologie repose sur le principe selon lequel les données, comme tout produit de consommation, doivent être méticuleusement gérées et organisées pour répondre aux besoins spécifiques de ses utilisateurs, qu’ils soient clients, employés ou partenaires.
Bien que liés, le DaaP et les produits de données servent des objectifs distincts dans le cadre de la gestion des données.
Le DaAP est une méthodologie holistique de gestion des données, en particulier dans le contexte des principes du data mesh, conçue pour traiter les données comme un produit commercialisable pouvant être proposé à différents utilisateurs au sein et en dehors de l’organisation. Le DaaP contient le code, ses données et ses métadonnées, ainsi que toute l’infrastructure nécessaire à son exécution.
Une plateforme d’informations client destinée à une entreprise de vente au détail est un bon exemple de DaaP. La plateforme regroupe les données clients sur plusieurs points de contact, tels que les achats en magasin, les comportements d’achat en ligne, les interactions avec le service client et l’engagement sur les réseaux sociaux, afin de créer une vue complète des préférences, des comportements et des habitudes d’achat de chaque client.
En revanche, les produits de données se concentrent sur l’exploitation des données pour fournir des informations et des solutions exploitables, telles que des tableaux de bord analytiques et des modèles prédictifs. Ils répondent à des problèmes spécifiques, s’appuient sur des techniques sophistiquées de traitement des données et s’adressent à un large public, notamment les chefs de produit, les data scientists et les utilisateurs finaux. Parmi les produits de données, citons les tableaux de bord d’analyse métier, les chatbots ou même les systèmes de recommandations, comme ce que vous voyez lorsque vous faites des achats sur Amazon.
Les deux concepts reposent sur une base commune de gestion et de gouvernance des données, dans l’objectif final de maximiser la valeur intrinsèque des données.
Lorsque les entreprises ont commencé à investir dans des technologies avancées de stockage de données afin de rendre les données largement accessibles et utilisables pour générer des informations métier et automatiser les décisions, les ingénieurs de données ont dû faire face à de nombreux défis, car les solutions n’évoluaient pas comme prévu. Comme les données étaient souvent truffées d’erreurs, incomplètes, dénuées de sens ou d’authenticité, et parce qu’ils comprenaient mal les domaines sources qui généraient ces données, les ingénieurs n’étaient pas en mesure de corriger ce qu’ils ne savaient pas ou ne comprenaient pas.
Les ingénieurs de données ont admis qu’ils devaient modifier leur approche pour concevoir des architectures distribuées modernes. Ils ont compris l’importance d’adopter une nouvelle méthodologie qui organise l’architecture autour des domaines d’activité spécifiques qu’elle vise à soutenir. Cette approche intègre la réflexion sur les produits pour développer une infrastructure de données en libre-service fonctionnelle et facile à utiliser.1
La réflexion sur les produits ne se limite pas à leurs caractéristiques ; il s’agit de créer des solutions rationnelles qui trouvent un écho auprès des utilisateurs et se distinguent sur le marché. Cette philosophie influence chaque étape du processus de développement d’un produit, de l’idéation au lancement et à l’itération. Les ingénieurs ont réalisé qu’en traitant les données comme un produit, ils pouvaient considérablement améliorer leur utilisation et leur valeur au sein de l’organisation.
En adoptant une approche qui traite les ensembles de données comme des produits, des équipes de domaine au sein de secteurs d’activité spécifiques sont constituées pour prendre en charge la gestion et la diffusion de leurs données dans l’ensemble de l’organisation, afin de mieux centrer l’expérience utilisateur pour les principaux consommateurs de ces données, généralement les data scientists et les ingénieurs des données.
Ces équipes de domaine partagent leurs données via des API (interface de programmation des applications), accompagnées d’une documentation complète, d’environnements de test robustes et d’indicateurs de performance clairs.
Un DaaP réussi doit répondre aux exigences suivantes :
Cela signifie que dans une méthodologie DaaP, les données doivent être faciles à trouver, fiables, claires dans leur représentation, intégrables à d’autres données et protégées contre les accès non autorisés.
Imaginez que le DaAP est comme un voyage en avion où chaque donnée est un passager : les organisations et les utilisateurs doivent savoir d’où provient chaque point de données, quelles transformations il a subies et quelle est sa destination. C’est ce que l’on appelle la traçabilité des données, qui est un élément crucial pour une adoption efficace du DaAP. À l’aide d’outils tels qu’IBM InfoSphere, AWS Glue ou Cloudera Data Hub, les organisations peuvent gérer les métadonnées et suivre le parcours des données pour garantir la transparence et éviter toute confusion.
Une fois que chaque passager a été correctement contrôlé, il monte à bord de l’avion. Tout comme la compagnie aérienne doit s’assurer que l’avion est suffisamment spacieux et solide pour accueillir les passagers, les organisations doivent utiliser une infrastructure évolutive capable de prendre en charge des volumes de données croissants et de multiples demandes d’accès. En fonction des besoins métier spécifiques de l’organisation et de ses segments de marché, il existe un certain nombre de plateformes basées sur le cloud, de solutions open source et de plateformes métier parmi lesquelles choisir.
Imaginez maintenant que vous avez besoin d’informations de vols, mais que le système est en panne. Cela sape la confiance des voyageurs et dépeint une compagnie aérienne comme peu fiable et inefficace, ce qui est exactement la raison pour laquelle les outils DaaP doivent constamment être à la hauteur. Pour ce faire, les organisations doivent également fournir des plans et des rapports clairs sur la récupération et la redondance des données.
Il n’y a pas de voyage aérien sans sécurité et il en va de même pour le DaaP. Les fonctionnalités de sécurité telles que le contrôle des accès basés sur les rôles, le chiffrement des données et les systèmes de détection des intrusions protègent les données sensibles et garantissent la conformité avec les réglementations comme le RGPD et la loi HIPAA. Les pratiques de gouvernance, y compris la surveillance de la qualité des données, le catalogage et la gestion du changement, garantissent que les données de l’organisation sont fiables et accessibles.
L’orchestration méticuleuse des ensembles de données est au cœur du DaaP. Ces ensembles de données sont organisés par les pratiques d’ingénierie des données, lesquelles impliquent la conception, la construction et la gestion de pipelines de données à grande échelle. Ces pipelines acheminent les données depuis les sources de données via un processus de bout en bout, transformant les données brutes en informations structurées et de haute qualité stockées dans des entrepôts de données ou des data lakes. Les plateformes de données constituent la base de ces opérations, car elles fournissent l’infrastructure et les outils nécessaires aux équipes chargées des données pour effectuer efficacement les tâches d’analyse et de science des données.
Les modèles de données et les schémas sont essentiels dans ce contexte, car ils définissent la manière dont les données sont organisées, stockées et mises en relation dans l’entrepôt de données ou le data lake. Ils veillent à ce que les données soient découvrables, accessibles et utilisables par les consommateurs de données, c’est-à-dire les analystes métier, les data scientists et les développeurs d’applications qui obtiennent des informations et créent des applications à partir de ces données. Le langage SQL (Structured Query Language) reste un outil essentiel pour interagir avec les données, permettant aux utilisateurs d’interroger, de manipuler et d’analyser les ensembles de données pour répondre à leurs besoins spécifiques.
Les équipes chargées des données utilisent des indicateurs pour évaluer la qualité, les performances et la valeur du produit de données. Ces indicateurs orientent les processus d’itération et d’amélioration continue, afin de garantir que le produit de données évolue en fonction des commentaires des consommateurs de données et de l’évolution des exigences métier.
Les API sont les canaux par lesquels les produits de données sont fournis aux utilisateurs finaux et aux applications. Elles facilitent l’accès, permettant aux consommateurs de données d’intégrer et d’utiliser les données dans divers cas d’utilisation, du reporting opérationnel aux projets avancés de machine learning et d’intelligence artificielle (IA). Cette capacité d’intégration souligne l’importance d’une stratégie API bien conçue dans le cycle de vie du DaaP, garantissant que les données sont non seulement accessibles mais également exploitables.
L’application du machine learning et de l’IA au sein du DaaP permet aux entreprises d’obtenir des informations prédictives et d’automatiser les processus décisionnels. En tirant parti des modèles de machine learning entraînés sur des données historiques, les entreprises peuvent anticiper les tendances futures, optimiser leurs opérations et créer des expériences client personnalisées. Cette utilisation avancée des données souligne la nature itérative du DaaP, dans lequel les produits de données sont continuellement affinés et améliorés en fonction des nouvelles données, des cas d’utilisation émergents et des commentaires des consommateurs de données.
Le DaaP prône la gestion du cycle de vie d’un produit de données, depuis sa création jusqu’à sa maintenance et son évolution au fil du temps. Cela implique une série d’étapes, notamment la planification, le développement, le déploiement et l’itération, chacune nécessitant une étroite collaboration entre les équipes de données, les parties prenantes de l’entreprise et les consommateurs de données. Cette approche du cycle de vie garantit que les produits de données restent pertinents, utiles et alignés sur les objectifs de l’entreprise.
Pour rendre les données plus utiles au sein d’une organisation, il est essentiel que les ensembles de données soient faciles à trouver, fiables et qu’ils puissent bien fonctionner avec d’autres données. La facilité de détection et d’exploitation des données DaaP dans l’organisation repose essentiellement sur la mise en place d’un registre ou d’un catalogue centralisé. Ce registre doit détailler toutes les données DaaP disponibles, y compris les métadonnées telles que la propriété, la source et la traçabilité, afin que les consommateurs de données, les ingénieurs et les scientifiques puissent localiser efficacement les ensembles de données pertinents.
En établissant des objectifs de niveau de service (SLO) relatifs à la véracité des données et en appliquant des tests rigoureux de nettoyage et d’intégrité des données dès le départ, les organisations peuvent renforcer la confiance des utilisateurs dans leurs données. En outre, les données doivent être autodescriptives et respecter les normes mondiales d’interopérabilité, permettant ainsi l’intégration des données dans différents domaines. Le rôle des propriétaires des produits de données et des ingénieurs est essentiel dans cet écosystème, en définissant et en pilotant la gestion du cycle de vie des données DaaP pour satisfaire les utilisateurs et respecter les normes de qualité. Cette approche nécessite non seulement des compétences variées en ingénierie des données et des logiciels, mais favorise également une culture de l’innovation, du partage des compétences et de la collaboration interfonctionnelle au sein de l’environnement technologique.
Le DaaP encourage les entreprises à considérer toutes les données comme des produits de valeur, reflétant les principes des produits basés sur le consommateur dans la gestion, la sélection, la personnalisation et la livraison des données. Cette approche favorise un flux transparent de données de haute qualité de ses créateurs à ses consommateurs, soutenu par des outils et un état d’esprit centrés sur le client. Imaginez que les données soient comme un produit que l’on voit dans les magasins. Selon la méthodologie DaaP, les organisations se doivent de traiter leurs données avec le même soin et la même attention que les produits matériels.
Cela signifie ne collecter et stocker que les données réellement utiles, en veillant à les présenter de manière claire, organisée, faciles à utiliser et en adéquation avec le contexte du secteur ou du domaine. Lorsque ces éléments sont en place, le DaaP permet de diffuser des données de haute qualité au sein de l’organisation, car un moteur bien huilé contribue au bon fonctionnement de la machine.
Appliquer une approche DaaP au sein d’une organisation signifie aligner les parties prenantes et les tenir informées, instaurer un état d’esprit où les données sont traitées et gérées comme un produit de haute qualité, et développer ou investir dans des outils en libre-service, l’un des principes du concept de data mesh, une approche évolutive de l’architecture de données décentralisée.
L’adoption du DaaP présente certains défis, notamment des préoccupations en matière de confidentialité des données, une résistance organisationnelle au changement et un besoin d’amélioration de la littératie des données par les employés. Pour surmonter ces difficultés, une planification stratégique, l’adhésion des membres de l’organisation et des investissements dans la technologie et les talents sont nécessaires.
Le suivi et le respect des réglementations en matière de confidentialité des données sur un marché mondial contenant différentes régions et règles sont un obstacle majeur. Les entreprises ont besoin de compétences et de ressources pour s’assurer que leurs produits DaaP respectent les réglementations strictes en vigueur dans chaque région.
Les violations de données font souvent la une des journaux et les consommateurs sont de plus en plus sensibilisés à la manière dont leurs données sont utilisées. Pour gagner la confiance des utilisateurs, il est essentiel de mettre en place des pratiques transparentes de traitement des données et une documentation claire sur l’usage qui en est fait dans le cadre du DaaP. Toute organisation qui envisage d’adopter le DaaP a besoin de mesures de sécurité solides pour protéger les données contre les violations et les accès non autorisés. Il s’agit notamment de mettre en œuvre le chiffrement, le contrôle des accès et des cadres de gouvernance des données.
Il ne suffit pas de disposer du bon matériel et des bons logiciels. Comme toujours, les nouveaux outils s’accompagnent d’une certaine résistance au changement. Dans les cultures organisationnelles bien établies, le DaaP représente en effet un bouleversement dans les domaines de la propriété, du partage et de l’accessibilité des données. Des stratégies efficaces de gestion du changement et une communication claire sont essentielles pour garantir l’adhésion des différents services et leur acceptation du partage de leurs données sans craindre de perdre le contrôle ou un avantage concurrentiel. Il est impératif de favoriser la collaboration et de démontrer les avantages du DaaP à toutes les parties prenantes. Des rôles et des responsabilités clairs en matière de gouvernance des données et de propriété du produit doivent être établis pour éviter toute confusion et blocage.
Le défi humain d’une initiative DaaP réussie ne s’arrête pas là. Étant donné que le DaaP exige que chacun soit attentif aux données, les entreprises peuvent rencontrer certaines lacunes de la part d’employés qui n’ont pas la connaissance des données. Les employés à tous les niveaux peuvent ne pas saisir pleinement les aspects techniques et la valeur métier du DaaP ; des programmes de sensibilisation et de formation peuvent aider à y remédier. Bon nombre d’employés peinent à analyser et à extraire des informations à partir des produits DaaP, mais des outils simples à utiliser et une formation à la littératie des données peuvent leur permettre d’améliorer leurs connaissances. En outre, les équipes techniques doivent traduire les analyses de données complexes en informations exploitables pour les parties prenantes non techniques.
Les applications des données en tant que produit concernent différents secteurs, chacun présentant des défis et des opportunités uniques. Par exemple, dans le domaine des soins de santé, un manque d’interopérabilité entre les systèmes peut nuire à la qualité des soins aux patients. Une plateforme DaaP peut normaliser et distribuer les données médicales en toute sécurité afin d’améliorer les recommandations de traitement et de coordonner les soins médicaux.
La Mayo Clinic met en œuvre le DaaP pour soutenir une médecine personnalisée : les données des patients issues de la génomique, des antécédents médicaux et des appareils portables sont intégrées et analysées, ce qui permet d’améliorer les diagnostics, les programmes de traitement et les mesures préventives.2
Dans un contexte financier, la conformité réglementaire et la prévention de la fraude sont des systèmes extrêmement complexes que les organisations doivent être capables de gérer. Les produits DaaP peuvent analyser les transactions financières en temps réel, alerter les autorités en cas d’activité suspecte et analyser et rationaliser le reporting réglementaire. Cela permet de prendre des décisions stratégiques mieux éclairées tout en respectant les réglementations.
JPMorgan Chase applique le DaAP pour lutter contre la fraude financière : les données des transactions sont analysées en temps réel pour identifier les activités suspectes et empêcher les transactions frauduleuses, protéger les clients et atténuer les pertes financières.3
Si le commerce de détail et le divertissement ne sont pas les seuls secteurs à utiliser les données pour prédire les tendances, ils figurent sans doute parmi les plus exposés au public. Les plateformes DaaP permettent d’analyser les données d’achat et de préférences des utilisateurs, que les entreprises utilisent pour personnaliser leurs campagnes marketing, optimiser leurs stratégies de tarification et prévoir la demande.
Walmart exploite le DaaP pour analyser les achats des clients sur tous les canaux afin de formuler des recommandations personnalisées et de mieux gérer les stocks.4
Netflix utilise le DaaP pour offrir une expérience de visionnage personnalisée. Les données des utilisateurs sur les films regardés, les évaluations et le comportement de navigation alimentent les algorithmes de recommandation, ce qui permet d’accroître l’engagement et la fidélisation des abonnés. 5
Les produits DaaP peuvent aussi être utilisés pour analyser les données des capteurs des machines afin d’identifier les inefficacités, planifier la maintenance de manière proactive et prédire les pannes potentielles, une aide précieuse pour le secteur de la fabrication.
Siemens déploie le DaaP dans ses usines en collectant des données à partir de capteurs sur les machines et les lignes de fabrication. L’analyse en temps réel permet d’effectuer une maintenance prédictive, d’éviter les temps d’arrêt et d’optimiser l’efficacité de la production.
L’utilisation généralisée des outils de visualisation des données, un élément crucial du DaaP, montre que les organisations s’investissent de plus en plus dans la compréhension des informations fondées sur les données. Cependant, le fait que de nombreuses entreprises s’appuient encore sur des feuilles de calcul montre qu’il reste encore du travail à accomplir pour montrer à quel point les solutions avancées de gestion des données intégrées peuvent être bénéfiques.
En tant que data lakehouse hybride et ouvert, watsonx.data vous permet de dimensionner l’intelligence artificielle (IA) et l’analytique avec toutes vos données, où qu’elles se trouvent
La solution en libre-service IBM Data Product Hub est utilisée pour partager des produits de données. Sur Data Product Hub, les producteurs de données peuvent publier des produits de données organisés et les partager avec les consommateurs. Ceux-ci disposent ainsi d’un accès facile aux produits de données pour leur entreprise.
Modernisez votre base de données sur n’importe quel cloud. Faites évoluer les applications, l’analytique et l’IA générative plus rapidement grâce à des bases de données spécialement conçues.
Découvrez comment une architecture de données moderne comme la data fabric contribue à façonner et à unifier une entreprise axée sur les données.
Découvrez comment la gouvernance des données permet aux entreprises de tirer le meilleur parti de leurs actifs de données.
Découvrez comment une plateforme de données moderne peut révolutionner votre entreprise en libérant des informations, en stimulant l’innovation et en éclairant les décisions à l’ère du numérique.
Découvrez comment améliorer vos résultats métier grâce aux informations d’IBM pour garantir la qualité des données, à la base d’analyses précises, et la prise de décisions éclairées.
1 How to Move Beyond a Monolithic Data Lake to a Distributed Data Mesh (lien externe à ibm.com), martinfowler.com, Mai 2019.
2 Mayo Clinic Platform expands its distributed data network to partner to globally transform patient care (lien externe à ibm.com), mayoclinic.org, Mai 2023.
3 JPMorgan Chase using advanced AI to détecte fraud (lien externe à ibm.com), americanbanker.com, Juillet 2023.
4 We Need People to Lean into the Future (lien externe à ibm.com), hbr.org, Mars 2017.
5 AI-based data analytics enable business insight (lien externe à ibm.com), technologyreview.com, Décembre 2022.