Qu’est-ce qu’un produit de données ?

Baie de serveurs de données

Auteurs

Tom Krantz

Staff Writer

IBM Think

Alexandra Jonker

Staff Editor

IBM Think

Qu’est-ce qu’un produit de données ?

Un produit de données est un ensemble réutilisable et autonome qui combine des données, des métadonnées, de la sémantique et des modèles afin de prendre en charge divers cas d’utilisation métier. Parmi ses composants, on peut citer des jeux de données, des tableaux de bord, des rapports, des modèles de machine learning (ML), des requêtes prédéfinies ou encore des pipelines de données

Le développement des produits de données s’appuie sur les principes traditionnels de la discipline et sur une approche orientée produit. Cette dernière consiste à comprendre les besoins des utilisateurs, à hiérarchiser les fonctionnalités à forte valeur ajoutée et à itérer en fonction des retours d’expérience. En fin de compte, elle considère les données comme un produit conçu pour résoudre des problèmes spécifiques rencontrés par les utilisateurs. 

Les produits de données se caractérisent par leur découvrabilité, leur interopérabilité et leur exploitabilité. Ils permettent à tous, des utilisateurs professionnels aux data scientists en passant par les ingénieurs et les intendants des données, d’extraire une valeur significative des données piégées au sein de l’entreprise. 

Le concept de « produit de données » a été popularisé en 2019 par Zhamak Dehghani, directrice technologique chez ThoughtWorks, une société de conseil en informatique, qui l’a présenté comme un élément central de l’architecture « data mesh ». Le concept de « data mesh » désigne une architecture de données décentralisée qui organise les données par domaine d’activité (marketing, ventes, service client, etc.) afin d’offrir plus d’autonomie aux producteurs de jeux de données

Design 3D de balles roulant sur une piste

Les dernières actualités et informations en matière d’IA 


La newsletter hebdomadaire Think vous apporte toute l’actualité sur l’IA, le cloud et bien d’autres sujets. 

Principales caractéristiques d’un produit de données

Pour être efficace, un produit de données doit présenter plusieurs caractéristiques clés :

Découvrable

Les parties prenantes doivent pouvoir facilement découvrir et trouver le produit de données adapté à leur cas d’utilisation. 

compréhensible ;

Un produit de données doit comprendre des métadonnées claires et être structuré en fonction de domaines d’activité spécifiques, afin de permettre aux consommateurs de données et aux équipes spécialisées d’interpréter et d’appliquer efficacement les informations. 

Interopérable

Les produits de données doivent s’intégrer de manière transparente à d’autres systèmes afin de fournir des informations cohérentes sur toutes les plateformes. 

Partageable

Les produits de données doivent être regroupés en une unité cohérente pouvant être facilement distribuée dans toute l’organisation, afin de garantir une utilisation et une compréhension uniformes entre les équipes. 

Sécurisée

Les produits de données doivent être dotés de contrôles d’accès et de mesures de sécurité afin de garantir que seuls les utilisateurs autorisés peuvent accéder aux données, tout en respectant la conformité

Réutilisable

Un produit de données bien conçu doit être constitué de composants modulaires qui peuvent être réutilisés pour créer de nouveaux produits de données ou générer des informations dérivées, car cela augmente l’efficacité et réduit les efforts redondants. 

Pourquoi les produits de données sont-ils importants ?

Selon McKinsey, les entreprises orientées données ont 23 fois plus de chances d’acquérir des clients et 19 fois plus de chances d’être rentables. Cependant, malgré la demande croissante en matière de prise de décision fondée sur les données, de nombreuses organisations continuent de se heurter à un certain nombre d’obstacles, notamment les silos de données, l’enfermement propriétaire et les risques de non-conformité dus à des cadres de gouvernance des données insuffisants.

Pour relever ces défis, certaines organisations ont adopté une approche « donnée en tant que produit » (data-as-a-product ou DaaP), qui consiste à traiter les données en tant qu’actifs gérés et consommables plutôt qu’en tant que sous-produits des opérations.  

Les méthodologies DaaP mettent l’accent sur la structuration et la gouvernance des données afin d’éclairer les décisions et d’améliorer l’expérience utilisateur. Sur cette base, les produits de données offre la possibilité de gérer les données de manière structurée et en libre-service, ce qui réduit la dépendance vis-à-vis des équipes techniques tout en facilitant la prise de décision en temps réel. 

Les organisations qui investissent dans des produits de données constatent une amélioration de l’accès aux données, de l’interopérabilité, du stockage et de la gouvernance des données. Dans tous les secteurs, les produits de données permettent d’améliorer l’automatisation, de faciliter la prise de décision fondée sur les données et d’aligner la stratégie de données sur les objectifs à long terme de l’entreprise. En tirant parti de plateformes de données, de modèles de machine learning et d’outils de visualisation robustes, les organisations donnent à leurs équipes les moyens de maximiser la valeur de leurs données. 

Les produits de données offrent souvent ces avantages en renforçant les capacités de différents rôles au sein de l’organisation : 

  • Les data scientists et les ingénieurs d’IA accèdent plus rapidement aux données et aux éléments pertinents, ce qui accélère le développement et le déploiement des solutions d’IA et de ML. 
  • Les ingénieurs de données bénéficient de tests, d’un déploiement et d’une curation des données automatisés, ce qui garantit que les pipelines respectent les normes de qualité des données et les accords de niveau de service spécifiés dans les contrats de produits de données. 
  • Les analystes et les consommateurs de données reçoivent des données fiables et en temps opportun qui répondent à leurs besoins spécifiques et peuvent être rapidement mises à jour sans passer par une équipe informatique centrale. 
  • Les intendants des données peuvent maintenir un haut niveau de gouvernance et de conformité grâce à des contrats de données, en définissant des garde-fous clairs qui protègent les données et garantissent leur sécurité. 

Données en tant qu’actif et données en tant que produit 

La manière dont les organisations gèrent les données a évolué au fil du temps, passant d’une approche passive basée sur les actifs, à une stratégie active axée sur les produits.

Données en tant qu’actif (approche traditionnelle)

Traditionnellement, les entreprises ont considéré les données avant tout comme des informations à collecter et à stocker. Selon cette approche, les données sont centralisées dans un entrepôt de données ou un système source, organisées par domaine (finance, marketing, etc.) et attribuées à des équipes centralisées. Les résultats sont souvent mesurés en fonction du volume de données stockées (en téraoctets, par exemple), dans l’espoir que le simple fait de disposer d’une plus grande quantité de données incitera les employés à les utiliser. 

Cependant, les métadonnées sont généralement définies par les services informatiques et ne sont pas adaptées aux consommateurs de données. Par conséquent, une grande partie des efforts consacrés aux données porte sur l’analyse descriptive et le reporting, c’est-à-dire sur les événements passés plutôt que sur l’utilisation proactive des données pour résoudre des problèmes métier. 

Données en tant que produit (nouvelle approche)

En revanche, considérer les données en tant que produit déplace l’attention du stockage vers l’utilisation et la création de valeur. Au cours de leur cycle de vie, les produits de données sont conçus, testés et itérés, à l’instar des produits logiciels qui suivent une méthodologie agile ou DataOps.  

La propriété est spécifique à un domaine (par exemple, un produit de données marketing géré par des experts en marketing), ce qui garantit la pertinence et la qualité des données. Les données sont également organisées en fonction de besoins de consommation précis, avec des métadonnées détaillées fournies par l’entreprise. Les produits de données sont ainsi facilement découvrables et compréhensibles par les utilisateurs professionnels.

Étant donné que les propriétaires de données assument la responsabilité des produits de données, l’utilisation, la qualité et la valeur dérivée d’un produit font l’objet d’une surveillance continue via des boucles de rétroaction avec les utilisateurs finaux.  

Les résultats se mesurent par l’amélioration de la prise de décision, l’augmentation du chiffre d’affaires ou la réduction des coûts, plutôt que par le nombre de téraoctets stockés. Par conséquent, la mise en place de produits de données permet de résoudre des problèmes métier grâce à des analyses avancées, telles que la modélisation prédictive et prescriptive. 

  

Composantes d’un produit de données

Un produit de données bien structuré comprend plusieurs composants qui garantissent la fonctionnalité et l’utilisabilité au sein de l’écosystème de données de l’entreprise : 

  • Modèles et schémas de données : structures définies qui normalisent l’organisation des données, améliorant ainsi leur accessibilité et leur cohérence sémantique ; s’appuient souvent sur le langage SQL pour les requêtes et les transformations. 
  • Interfaces et API : mécanismes qui facilitent l’intégration avec les applications métier et autres, garantissant un accès transparent et sécurisé aux données. 
  • Visualisations et tableaux de bord : outils conviviaux qui présentent des informations sous forme de rapports interactifs ou d’affichages analytiques, facilitant l’interprétation des données. 
  • Modèles de ML : algorithmes prédictifs qui analysent les modèles dans les données, facilitant la prise de décisions éclairées grâce à des capacités informatiques avancées. 
  • Contrôles de sécurité et de gouvernance : politiques et mesures qui garantissent la conformité aux réglementations en matière de gouvernance des données, suivent la traçabilité des données et gèrent les contrôles d’accès afin de préserver l’intégrité et la sécurité des données. 

 

    Types de produits de données

    Les produits de données peuvent être classés en fonction de la qualité et du niveau de raffinement des données. Voici quelques exemples : 

    Basés sur les sources

    Produits de données provenant des systèmes sources. Ce type de produit de données brut (ou ayant subi une transformation minimale) sert souvent de base à des disciplines telles que la science des données et l’IA générative.

    Basés sur les données maîtresses

    Produits de données qui ont été curés et consolidés en données maîtresses qui normalisent les entités clés (telles que les clients ou les produits) afin d’assurer la cohérence entre les systèmes. 

    Axé sur l’information

    Produits de données affinés, traités et conçus pour soutenir la prise de décision et générer des informations exploitables. 

    Cycle de vie des produits de données

    En suivant un cycle de gestion des produits structuré, les équipes chargées des données peuvent créer des produits de données qui restent utiles, évolutifs et adaptés aux besoins changeants de l’entreprise. 

    ​Voici les principales étapes du cycle de vie d’un produit de données : 

    1. Définition : définissez l’objectif stratégique, le cas d’utilisation, les spécifications de conception et le contrat de données. Cela comprend des attributs tels que les conditions générales et les accords de niveau de service

    2. Développement : créez les composants du produit de données, tels que les tables, les vues, les modèles, les fichiers et les tableaux de bord. Testez-le ensuite pour vérifier qu’il est conforme au contrat de données. 

    3. Paquetage : regroupez les composants du produit de données dans un package réutilisable, enrichi de métadonnées métier et techniques pour faciliter la découverte au sein d’un catalogue de données ou d’un autre outil de stockage de données.

    4. Gouvernance : gérez les autorisations d’accès au produit de données conformément au contrat de données. 

    5. Publication : publiez votre produit de données sur un portail afin que les utilisateurs puissent le trouver.  

    6. Consommation : permettez aux consommateurs de l’organisation d’accéder facilement au produit de données afin de relever divers défis. Recueillez leurs commentaires afin d’améliorer les versions futures. 

    7. Surveillance et itération : effectuez une surveillance continue afin de contrôler l’utilisation, la qualité et l’accès. Mettez en œuvre un processus de gestion des versions afin de gérer les modifications apportées aux produits de données publiés. 

    8. Retrait : retirez le produit de données pour diverses raisons, par exemple une utilisation insuffisante ou une non-conformité. Mettez le produit hors service, informez les consommateurs, archivez les produits et nettoyez les ressources. 

    Cas d’utilisation des produits de données

    Dans tous les secteurs, les organisations s’appuient sur des produits de données pour générer de la valeur, soutenir leurs initiatives stratégiques et résoudre des problèmes critiques.  

    Voici quelques exemples concrets de produits de données :

    • Une grande banque nationale a mis en œuvre un produit de données client pour 60 cas d’utilisation différents, allant de la notation en temps réel du risque de crédit aux chatbots d’IA, sur plusieurs canaux. Elle a ainsi généré 60 millions de dollars de revenus supplémentaires et évité 40 millions de dollars de pertes. 

    • Une entreprise du secteur des biens de grande consommation a mis en place des produits de données en vue de rationaliser l’utilisation des données, et ainsi de gagner en efficacité et en évolutivité. En déployant plus de 50 équipes pluridisciplinaires chargées de mettre en œuvre des solutions basées sur les données, l’entreprise a augmenté son bénéfice avant intérêts, impôts, dépréciation et amortissement de 18 % en deux ans. 

    Créer et mettre à l’échelle les produits de données

    Pour développer des produits de données, il est nécessaire d’adopter une approche stratégique qui repose sur plusieurs éléments : la compréhension de la consommation des données, la cartographie des interactions avec les données, l’évaluation de la valeur marchande et l’itération pour la mise à l’échelle. 

    Analyser les schémas de consommation de données 

    La première étape de création d’un produit de données consiste à analyser la manière dont les données sont actuellement consommées dans l’organisation. Cela implique d’identifier les utilisateurs cibles, de comprendre les données qu’ils utilisent et les raisons pour lesquelles ces données leur sont utiles.  

    L’examen de l’utilisation des données (volume, fréquence, sensibilité et type) permet de déterminer quels jeux de données ont le plus de valeur. Privilégier les groupes d’utilisateurs les plus influents constitue un excellent moyen d’orienter les efforts initiaux vers les domaines les plus susceptibles d’avoir un impact sur l’activité. 

    Cartographier le parcours des données 

    Une fois les modèles de consommation des données clairement définis, l’étape suivante consiste à cartographier le parcours des données. La création de cartes détaillées des interactions avec les données dans le monde réel permet de visualiser la manière dont les données circulent entre les différents systèmes et équipes.  

    Ces cartes peuvent servir de base à la réflexion autour de nouveaux cas d’utilisation générateurs de revenus. Formuler des hypothèses sur la manière dont les produits de données peuvent améliorer les processus métier permet aux organisations d’explorer différentes façons de transformer les données brutes en informations exploitables et pertinentes. 

    Itérer et mettre à l’échelle 

    Une fois les informations validées, l’étape suivante consiste à itérer et à mettre à l’échelle. Plutôt que de s’en remettre uniquement aux équipes informatiques centrales, les organisations peuvent favoriser l’agilité et l’innovation en donnant aux domaines et équipes opérationnels les moyens d’affiner et d’améliorer le produit de données. Une fois les améliorations apportées, le projet peut être étendu à d’autres équipes et domaines, garantissant ainsi que le produit de données évolue correctement et continue de générer de la valeur pour l’entreprise. 

    Solutions connexes
    IBM Data Product Hub

    Gérez les données en tant que produit tout au long de leur cycle de vie. Maîtrisez le cycle de vie des produits de données, de l’intégration à leur retrait, grâce à un système robuste de gestion des versions, de maintenance et de mise à jour des produits de données.

    Découvrir Data Product Hub
    Solutions IBM Data Intelligence

    Transformez rapidement les données brutes en informations exploitables, unifiez la gouvernance, la qualité, la traçabilité et le partage des données, et offrez aux consommateurs des données fiables et contextualisées.

    Découvrir les solutions d’intelligence des données
    Services de conseil pour les données et les analyses

    Avec IBM Consulting, exploitez les données de votre entreprise et développez une organisation basée sur les informations pour tirer des avantages métier.

    Découvrir les services d’analytique
    Passez à l’étape suivante

    Pour prospérer, les entreprises doivent exploiter les données pour fidéliser leur clientèle, automatiser les processus métier et innover avec des solutions pilotées par l’IA.

    Explorer les solutions d’analytique Découvrez Data Product Hub