Qu’est-ce qu’un datamart ?

21 octobre 2021

Qu’est-ce qu’un datamart ?

Un datamart est un sous-ensemble d’un entrepôt de données axé sur un secteur d’activité, un service ou un domaine particulier. Les datamarts peuvent améliorer l’efficacité des équipes, réduire les coûts et faciliter la prise de décisions tactiques plus éclairées dans les entreprises.

Ils mettent des données spécifiques à la disposition d’un groupe d’utilisateurs défini, ce qui permet à ces derniers d’accéder rapidement à des informations critiques sans avoir à parcourir l’ensemble d’un entrepôt de données. Ainsi, de nombreuses entreprises disposent d’un datamart dédié à un service spécifique, tel que la finance, les ventes ou le marketing.

Design 3D de balles roulant sur une piste

Les dernières actualités et informations en matière d’IA 


La newsletter hebdomadaire Think vous apporte toute l’actualité sur l’IA, le cloud et bien d’autres sujets. 

Datamart, entrepôt de données et data lake

Les datamarts, les entrepôts de données et les data lakes sont des référentiels centraux essentiels, mais ils répondent à des besoins différents au sein d’une organisation.

Un entrepôt de données est un système qui agrège les données issues de plusieurs sources dans un référentiel centralisé et cohérent, afin de permettre l’exploitation de l’intelligence artificielle (IA) et du machine learning, ainsi que la fouille de données. Ces facteurs permettent d’améliorer les capacités analytiques et l’intelligence décisionnelle. Grâce à ce processus stratégique de collecte, les solutions d’entrepôt de données consolident les informations provenant de différentes sources pour les rendre disponibles sous une forme unifiée.

Un datamart (comme indiqué ci-dessus) est une version ciblée d’un entrepôt de données qui contient un sous-ensemble plus restreint de données importantes et nécessaires à une seule équipe ou à un groupe d’utilisateurs sélectionnés d’une entreprise. Un datamart est créé à partir d’un entrepôt de données existant (ou d’autres sources de données) grâce à une procédure complexe qui implique plusieurs technologies et outils pour concevoir et construire une base de données physique, la remplir de données et mettre en place des protocoles d’accès et de gestion complexes.

Bien que ce processus soit délicat, il permet à un secteur d’activité d’obtenir des informations plus ciblées plus rapidement qu’en travaillant avec un jeu de données plus large provenant d’un entrepôt de données. Par exemple, les équipes marketing peuvent tirer parti de la création d’un datamart à partir d’un entrepôt existant, car leurs activités sont généralement indépendantes du reste des activités. Elles n’ont donc pas besoin d’accéder à toutes les données de l’entreprise.

Un data lake est également un référentiel de données. Il offre un stockage massif de données non structurées ou brutes provenant de multiples sources, mais ces informations n’ont pas encore été traitées ni préparées pour être analysées. Comme ils permettent de stocker les données dans leur format brut, les data lakes sont plus accessibles et plus rentables que les entrepôts de données. Il n’est pas nécessaire de nettoyer et de traiter les données avant de les ingérer.

Ainsi, les administrations publiques peuvent exploiter cette technologie pour suivre les données relatives au trafic routier, à la consommation d’électricité et aux voies navigables, puis les stocker dans un data lake pendant qu’elles réfléchissent à la meilleure façon d’utiliser ces données pour créer des « villes intelligentes » offrant des services plus efficaces.

AI Academy

La gestion des données est-elle le secret de l’IA générative ?

Découvrez pourquoi des données de haute qualité sont essentielles pour une utilisation réussie de l’IA générative.

Avantages d’un datamart

Les datamarts sont conçus pour répondre aux besoins de groupes spécifiques en traitant des données sur un sujet relativement restreint. Même si un datamart peut contenir des millions d’enregistrements, son objectif est de fournir aux utilisateurs professionnels les données les plus pertinentes dans les délais les plus courts.

Grâce à sa conception plus petite et plus ciblée, un datamart présente plusieurs avantages pour l’utilisateur final :

  • Rentabilité : de nombreux facteurs doivent être pris en compte lors de la mise en place d’un datamart, tels que la portée, les intégrations et le processus d’extraction, de transformation et de chargement (ETL). Cependant, un datamart ne représente généralement qu’une fraction du coût d’un entrepôt de données.

  • Accès simplifié aux données : les datamarts ne contiennent qu’un petit sous-ensemble de données, ce qui permet aux utilisateurs de récupérer rapidement les données dont ils ont besoin, sans avoir à effectuer autant de tâches que lorsqu’ils travaillent avec un jeu de données plus vaste provenant d’un entrepôt de données.

  • Accès plus rapide aux informations : l’intuition acquise grâce à un entrepôt de données facilite la prise de décisions stratégiques au niveau de l’entreprise, ce qui a un impact sur l’ensemble de l’activité. Un datamart alimente la business intelligence et les analyses qui guident les décisions au niveau des services. Les équipes peuvent exploiter des informations ciblées en fonction de leurs objectifs spécifiques. Comme elles identifient et extraient les données utiles en moins de temps, l’entreprise bénéficie d’une accélération des processus métier et d’une productivité accrue.

  • Maintenance des données simplifiée : un entrepôt de données contient une multitude d’informations métier pouvant concerner plusieurs secteurs d’activité. Les datamarts sont axés sur un seul secteur et contiennent moins de 100 Go, ce qui réduit l’encombrement et facilite la maintenance.

  • Mise en œuvre plus facile et plus rapide : un entrepôt de données nécessite un temps de mise en œuvre important, en particulier dans une grande entreprise, car il collecte des données provenant d’une multitude de sources internes et externes. En revanche, vous n’avez besoin que d’un petit sous-ensemble de données pour configurer un datamart. La mise en œuvre est donc généralement plus efficace et moins longue.

Types de datamarts

Il existe trois types de datamarts, qui diffèrent en fonction de leur relation avec l’entrepôt de données et les sources de données respectives de chaque système.

  • Les datamarts dépendants sont des segments partitionnés au sein d’un entrepôt de données d’entreprise. Cette approche descendante commence par le stockage de toutes les données métier dans un emplacement central. Les nouveaux datamarts extraient un sous-ensemble défini des données primaires chaque fois que cela est nécessaire pour l’analyse.

  • Les datamarts indépendants fonctionnent comme un système autonome qui ne repose pas sur un entrepôt de données. Les analystes peuvent extraire des données sur un sujet ou un processus métier particulier à partir de sources de données internes ou externes, les traiter, puis les stocker dans un référentiel de datamart jusqu’à ce que l’équipe en ait besoin.

  • Les datamarts hybrides combinent les données provenant des entrepôts de données existants et d’autres sources opérationnelles. Cette approche unifiée tire parti de la rapidité et de l’interface conviviale d’une approche descendante, tout en offrant l’intégration de niveau entreprise de la méthode indépendante.

Structure d’un datamart

Un datamart est une base de données relationnelle thématique qui stocke des données transactionnelles sous forme de lignes et de colonnes, ce qui facilite leur accès, leur organisation et leur compréhension. Comme elle contient des données historiques, cette structure permet à un analyste d’identifier plus facilement les tendances. Les champs de données types comprennent l’ordre numérique, la valeur temporelle et les références à un ou plusieurs objets.

Les entreprises organisent les datamarts dans un schéma multidimensionnel qui sert de schéma directeur pour répondre aux besoins des personnes qui exploitent les bases de données à des fins d’analyse. Les trois principaux types de schémas sont le schéma en étoile, en flocon de neige et le coffre-fort.

Schéma en étoile

Le schéma en étoile est une formation logique de tables dans une base de données multidimensionnelle qui ressemble à une étoile. Dans ce modèle, une table de faits (un ensemble d’indicateurs liés à un événement ou un processus métier spécifique) se trouve au centre de l’étoile, entourée de plusieurs tables de dimensions associées.

Il n’y a pas de dépendance entre les tables de dimensions, ce qui réduit le nombre de jointures nécessaires lors de l’écriture de requêtes. Cette structure facilite les requêtes ; les schémas en étoile sont donc très efficaces pour les analystes qui souhaitent accéder à de grands jeux de données et les parcourir.

Schéma en flocon de neige

Un schéma en flocon de neige est une extension logique d’un schéma en étoile, qui complète le schéma avec des tables de dimensions supplémentaires. Les tables de dimensions sont normalisées afin de protéger l’intégrité des données et de minimiser la redondance.

Bien que cette méthode exige moins d’espace pour stocker les tables de dimensions, il s’agit d’une structure complexe qui peut être difficile à entretenir. Le principal avantage du schéma en flocon de neige est son faible encombrement disque, mais il présente l’inconvénient d’avoir un impact négatif sur les performances en raison des tables supplémentaires.

Coffre-fort

Le coffre-fort de données, ou Data Vault, est une méthode moderne de modélisation de base de données, conçue pour permettre aux professionnels de l’informatique de créer des entrepôts de données d’entreprise plus agiles. Cette approche impose une structure en couches et a été développée précisément pour répondre aux problèmes d’agilité, de flexibilité et d’évolutivité rencontrés avec d’autres modèles de schémas.

Le coffre-fort de données élimine le besoin de nettoyage du schéma en étoile et rationalise l’ajout de nouvelles sources de données sans perturber le schéma existant.

Qui utilise les datamarts (et comment) ?

Les datamarts guident les décisions commerciales importantes au niveau des services. Ainsi, une équipe marketing peut s’en servir pour analyser les comportements des consommateurs, tandis que le personnel commercial peut les utiliser pour compiler des rapports de ventes trimestriels. Comme ces tâches sont effectuées au sein de leurs services respectifs, les équipes n’ont pas besoin d’accéder à toutes les données de l’entreprise.

En général, un datamart est créé et géré par le service métier qui a l’intention de l’exploiter. Le processus de conception d’un datamart comprend généralement les étapes suivantes :

  1. Documenter les exigences essentielles permet de bien comprendre les besoins métiers et techniques du datamart.

  2. Identifiez les sources de données sur lesquelles votre datamart s’appuiera pour obtenir des informations.

  3. Déterminez le sous-ensemble de données, qu’il s’agisse de toutes les informations sur un sujet ou de champs spécifiques à un niveau plus granulaire.

  4. Concevez la structure logique du datamart en choisissant un schéma qui correspond à l’entrepôt de données plus vaste.

Une fois cette base établie, vous pouvez tirer le meilleur parti d’un datamart à l’aide d’outils spécialisés de business intelligence, tels que Qlik ou SiSense. Ces solutions comprennent un tableau de bord et des visualisations qui facilitent l’interprétation des données, permettant ainsi de prendre des décisions plus éclairées qui profitent à l’entreprise.

Datamart et architecture cloud

Si les datamarts offrent aux organisations une efficacité et une flexibilité accrues, la croissance inexorable des données pose toutefois un problème à celles qui continuent d’utiliser une solution sur site.

À mesure que les entrepôts de données migrent vers le cloud, les datamarts en feront de même. En consolidant les ressources de données dans un référentiel unique contenant tous les datamarts, les entreprises peuvent réduire leurs coûts et garantir à tous leurs services un accès illimité aux données dont ils ont besoin en temps réel.

Les plateformes basées sur le cloud permettent de créer, partager et stocker facilement des jeux de données volumineux, ouvrant ainsi la voie à un accès et à une analyse plus efficaces et plus performants des données. Les systèmes cloud sont conçus pour une croissance durable des entreprises. De nombreux fournisseurs modernes de logiciels en tant que service (SaaS) séparent le stockage des données du calcul afin d’améliorer l’évolutivité lors de l’interrogation des données.

Solutions connexes
IBM watsonx.data

Watsonx.data vous permet d’adapter le dimensionnement des analyses et de l’IA à toutes vos données, où qu’elles se trouvent, grâce à un entrepôt de données ouvert, hybride et gouverné.

Découvrir watsonx.data
Solutions d’entrepôt de données

Faites évoluer des workloads permanentes d’analyse et d’IA hautes performances sur des données gouvernées dans l’ensemble de votre organisation.

Découvrez les solutions d’entrepôt de données
Services de conseil pour les données et les analyses

Avec IBM Consulting, exploitez les données de votre entreprise et développez une organisation basée sur les informations pour tirer des avantages métier.

Découvrir les services d’analytique
Passez à l’étape suivante

Unifiez toutes vos données pour l’IA et l’analytique avec IBM watsonx.data. Exploitez vos données où qu’elles se trouvent grâce à un data lakehouse hybride, ouvert et dédié.

Découvrir watsonx.data Découvrez les solutions d’entrepôt de données