Qu’est-ce qu’un entrepôt de données ?

Vue aérienne de véhicules autonomes en 3D dans un entrepôt intelligent

Auteurs

Alexandra Jonker

Staff Editor

IBM Think

Jim Holdsworth

Staff Writer

IBM Think

Matthew Kosinski

Staff Editor

IBM Think

Qu’est-ce qu’un entrepôt de données ?

L’entrepôt de données regroupe les données provenant de diverses sources dans un magasin de données central, optimisé pour les requêtes et l’analyse. Grâce au processus ETL (extraction, transformation, chargement) ou ELT (extraction, chargement, transformation), les données sont nettoyées, préparées et organisées à des fins de Business Intelligence (BI) et d’autres types d’analyse.
 

Les systèmes d’entreposage peuvent ingérer de grandes quantités de données à partir d’un large éventail de systèmes sources, notamment des bases de données opérationnelles, des systèmes transactionnels et des plateformes de gestion de la relation client (CRM). Les outils d’analyse en libre-service permettent aux utilisateurs professionnels d’explorer et d’analyser ces données pour en tirer des informations utiles.

Le concept d’entrepôt de données est apparu dans les années 1980 pour intégrer les données disparates dans un format cohérent à des fins d’analyse. Face à l’explosion des sources de données, dont le World Wide Web, les réseaux sociaux et l’Internet des objets (IdO), la capacité de stockage et la vitesse d’analyse devaient s’améliorer.

Les entrepôts de données étant configurés et optimisés à des fins d’analyse en temps réel, ils sont généralement peu adaptés au stockage des big data brutes et non structurées. Le coût et la complexité du stockage augmentent en même temps que la quantité de données conservées dans l’entrepôt. Des problèmes de latence et de performance peuvent également survenir.

En réponse, des alternatives plus flexibles ont vu le jour, notamment les entrepôts de données cloud natifs et les data lakehouses. (Voir « Entrepôt de données et data lakehouse » pour plus d’informations.)

Comment fonctionne l’entreposage des données ?

Les entrepôts de données comportent généralement une architecture à trois niveaux, conçue pour transformer les données à des fins d’analyse :

  • Niveau inférieur
  • Niveau intermédiaire
  • Niveau supérieur

Niveau inférieur

Les données provenant de plusieurs systèmes sources sont acheminées vers un serveur d’entrepôt de données, où elles sont stockées. Traditionnellement, les données font l’objet d’un processus d’intégration ETL (« extraction, transformation, chargement »), qui s’appuie sur l’automatisation pour les nettoyer et les organiser avant de les charger dans l’entrepôt.

Étant donné que les entrepôts de données stockent principalement des données structurées, la transformation intervient avant le chargement. Certains entrepôts modernes reposent sur un processus ETL (extraction, chargement, transformation), qui consiste à charger les données dans l’entrepôt avant de les transformer. Cette méthode est couramment utilisée dans le cas des data lakes, qui peuvent stocker des données non structurées et semi-structurées sans exiger un format standardisé.

Niveau intermédiaire

Ce niveau contient le moteur d’analyse, souvent alimenté par un système de traitement analytique en ligne (OLAP). Si les bases de données relationnelles traditionnelles, dont de nombreux entrepôts de données, peuvent stocker des données multidimensionnelles (par exemple, les chiffres de vente peuvent avoir plusieurs dimensions comme le lieu, le temps et le produit), elles ne sont pas optimisées pour les requêtes multidimensionnelles.

Les systèmes OLAP sont conçus pour réaliser requêtes complexes, ultra-rapides, et analyse multidimensionnelle des grands volumes de données. Ils reposent sur des « cubes » (structures de données multidimensionnelles en tableaux) pour permettre une analyse plus rapide et plus flexible sur plusieurs dimensions. Les cas d’utilisation les plus courants sont le data mining, l’analyse financière, la préparation du budget et la prévision.

OLAP et OLTP : les systèmes de traitement des transactions en ligne (OLTP) saisissent et mettent à jour d’importants volumes de transactions en temps réel provenant d’un grand nombre d’utilisateurs. Les systèmes OLAP, quant à eux, analysent les données déjà captées.

Il existe trois types d’OLAP que l’on peut utiliser dans un entrepôt de données :

  • Traitement analytique en ligne multidimensionnel (MOLAP) : fonctionnant directement avec un cube OLAP multidimensionnel, ce type d’analyse de données multidimensionnelles est le plus rapide et le plus pratique.

  • Traitement analytique relationnel en ligne (ROLAP) : analyse multidimensionnelle exécutée directement sur les données des tables relationnelles, sans les réorganiser au préalable en cube.

  • Traitement analytique en ligne hybride (HOLAP) : fonctions permettant de répartir efficacement les tâches entre les bases de données relationnelles et multidimensionnelles au sein d’une architecture OLAP.

Niveau supérieur

La dernière couche de l’entrepôt de données fournit une interface utilisateur front-end pour la production de rapports, les tableaux de bord et l’analyse ad hoc des données d’entreprise. Ces outils de Business Intelligence en libre-service permettent aux utilisateurs de générer des rapports appuyés sur les données historiques, de visualiser les tendances et d’identifier les goulots d’étranglement dans les workflows, le tout sans compétences en ingénierie des données.

Les dernières actualités technologiques, étayées par des avis d’expert

Restez au fait des tendances les plus étonnantes du secteur dans le domaine de l’IA, de l’automatisation, des données et bien d’autres avec la newsletter Think. Consultez la déclaration de confidentialité d’IBM.
Lire la Déclaration de confidentialité d’IBM.

Merci ! Vous êtes abonné(e).

Vous recevrez votre abonnement en anglais. Vous trouverez un lien de désabonnement dans chaque newsletter. Vous pouvez gérer vos abonnements ou vous désabonner ici. Consultez la Déclaration de confidentialité d’IBM pour plus d’informations.

Modèles de déploiement des entrepôts de données : sur site, cloud et hybride

Les entrepôts de données ont considérablement évolué, passant de systèmes exclusivement sur site à des modèles flexibles cloud et hybrides.

Entrepôts de données traditionnels

Traditionnellement, les entrepôts de données étaient hébergés sur site à l’aide de matériel standard. Ces systèmes étaient organisés en architectures de traitement massivement parallèle (MPP) ou de multitraitement symétrique (SMP), et ils étaient proposés sous forme d’appliances autonomes. Ces déploiements nécessitent des investissements importants. Ils peuvent toutefois s’avérer particulièrement utiles aux entreprises issues de secteurs soumis à des normes strictes en matière de conformité, de sécurité ou de protection des données.

Entrepôts de données cloud

Aujourd’hui, de nombreux entrepôts de données sont conçus pour fonctionner dans le cloud. Ils offrent les avantages du cloud computing : stockage de données à l’échelle du pétaoctet, calcul et stockage hautement évolutifs et tarification à l’usage. Les entrepôts de données cloud sont généralement proposés comme logiciels à la demande (SaaS) entièrement gérés, ce qui évite d’investir dans des outils matériels ou logiciels. Cette offre de services réduit également la quantité de ressources nécessaire pour gérer l’infrastructure, ce qui permet aux entreprises de se concentrer sur l’analytique et l’exploitation des informations obtenues.

Les entrepôts de données cloud gagnent en popularité dans un contexte où les entreprises recherchent l’agilité nécessaire pour dimensionner et réduire l’encombrement de leurs centres de données sur site et les dépenses liées à l’infrastructure héritée.

Approches hybrides

Certaines entreprises adoptent un modèle hybride, qui combine le meilleur des entrepôts de données sur site et dans le cloud. Cette approche leur permet de profiter de l’évolutivité et de la flexibilité du cloud, tout en gardant le contrôle sur les workloads sensibles, qui doivent rester sur site.

Quels sont les trois schémas d’entrepôt de données ?

Dans un entrepôt de données, les schémas définissent la manière dont les données sont organisées. Il existe trois structures de schéma courantes : le schéma en étoile, le schéma en forme de flocon de neige et le schéma en constellation de faits.

Ces schémas sont tous des modèles de données dimensionnels, conçus pour accélérer la récupération des données dans les systèmes OLAP. Les modèles dimensionnels augmentent la redondance pour faciliter la localisation des informations à des fins de reporting et de récupération, et améliorer la performance des requêtes.

Ces schémas contiennent des tables de faits et des tables de dimension, définies ci-dessous :

  • Tables de faits : stockage de données quantitatives telles que les produits vendus ou le montant des recettes

  • Tables de dimension : stockage d’informations contextuelles et descriptives pour les faits, comme la date de vente et la catégorie de produit

Schéma en étoile

Les schémas en étoile sont constitués d’une table de faits unique et centrale, entourée de tables de dimension. Dans un diagramme, la table de faits apparaît au milieu d’un motif en forme d’étoile. Le schéma en étoile est considéré comme le plus simple et le plus courant, offrant aux utilisateurs une vitesse supérieure de requête.

Schéma en flocon de neige

Les schémas en flocon de neige comportent une table de faits centrale, connectée à de nombreuses tables de dimension normalisées, qui peuvent ensuite se connecter à d’autres tables de dimension dans le cadre de relations plusieurs-à-un. Ce motif complexe et ramifié fait penser à un flocon de neige. Si les schémas en flocon de neige présentent une faible redondance des données, la performance des requêtes est elle aussi inférieure.

Schéma en constellation

Tout comme notre galaxie regroupe de nombreuses étoiles, un schéma en constellation réunit de nombreux schémas en étoile qui partagent des tables de dimension normalisées pour éviter la redondance. Si le schéma en constellation est adapté aux entrepôts de données très complexes, la performance offerte peut s’avérer inférieure.

Composants de l’architecture d’un entrepôt de données

Une architecture d’entrepôt de données type comporte plusieurs composantes qui se combinent pour stocker, gérer, traiter et fournir des données à des fins d’analyse.

  • Outils ETL/ELT
  • Couche API
  • Couche de données (base de données centrale)
  • Métadonnées
  • Bac à sable
  • Outils d’accès

Outils ETL/ELT

Les outils ETL extraient les données des systèmes sources, les transforment dans une zone de transit et les chargent dans l’entrepôt de données. Avec l’ELT, les données sont transformées après avoir été chargées dans l’entrepôt. Les outils de traitement des données comme Apache Spark permettent de gérer la transformation des données.

Couche API

La couche de connectivité pour interfaces de programmation d’application (API) aide l’entrepôt à s’intégrer aux systèmes opérationnels pour en extraire des données. Les API peuvent également donner accès à des outils de visualisation et d’analyse avancée.

Couche de données (ou base de données centrale)

La couche de données (ou base de données centrale) est le cœur de l’entrepôt de données. Ici, le système intègre et stocke les données provenant de diverses sources telles que les applications d’entreprise, les listes de contacts e-mail, les sites Web et d’autres bases de données. Prise en charge par les pipelines de données ETL ou ELT, cette couche repose sur un système de gestion de base de données relationnelle (SGBDR), ou sur une plateforme d’entrepôt de données cloud. Les fonctionnalités intégrées de gouvernance et de sécurité des données assurent le partitionnement des données pour que les utilisateurs n’accèdent qu’à ce dont ils ont besoin.

Les métadonnées sont des données sur les données. En effet, elles décrivent les données stockées dans un système pour les rendre consultables et utilisables à des fins d’analyse. Elles comprennent des métadonnées techniques (comme la structure des tableaux et le type de données) et des métadonnées descriptives (comme l’auteur, la date de création ou la taille du fichier). Les métadonnées jouent un rôle essentiel dans la gouvernance et la gestion des données.

Bac à sable

Certains entrepôts de données proposent un bac à sable, c’est-à-dire un environnement de test cloisonné contenant une copie des données de production et les outils d’analyse appropriés. Les analystes de données et les data scientists peuvent expérimenter de nouvelles techniques d’analyse dans le bac à sable, sans affecter les autres utilisateurs de l’entrepôt de données.

Outils d’accès

Les outils d’accès se connectent à l’entrepôt de données pour fournir une interface conviviale aux utilisateurs professionnels. Ces derniers, ainsi que les analystes de données, associent tableaux de bord, applications et outils de visualisation pour interagir avec les données et en extraire des informations. Parmi ces outils, citons Tableau, Looker et Qlik.

AI Academy

La gestion des données est-elle le secret de l’IA générative ?

Découvrez pourquoi des données de haute qualité sont essentielles pour une utilisation réussie de l’IA générative.

Types d’entrepôts de données

Il existe trois principaux types d’entrepôts de données :

  • Entrepôt de données d’entreprise (EDW)
  • Magasin de données opérationnelles (ODS)
  • data mart

Entrepôt de données d’entreprise (EDW)

Un entrepôt de données d’entreprise (EDW) est un entrepôt de données qui dessert l’ensemble de l’entreprise. Il sert de référentiel centralisé regroupant les données historiques utilisées par toutes les équipes, tous domaines confondus. L’environnement d’entreposage des données d’entreprise peut également inclure un magasin de données opérationnelles (ODS) et des datamarts spécifiques à chaque service.

Magasin de données opérationnelles (ODS)

Les magasins de données opérationnelles (ODS) contiennent l’instantané le plus récent des données opérationnelles. Fréquemment mis à jour, ils permettent un accès rapide aux données en temps quasi réel. Bon nombre d’entreprises s’appuient sur un ODS pour assurer leur prise de décision opérationnelle au quotidien, ainsi que leurs analyses en temps réel. L’ODS peut également constituer une source de données pour un EDW ou d’autres systèmes de données.

Datamart

Un datamart est le sous-ensemble d’un entrepôt de données existant (ou d’autres sources de données). Il contient les données spécifiques à un domaine ou service de l’entreprise. Par exemple, l’entreprise peut avoir un datamart consacré au service marketing. Ses utilisateurs ont accès à des informations plus ciblées pour assurer la segmentation client et la performance des campagnes, sans avoir à parcourir l’ensemble des données de l’entreprise.

Entrepôts de données et autres types de stockage de données

Si les termes « entrepôt de données », « base de données », « data lake » et « data lakehouse » sont parfois utilisés de manière interchangeable, des différences importantes existent.

Entrepôt de données et base de données

On peut comparer les bases de données à des classeurs conçus principalement pour automatiser la capture de données et accélérer le traitement des transactions. Elles servent généralement de magasin de données destiné à une application. Les entrepôts stockent les données provenant d’un nombre illimité d’applications au sein de l’entreprise et sont optimisés pour l’analyse prédictive et d’autres types d’analyses avancées.

Entrepôt de données et data lake

Un data lake est une solution de stockage à faible coût qui permet de stocker d’énormes quantités de données brutes et qui suit une approche de schéma en lecture, et non un schéma prédéfini. Les data lakes permettent de stocker des données structurées, non structurées et semi-structurées telles que les documents, les vidéos, les journaux IdO (Internet des objets) et les publications sur les réseaux sociaux.

Ils peuvent être construits sur une plateforme de big data comme Apache Hadoop ou un service de stockage d’objets cloud comme Amazon Simple Storage Service (Amazon S3). Contrairement aux entrepôts de données, ils n’assurent ni le nettoyage, ni la validation, ni la standardisation des données à des fins d’analyse.

Data lakehouse ou entrepôt de données

Le data lakehouse combine divers aspects de l’entrepôt de données et du data lake, à savoir la performance élevée du premier, et la flexibilité à faible coût du second. En regroupant les principales caractéristiques des data lakes et des entrepôts au sein d’une seule et même solution de gestion des données, les data lakehouses accélèrent le traitement des grands flux de données structurées, non structurées et en temps réel, afin de prendre en charge les workloads de machine learning, de science des données et d’intelligence artificielle (IA).

Les data lakehouses peuvent également proposer des fonctionnalités telles que les métadonnées partagées et les moteurs de langage de requête structurés (SQL) distribués.

Avantages des entrepôts de données

Les entrepôts de données mettent les informations à la disposition des utilisateurs à l’échelle de l’entreprise, ce qui apporte de nombreux avantages :

  • Qualité des données améliorée
  • Prise en charge de l’IA et du machine learning
  • Aide à la décision améliorée

Qualité des données améliorée

Grâce aux processus ELT et ETL, les entrepôts de données préparent les données entrantes avant de les stocker. Cette préparation consiste à appliquer des méthodes pour assurer la qualité des données comme le nettoyage, la standardisation et la déduplication des données. Les politiques et pratiques de gouvernance des données permettent également de garantir l’exactitude et l’intégrité des données.

En intégrant des données de qualité dans un seul et même magasin, les entreprises créent une source d’information unique complète et fiable, qui contribue à éliminer les silos de données. Ce référentiel central permet aux utilisateurs professionnels d’accéder en toute confiance aux données pertinentes de l’entreprise et de les utiliser lors du processus décisionnel. Les entrepôts de données dédiés aux entreprises peuvent également prendre en charge des formats open source comme Apache Iceberg, Parquet et CSV, afin d’améliorer l’accès aux données et leur partage au sein de l’entreprise.

Prise en charge de l’IA et du machine learning

Les entrepôts de données modernes prennent en charge divers workflows d’IA et de machine learning en fournissant des données propres et fiables. Les data scientists peuvent utiliser les données nettoyées et vérifiées des entrepôts pour créer des modèles d’IA générative propriétaires ou affiner les modèles existants, afin de mieux répondre aux besoins spécifiques de leur entreprise.

Un entrepôt de données destiné à l’IA doit être capable de collecter, de nettoyer, d’organiser et de structurer les données, et de faciliter leur flux vers les plateformes d’IA et de machine learning. Cependant, tous les entrepôts de données modernes ne sont pas optimisés pour les workloads d’IA. Le data lakehouse est en train de devenir la plateforme de données de prédilection pour l’infrastructure d’IA.

Aide à la décision améliorée

Les entrepôts de données centralisent et nettoient les données provenant de différentes sources pour créer une source d’information unique et offrir aux entreprises une vue complète et fiable des données. Les outils BI en libre-service permettent aux utilisateurs de l’entreprise d’accéder à ces données agrégées et d’exécuter des requêtes analytiques.

Ainsi, les entrepôts de données permettent aux utilisateurs professionnels, quel que soit leur niveau de compétence technique, de découvrir des thèmes, des tendances et des agrégations et d’en rendre compte. Les dirigeants utilisent ces informations pour prendre des décisions et faire des prévisions éclairées, fondées sur des preuves concrètes, et ce dans chaque domaine de l’entreprise, des processus métier à la gestion des stocks en passant par la gestion financière.

Entrepôts de données : cas d’utilisation sectoriels

Les entrepôts de données peuvent également répondre aux besoins spécifiques des différents secteurs. Exemples :

Secteur public

Les capacités analytiques des entrepôts de données aident les pouvoirs publics à mieux comprendre des phénomènes complexes tels que la criminalité, les tendances démographiques et les schémas de circulation.

Soins de santé

La capacité de centraliser et d’analyser des données disparates telles que les codes de facturation et de diagnostic, les données démographiques des patients, les médicaments et les résultats des tests, aide les professionnels de santé à mieux évaluer l’efficacité des soins, des opérations et autres.

Tourisme et hôtellerie

Les entreprises peuvent utiliser les données historiques relatives aux choix de voyage et d’hébergement pour mieux cibler les publicités et les promotions proposées à leurs clients.

Fabrication

Les grandes entreprises manufacturières qui génèrent d’importants volumes de données peuvent utiliser les solutions d’entrepôt de données pour créer des datamarts adaptés aux besoins de chaque service.

Solutions connexes
IBM StreamSets

Créez et gérez des pipelines intelligents de diffusion de données en continu via une interface graphique intuitive, facilitant ainsi une intégration fluide des données dans les environnements hybrides et multicloud.

Découvrir StreamSets
IBM watsonx.data

watsonx.data vous permet d’adapter le dimensionnement des analyses et de l’IA à toutes vos données, où qu’elles se trouvent, grâce à un entrepôt de données ouvert, hybride et gouverné.

Découvrir watsonx.data
Services de conseil pour les données et les analyses

Avec IBM Consulting, exploitez les données de votre entreprise et développez une organisation basée sur les informations pour tirer des avantages métier.

Découvrir les services d’analytique
Passez à l’étape suivante

Élaborez une stratégie de gestion des données qui élimine les silos, réduit la complexité et améliore la qualité des données pour offrir une expérience client et collaborateur exceptionnelle.

Découvrir les solutions de gestion des données Découvrir watsonx.data