Qu'est-ce qu'un entrepôt de données ?
Un entrepôt de données rassemble des données provenant de nombreuses sources différentes dans un référentiel de données unique pour des analyses sophistiquées et une aide à la décision
Abonnez-vous à la newsletter IBM
Arrière-plan noir et bleu
Qu'est-ce qu'un entrepôt de données ?

Un entrepôt de données, ou entrepôt de données d'entreprise (EDW) est un système qui regroupe des données provenant de différentes sources au sein d'un magasin de données unique, central et cohérent. Son rôle est de faciliter l'analyse des données, l'exploration des données, l'intelligence artificielle (IA) et l'apprentissage automatique. Un système d'entrepôt de données permet à une organisation d'exécuter des analyses puissantes sur des volumes gigantesques de données historiques (de l'ordre des pétaoctets), opération qui reste hors de la portée d'une base de données standard.

Les systèmes d'entrepôt de données font partie des solutions de business intelligence (BI) depuis plus de trente ans, mais ils ont évolué récemment avec l'émergence de nouveaux types de données et de nouvelles méthodes d'hébergement des données. Traditionnellement, un entrepôt de données était hébergé sur site, souvent sur un grand système, et sa fonctionnalité principale consistait à extraire des données provenant d'autres sources, à nettoyer et préparer les données, ainsi qu'à charger et gérer des données dans une base de données relationnelle. Depuis peu, un entrepôt de données peut être hébergé sur une appliance dédiée ou dans le cloud, et la plupart des entrepôts de données se sont adjoints des capacités d'analyse et des outils de visualisation et de présentation des données.

En savoir plus sur les solutions IBM d'entrepôt de données.

 

Découvrez watsonx.data

Faites évoluer les charges de travail d'IA, pour toutes vos données, n'importe où

Architecture d'entrepôt de données

D'une manière générale, les entrepôts de données ont une architecture à trois niveaux :

  • Niveau inférieur :  Le niveau inférieur est constitué d'un serveur d'entrepôt de données, en général un système de base de données relationnelle, qui collecte, nettoie et transforme les données provenant de plusieurs sources de données par le biais d'un processus ETL (extraction, transformation et chargement) ou ELT (extraction, chargement et transformation).
  • Niveau intermédiaire :  Le niveau intermédiaire est constitué d'un serveur OLAP (traitement analytique en ligne) qui permet des vitesses de requête rapides. Trois types de modèles OLAP peuvent être utilisés dans ce niveau, à savoir ROLAP, MOLAP et HOLAP. Le type de modèle OLAP utilisé dépend du type de système de base de données existant.
  • Niveau supérieur : Le niveau supérieur est représenté par un type quelconque d'interface utilisateur frontale ou d'outil de reporting, qui permet aux utilisateurs finaux d'effectuer une  analyse  ad hoc de leurs  données métier.
Comprendre OLAP et OLTP dans les entrepôts de données

OLAP (acronyme de  online analytical processing), ou traitement analytique en ligne, est un logiciel permettant d'effectuer des analyses multidimensionnelles à grande vitesse sur de grands volumes de données provenant d'un magasin de données unifié et centralisé, tel qu'un entrepôt de données. OLTP, ou traitement transactionnel en ligne, permet l'exécution en temps réel d'un grand nombre de transactions de bases de données par de très nombreux utilisateurs, généralement via Internet. La principale différence entre OLAP et OLTP réside dans leur nom : OLAP est de nature analytique, OLTP de nature transactionnelle. 

Les outils OLAP sont conçus pour l'analyse multidimensionnelle des données d'un entrepôt de données, qui contient à la fois des données historiques et transactionnelles. Les utilisations courantes d'OLAP sont l'exploration de données et d'autres applications de business intelligence, les calculs analytiques complexes et les scénarios prédictifs, ainsi que les fonctions de reporting d'entreprise telles que l'analyse financière, la budgétisation et la planification des prévisions.

OLTP est conçu pour prendre en charge les applications axées sur les transactions en traitant les transactions récentes aussi rapidement et précisément que possible. Les utilisations courantes d'OLTP comprennent les distributeurs automatiques de billets, les logiciels d'e-commerce, le traitement des paiements par carte de crédit, les réservations en ligne, les systèmes de réservation et les outils d'archivage.

Pour consulter une analyse approfondie des différences entre ces deux approches, voir "OLAP vs. OLTP: What's the Difference? "

Les schémas dans les entrepôts de données

Les schémas sont des moyens d'organiser les données dans une base de données ou un entrepôt de données. Il existe deux principaux types de structures de schéma, le schéma en étoile et le schéma en flocon, qui ont une répercussion sur la conception de votre modèle de données.

Schéma en étoile :  Ce schéma se compose d'une table de faits qui peut être jointe à un certain nombre de tables de dimensions dénormalisées. Il est considéré comme le type de schéma le plus simple et le plus courant, et offre à ses utilisateurs une plus grande rapidité lors des requêtes.

Schéma en flocon :  Bien qu'il ne soit pas aussi largement répandu, le schéma en flocon est une autre structure d'organisation dans les entrepôts de données. Dans ce cas, la table de faits est connectée à un certain nombre de tables de dimensions normalisées. Ces tables de dimensions ont des tables enfant. Un schéma en flocon offre à ses utilisateurs les avantages de ses faibles niveaux de redondance des données, mais au détriment des performances des requêtes. 

Entrepôt de données vs base de données, lac de données et magasin de données

Les entrepôts de données, les bases de données, les lacs de données et les magasins de données sont des termes qui ont tendance à être utilisés de manière interchangeable. Bien que ces termes soient similaires, il existe des différences importantes entre eux :

Entrepôt de données et lac de données

 

Un entrepôt de données rassemble des données brutes provenant de sources multiples dans un référentiel central, structuré à l'aide de schémas prédéfinis conçus pour l'analyse des données. Un lac de données est un entrepôt de données sans les schémas prédéfinis. Par conséquent, il permet plus de types d'analyses qu'un entrepôt de données. Les lacs de données sont généralement construits sur des plateformes de big data telles qu'Apache Hadoop.

Voir la vidéo suivante pour plus d'informations sur les lacs de données :

Entrepôt de données et magasin de données

Un magasin de données (data mart) est un sous-ensemble d'un entrepôt de données qui contient des données spécifiques à un secteur d'activité ou à un département particulier. Parce qu'ils contiennent un sous-ensemble plus restreint de données, les magasin de données permettent à un département ou à un secteur d'activité de découvrir des informations plus ciblées plus rapidement qu'avec les données plus larges d'un entrepôt de données.

Entrepôt de données et base de données

Une base de données est principalement conçue pour les requêtes rapides et le traitement des transactions, et non pour l'analyse. Une base de données sert généralement d'entrepôt de données pour une application spécifique, alors qu'un entrepôt de données stocke les données de plusieurs applications de votre entreprise (voire toutes les applications).

Une base de données concerne avant tout la mise à jour des données en temps réel, tandis qu'un entrepôt de données a une portée plus large, car il capture des données actuelles et historiques à des fins d'analyse prédictive, d'apprentissage automatique et d'autres types d'analyses avancées.

Types d'entrepôts de données

Entrepôt de données cloud
 

Un entrepôt de données cloud est un entrepôt de données spécialement conçu pour s'exécuter dans le cloud. Il est proposé aux clients en tant que service géré. Les entrepôts de données sur le cloud ont gagné en popularité au cours des cinq à sept dernières années, car les entreprises sont de plus en plus nombreuses à utiliser des services cloud et cherchent à réduire l'encombrement de leur  centre de données  sur site.

Avec un entrepôt de données sur le cloud, l'infrastructure physique de l'entrepôt est gérée par le fournisseur cloud, ce qui signifie que le client évite toute dépense d'investissement en matériels ou en logiciels, et n'a pas besoin de s'occuper de la gestion ou de la maintenance de la solution.

Logiciel d'entrepôt de données (sur site/licence)
 

Une entreprise peut acheter une licence d'entrepôt de données, puis déployer un entrepôt de données sur sa propre infrastructure sur site. Bien que cette solution soit généralement plus coûteuse qu'un service d'entrepôt de données sur le cloud, elle peut constituer un meilleur choix pour les entités gouvernementales, les institutions financières ou d'autres organisations souhaitant mieux contrôler leurs données ou qui doivent se conformer à des normes ou réglementations strictes en matière de sécurité ou de confidentialité des données.

Appliance d'entrepôt de données
 

Une appliance d'entrepôt de données est un ensemble pré-intégré de matériel et de logiciels (processeurs, stockage, système d'exploitation et logiciel d'entrepôt de données) qu'une entreprise peut connecter à son  réseau  et commencer à utiliser tel quel. Une appliance d'entrepôt de données se situe à mi-chemin entre les implémentations sur le cloud et sur site en termes de coût initial, de rapidité de déploiement, de facilité de mise à l'échelle et de contrôle de gestion.

Avantages d'un entrepôt de données

Un entrepôt de données fournit une base pour les éléments suivants :

  • Meilleure qualité des données :  Un entrepôt de données centralise les données provenant de diverses sources de données, telles que les systèmes transactionnels, les bases de données opérationnelles et les fichiers à plat. Il les nettoie, élimine les doublons et les standardise pour créer une source unique de vérité.
  • Des informations métier plus rapides : Les données provenant de sources disparates  limitent la capacité des décideurs  à définir des stratégies commerciales en toute confiance. Les entrepôts de données  permettent l'intégration des données, les professionnels  pouvant ainsi  tirer parti de toutes les données de l'entreprise pour chaque décision commerciale.
  • Une prise de décision plus intelligente :  Un entrepôt de données prend en charge des fonctions de BI à grande échelle telles que le data mining (recherche de modèles et de relations cachés au sein des données), l'intelligence artificielle et l'apprentissage automatique. Les professionnels des données et les chefs d'entreprise peuvent utiliser ces outils pour obtenir des preuves tangibles afin de prendre des décisions plus intelligentes dans pratiquement tous les domaines de l'organisation, des processus métier à la gestion financière et à la gestion des stocks.
  • Obtenir et développer un avantage concurrentiel :  Tous ces éléments se combinent pour aider une organisation à trouver plus d'opportunités dans les données, plus rapidement qu'avec des magasins de données disparates.
Solutions connexes
Solutions d'entrepôt de données

Les solutions d'entrepôt de données IBM offrent performances et flexibilité pour prendre en charge les données structurées et non structurées des charges de travail d'analyse, notamment l'apprentissage automatique.

Explorer les solutions d'entrepôt de données
Db2 Warehouse on Cloud

Découvrez les fonctionnalités d'un entrepôt de données Cloud élastique entièrement géré dédié à l'analyse hautes performances et à l'IA.

Explorer Db2 Warehouse on Cloud
IBM Cloud Pak for Data System

IBM Cloud Pak for Data System est une plateforme cloud hybride toute-en-une qui offre un environnement sur site préconfiguré, gouverné et sécurisé.

Explorer IBM Cloud Pak for Data System
Ressources Trouver l'entrepôt de données d'entreprise adapté pour relever le défi des données et de l'IA

L'IA peut présenter un certain nombre de défis que les entrepôts de données d'entreprise et les magasins de données peuvent permettre surmonter. Découvrez comment évaluer la valeur totale qu'une telle solution peut apporter.

Comment sélectionner le bon entrepôt de données pour l'IA

Pour choisir un entrepôt de données, les entreprises doivent tenir compte de l'impact de l'IA, des principaux différenciateurs de l'entrepôt et des divers modèles de déploiement. Ce livre électronique vous guide dans ces choix.

Le différenciateur de données

Un guide pour créer une organisation axée sur les données et générer un avantage commercial

Passez à l'étape suivante

IBM offers on-premises, cloud, and integrated appliance data warehouse solutions—all built on a data analytics and artificial intelligence foundation optimized for predictive insight and data-driven decision making. All three are part of the IBM Db2 family of products, offering a common SQL engine to streamline queries and machine learning capabilities that enhance data management performance.

Découvrez les solutions d'entrepôt de données dès aujourd'hui