Un entrepôt de données, ou entrepôt de données d'entreprise (EDW) est un système qui regroupe des données provenant de différentes sources au sein d'un magasin de données unique, central et cohérent. Son rôle est de faciliter l'analyse des données, l'exploration des données, l'intelligence artificielle (IA) et l'apprentissage automatique. Un système d'entrepôt de données permet à une organisation d'exécuter des analyses puissantes sur des volumes gigantesques de données historiques (de l'ordre des pétaoctets), opération qui reste hors de la portée d'une base de données standard.
Les systèmes d'entrepôt de données font partie des solutions de business intelligence (BI) depuis plus de trente ans, mais ils ont évolué récemment avec l'émergence de nouveaux types de données et de nouvelles méthodes d'hébergement des données. Traditionnellement, un entrepôt de données était hébergé sur site, souvent sur un grand système, et sa fonctionnalité principale consistait à extraire des données provenant d'autres sources, à nettoyer et préparer les données, ainsi qu'à charger et gérer des données dans une base de données relationnelle. Depuis peu, un entrepôt de données peut être hébergé sur une appliance dédiée ou dans le cloud, et la plupart des entrepôts de données se sont adjoints des capacités d'analyse et des outils de visualisation et de présentation des données.
En savoir plus sur les solutions IBM d'entrepôt de données.
Faites évoluer les charges de travail d'IA, pour toutes vos données, n'importe où
D'une manière générale, les entrepôts de données ont une architecture à trois niveaux :
OLAP (acronyme de online analytical processing), ou traitement analytique en ligne, est un logiciel permettant d'effectuer des analyses multidimensionnelles à grande vitesse sur de grands volumes de données provenant d'un magasin de données unifié et centralisé, tel qu'un entrepôt de données. OLTP, ou traitement transactionnel en ligne, permet l'exécution en temps réel d'un grand nombre de transactions de bases de données par de très nombreux utilisateurs, généralement via Internet. La principale différence entre OLAP et OLTP réside dans leur nom : OLAP est de nature analytique, OLTP de nature transactionnelle.
Les outils OLAP sont conçus pour l'analyse multidimensionnelle des données d'un entrepôt de données, qui contient à la fois des données historiques et transactionnelles. Les utilisations courantes d'OLAP sont l'exploration de données et d'autres applications de business intelligence, les calculs analytiques complexes et les scénarios prédictifs, ainsi que les fonctions de reporting d'entreprise telles que l'analyse financière, la budgétisation et la planification des prévisions.
OLTP est conçu pour prendre en charge les applications axées sur les transactions en traitant les transactions récentes aussi rapidement et précisément que possible. Les utilisations courantes d'OLTP comprennent les distributeurs automatiques de billets, les logiciels d'e-commerce, le traitement des paiements par carte de crédit, les réservations en ligne, les systèmes de réservation et les outils d'archivage.
Pour consulter une analyse approfondie des différences entre ces deux approches, voir "OLAP vs. OLTP: What's the Difference? "
Les schémas sont des moyens d'organiser les données dans une base de données ou un entrepôt de données. Il existe deux principaux types de structures de schéma, le schéma en étoile et le schéma en flocon, qui ont une répercussion sur la conception de votre modèle de données.
Schéma en étoile : Ce schéma se compose d'une table de faits qui peut être jointe à un certain nombre de tables de dimensions dénormalisées. Il est considéré comme le type de schéma le plus simple et le plus courant, et offre à ses utilisateurs une plus grande rapidité lors des requêtes.
Schéma en flocon : Bien qu'il ne soit pas aussi largement répandu, le schéma en flocon est une autre structure d'organisation dans les entrepôts de données. Dans ce cas, la table de faits est connectée à un certain nombre de tables de dimensions normalisées. Ces tables de dimensions ont des tables enfant. Un schéma en flocon offre à ses utilisateurs les avantages de ses faibles niveaux de redondance des données, mais au détriment des performances des requêtes.
Les entrepôts de données, les bases de données, les lacs de données et les magasins de données sont des termes qui ont tendance à être utilisés de manière interchangeable. Bien que ces termes soient similaires, il existe des différences importantes entre eux :
Un entrepôt de données rassemble des données brutes provenant de sources multiples dans un référentiel central, structuré à l'aide de schémas prédéfinis conçus pour l'analyse des données. Un lac de données est un entrepôt de données sans les schémas prédéfinis. Par conséquent, il permet plus de types d'analyses qu'un entrepôt de données. Les lacs de données sont généralement construits sur des plateformes de big data telles qu'Apache Hadoop.
Voir la vidéo suivante pour plus d'informations sur les lacs de données :
Entrepôt de données et magasin de données
Un magasin de données (data mart) est un sous-ensemble d'un entrepôt de données qui contient des données spécifiques à un secteur d'activité ou à un département particulier. Parce qu'ils contiennent un sous-ensemble plus restreint de données, les magasin de données permettent à un département ou à un secteur d'activité de découvrir des informations plus ciblées plus rapidement qu'avec les données plus larges d'un entrepôt de données.
Entrepôt de données et base de données
Une base de données est principalement conçue pour les requêtes rapides et le traitement des transactions, et non pour l'analyse. Une base de données sert généralement d'entrepôt de données pour une application spécifique, alors qu'un entrepôt de données stocke les données de plusieurs applications de votre entreprise (voire toutes les applications).
Une base de données concerne avant tout la mise à jour des données en temps réel, tandis qu'un entrepôt de données a une portée plus large, car il capture des données actuelles et historiques à des fins d'analyse prédictive, d'apprentissage automatique et d'autres types d'analyses avancées.
Un entrepôt de données cloud est un entrepôt de données spécialement conçu pour s'exécuter dans le cloud. Il est proposé aux clients en tant que service géré. Les entrepôts de données sur le cloud ont gagné en popularité au cours des cinq à sept dernières années, car les entreprises sont de plus en plus nombreuses à utiliser des services cloud et cherchent à réduire l'encombrement de leur centre de données sur site.
Avec un entrepôt de données sur le cloud, l'infrastructure physique de l'entrepôt est gérée par le fournisseur cloud, ce qui signifie que le client évite toute dépense d'investissement en matériels ou en logiciels, et n'a pas besoin de s'occuper de la gestion ou de la maintenance de la solution.
Une entreprise peut acheter une licence d'entrepôt de données, puis déployer un entrepôt de données sur sa propre infrastructure sur site. Bien que cette solution soit généralement plus coûteuse qu'un service d'entrepôt de données sur le cloud, elle peut constituer un meilleur choix pour les entités gouvernementales, les institutions financières ou d'autres organisations souhaitant mieux contrôler leurs données ou qui doivent se conformer à des normes ou réglementations strictes en matière de sécurité ou de confidentialité des données.
Une appliance d'entrepôt de données est un ensemble pré-intégré de matériel et de logiciels (processeurs, stockage, système d'exploitation et logiciel d'entrepôt de données) qu'une entreprise peut connecter à son réseau et commencer à utiliser tel quel. Une appliance d'entrepôt de données se situe à mi-chemin entre les implémentations sur le cloud et sur site en termes de coût initial, de rapidité de déploiement, de facilité de mise à l'échelle et de contrôle de gestion.
Un entrepôt de données fournit une base pour les éléments suivants :
Les solutions d'entrepôt de données IBM offrent performances et flexibilité pour prendre en charge les données structurées et non structurées des charges de travail d'analyse, notamment l'apprentissage automatique.
Découvrez les fonctionnalités d'un entrepôt de données Cloud élastique entièrement géré dédié à l'analyse hautes performances et à l'IA.
IBM Cloud Pak for Data System est une plateforme cloud hybride toute-en-une qui offre un environnement sur site préconfiguré, gouverné et sécurisé.
L'IA peut présenter un certain nombre de défis que les entrepôts de données d'entreprise et les magasins de données peuvent permettre surmonter. Découvrez comment évaluer la valeur totale qu'une telle solution peut apporter.
Pour choisir un entrepôt de données, les entreprises doivent tenir compte de l'impact de l'IA, des principaux différenciateurs de l'entrepôt et des divers modèles de déploiement. Ce livre électronique vous guide dans ces choix.
Un guide pour créer une organisation axée sur les données et générer un avantage commercial