Les systèmes d’entreposage peuvent ingérer de grandes quantités de données à partir d’un large éventail de systèmes sources, notamment des bases de données opérationnelles, des systèmes transactionnels et des plateformes de gestion de la relation client (CRM). Les outils d’analyse en libre-service permettent aux utilisateurs professionnels d’explorer et d’analyser ces données pour en tirer des informations utiles.
Le concept d’entrepôt de données est apparu dans les années 1980 pour intégrer les données disparates dans un format cohérent à des fins d’analyse. Face à l’explosion des sources de données, dont le World Wide Web, les réseaux sociaux et l’Internet des objets (IdO), la capacité de stockage et la vitesse d’analyse devaient s’améliorer.
Les entrepôts de données étant configurés et optimisés à des fins d’analyse en temps réel, ils sont généralement peu adaptés au stockage des big data brutes et non structurées. Le coût et la complexité du stockage augmentent en même temps que la quantité de données conservées dans l’entrepôt. Des problèmes de latence et de performance peuvent également survenir.
En réponse, des alternatives plus flexibles ont vu le jour, notamment les entrepôts de données cloud natifs et les data lakehouses. (Voir « Entrepôt de données et data lakehouse » pour plus d’informations.)
Les entrepôts de données comportent généralement une architecture à trois niveaux, conçue pour transformer les données à des fins d’analyse :
Les données provenant de plusieurs systèmes sources sont acheminées vers un serveur d’entrepôt de données, où elles sont stockées. Traditionnellement, les données font l’objet d’un processus d’intégration ETL (« extraction, transformation, chargement »), qui s’appuie sur l’automatisation pour les nettoyer et les organiser avant de les charger dans l’entrepôt.
Étant donné que les entrepôts de données stockent principalement des données structurées, la transformation intervient avant le chargement. Certains entrepôts modernes reposent sur un processus ETL (extraction, chargement, transformation), qui consiste à charger les données dans l’entrepôt avant de les transformer. Cette méthode est couramment utilisée dans le cas des data lakes, qui peuvent stocker des données non structurées et semi-structurées sans exiger un format standardisé.
Ce niveau contient le moteur d’analyse, souvent alimenté par un système de traitement analytique en ligne (OLAP). Si les bases de données relationnelles traditionnelles, dont de nombreux entrepôts de données, peuvent stocker des données multidimensionnelles (par exemple, les chiffres de vente peuvent avoir plusieurs dimensions comme le lieu, le temps et le produit), elles ne sont pas optimisées pour les requêtes multidimensionnelles.
Les systèmes OLAP sont conçus pour réaliser requêtes complexes, ultra-rapides, et analyse multidimensionnelle des grands volumes de données. Ils reposent sur des « cubes » (structures de données multidimensionnelles en tableaux) pour permettre une analyse plus rapide et plus flexible sur plusieurs dimensions. Les cas d’utilisation les plus courants sont le data mining, l’analyse financière, la préparation du budget et la prévision.
OLAP et OLTP : les systèmes de traitement des transactions en ligne (OLTP) saisissent et mettent à jour d’importants volumes de transactions en temps réel provenant d’un grand nombre d’utilisateurs. Les systèmes OLAP, quant à eux, analysent les données déjà captées.
Il existe trois types d’OLAP que l’on peut utiliser dans un entrepôt de données :
La dernière couche de l’entrepôt de données fournit une interface utilisateur front-end pour la production de rapports, les tableaux de bord et l’analyse ad hoc des données d’entreprise. Ces outils de Business Intelligence en libre-service permettent aux utilisateurs de générer des rapports appuyés sur les données historiques, de visualiser les tendances et d’identifier les goulots d’étranglement dans les workflows, le tout sans compétences en ingénierie des données.
Newsletter sectorielle
Restez au fait des tendances les plus étonnantes du secteur dans le domaine de l’IA, de l’automatisation, des données et bien d’autres avec la newsletter Think. Consultez la déclaration de confidentialité d’IBM.
Lire la Déclaration de confidentialité d’IBM.
Vous recevrez votre abonnement en anglais. Vous trouverez un lien de désabonnement dans chaque newsletter. Vous pouvez gérer vos abonnements ou vous désabonner ici. Consultez la Déclaration de confidentialité d’IBM pour plus d’informations.
Les entrepôts de données ont considérablement évolué, passant de systèmes exclusivement sur site à des modèles flexibles cloud et hybrides.
Traditionnellement, les entrepôts de données étaient hébergés sur site à l’aide de matériel standard. Ces systèmes étaient organisés en architectures de traitement massivement parallèle (MPP) ou de multitraitement symétrique (SMP), et ils étaient proposés sous forme d’appliances autonomes. Ces déploiements nécessitent des investissements importants. Ils peuvent toutefois s’avérer particulièrement utiles aux entreprises issues de secteurs soumis à des normes strictes en matière de conformité, de sécurité ou de protection des données.
Aujourd’hui, de nombreux entrepôts de données sont conçus pour fonctionner dans le cloud. Ils offrent les avantages du cloud computing : stockage de données à l’échelle du pétaoctet, calcul et stockage hautement évolutifs et tarification à l’usage. Les entrepôts de données cloud sont généralement proposés comme logiciels à la demande (SaaS) entièrement gérés, ce qui évite d’investir dans des outils matériels ou logiciels. Cette offre de services réduit également la quantité de ressources nécessaire pour gérer l’infrastructure, ce qui permet aux entreprises de se concentrer sur l’analytique et l’exploitation des informations obtenues.
Les entrepôts de données cloud gagnent en popularité dans un contexte où les entreprises recherchent l’agilité nécessaire pour dimensionner et réduire l’encombrement de leurs centres de données sur site et les dépenses liées à l’infrastructure héritée.
Certaines entreprises adoptent un modèle hybride, qui combine le meilleur des entrepôts de données sur site et dans le cloud. Cette approche leur permet de profiter de l’évolutivité et de la flexibilité du cloud, tout en gardant le contrôle sur les workloads sensibles, qui doivent rester sur site.
Dans un entrepôt de données, les schémas définissent la manière dont les données sont organisées. Il existe trois structures de schéma courantes : le schéma en étoile, le schéma en forme de flocon de neige et le schéma en constellation de faits.
Ces schémas sont tous des modèles de données dimensionnels, conçus pour accélérer la récupération des données dans les systèmes OLAP. Les modèles dimensionnels augmentent la redondance pour faciliter la localisation des informations à des fins de reporting et de récupération, et améliorer la performance des requêtes.
Ces schémas contiennent des tables de faits et des tables de dimension, définies ci-dessous :
Les schémas en étoile sont constitués d’une table de faits unique et centrale, entourée de tables de dimension. Dans un diagramme, la table de faits apparaît au milieu d’un motif en forme d’étoile. Le schéma en étoile est considéré comme le plus simple et le plus courant, offrant aux utilisateurs une vitesse supérieure de requête.
Les schémas en flocon de neige comportent une table de faits centrale, connectée à de nombreuses tables de dimension normalisées, qui peuvent ensuite se connecter à d’autres tables de dimension dans le cadre de relations plusieurs-à-un. Ce motif complexe et ramifié fait penser à un flocon de neige. Si les schémas en flocon de neige présentent une faible redondance des données, la performance des requêtes est elle aussi inférieure.
Tout comme notre galaxie regroupe de nombreuses étoiles, un schéma en constellation réunit de nombreux schémas en étoile qui partagent des tables de dimension normalisées pour éviter la redondance. Si le schéma en constellation est adapté aux entrepôts de données très complexes, la performance offerte peut s’avérer inférieure.
Une architecture d’entrepôt de données type comporte plusieurs composantes qui se combinent pour stocker, gérer, traiter et fournir des données à des fins d’analyse.
Les outils ETL extraient les données des systèmes sources, les transforment dans une zone de transit et les chargent dans l’entrepôt de données. Avec l’ELT, les données sont transformées après avoir été chargées dans l’entrepôt. Les outils de traitement des données comme Apache Spark permettent de gérer la transformation des données.
La couche de connectivité pour interfaces de programmation d’application (API) aide l’entrepôt à s’intégrer aux systèmes opérationnels pour en extraire des données. Les API peuvent également donner accès à des outils de visualisation et d’analyse avancée.
La couche de données (ou base de données centrale) est le cœur de l’entrepôt de données. Ici, le système intègre et stocke les données provenant de diverses sources telles que les applications d’entreprise, les listes de contacts e-mail, les sites Web et d’autres bases de données. Prise en charge par les pipelines de données ETL ou ELT, cette couche repose sur un système de gestion de base de données relationnelle (SGBDR), ou sur une plateforme d’entrepôt de données cloud. Les fonctionnalités intégrées de gouvernance et de sécurité des données assurent le partitionnement des données pour que les utilisateurs n’accèdent qu’à ce dont ils ont besoin.
Les métadonnées sont des données sur les données. En effet, elles décrivent les données stockées dans un système pour les rendre consultables et utilisables à des fins d’analyse. Elles comprennent des métadonnées techniques (comme la structure des tableaux et le type de données) et des métadonnées descriptives (comme l’auteur, la date de création ou la taille du fichier). Les métadonnées jouent un rôle essentiel dans la gouvernance et la gestion des données.
Certains entrepôts de données proposent un bac à sable, c’est-à-dire un environnement de test cloisonné contenant une copie des données de production et les outils d’analyse appropriés. Les analystes de données et les data scientists peuvent expérimenter de nouvelles techniques d’analyse dans le bac à sable, sans affecter les autres utilisateurs de l’entrepôt de données.
Les outils d’accès se connectent à l’entrepôt de données pour fournir une interface conviviale aux utilisateurs professionnels. Ces derniers, ainsi que les analystes de données, associent tableaux de bord, applications et outils de visualisation pour interagir avec les données et en extraire des informations. Parmi ces outils, citons Tableau, Looker et Qlik.
Il existe trois principaux types d’entrepôts de données :
Un entrepôt de données d’entreprise (EDW) est un entrepôt de données qui dessert l’ensemble de l’entreprise. Il sert de référentiel centralisé regroupant les données historiques utilisées par toutes les équipes, tous domaines confondus. L’environnement d’entreposage des données d’entreprise peut également inclure un magasin de données opérationnelles (ODS) et des datamarts spécifiques à chaque service.
Les magasins de données opérationnelles (ODS) contiennent l’instantané le plus récent des données opérationnelles. Fréquemment mis à jour, ils permettent un accès rapide aux données en temps quasi réel. Bon nombre d’entreprises s’appuient sur un ODS pour assurer leur prise de décision opérationnelle au quotidien, ainsi que leurs analyses en temps réel. L’ODS peut également constituer une source de données pour un EDW ou d’autres systèmes de données.
Un datamart est le sous-ensemble d’un entrepôt de données existant (ou d’autres sources de données). Il contient les données spécifiques à un domaine ou service de l’entreprise. Par exemple, l’entreprise peut avoir un datamart consacré au service marketing. Ses utilisateurs ont accès à des informations plus ciblées pour assurer la segmentation client et la performance des campagnes, sans avoir à parcourir l’ensemble des données de l’entreprise.
Si les termes « entrepôt de données », « base de données », « data lake » et « data lakehouse » sont parfois utilisés de manière interchangeable, des différences importantes existent.
On peut comparer les bases de données à des classeurs conçus principalement pour automatiser la capture de données et accélérer le traitement des transactions. Elles servent généralement de magasin de données destiné à une application. Les entrepôts stockent les données provenant d’un nombre illimité d’applications au sein de l’entreprise et sont optimisés pour l’analyse prédictive et d’autres types d’analyses avancées.
Un data lake est une solution de stockage à faible coût qui permet de stocker d’énormes quantités de données brutes et qui suit une approche de schéma en lecture, et non un schéma prédéfini. Les data lakes permettent de stocker des données structurées, non structurées et semi-structurées telles que les documents, les vidéos, les journaux IdO (Internet des objets) et les publications sur les réseaux sociaux.
Ils peuvent être construits sur une plateforme de big data comme Apache Hadoop ou un service de stockage d’objets cloud comme Amazon Simple Storage Service (Amazon S3). Contrairement aux entrepôts de données, ils n’assurent ni le nettoyage, ni la validation, ni la standardisation des données à des fins d’analyse.
Le data lakehouse combine divers aspects de l’entrepôt de données et du data lake, à savoir la performance élevée du premier, et la flexibilité à faible coût du second. En regroupant les principales caractéristiques des data lakes et des entrepôts au sein d’une seule et même solution de gestion des données, les data lakehouses accélèrent le traitement des grands flux de données structurées, non structurées et en temps réel, afin de prendre en charge les workloads de machine learning, de science des données et d’intelligence artificielle (IA).
Les data lakehouses peuvent également proposer des fonctionnalités telles que les métadonnées partagées et les moteurs de langage de requête structurés (SQL) distribués.
Les entrepôts de données mettent les informations à la disposition des utilisateurs à l’échelle de l’entreprise, ce qui apporte de nombreux avantages :
Grâce aux processus ELT et ETL, les entrepôts de données préparent les données entrantes avant de les stocker. Cette préparation consiste à appliquer des méthodes pour assurer la qualité des données comme le nettoyage, la standardisation et la déduplication des données. Les politiques et pratiques de gouvernance des données permettent également de garantir l’exactitude et l’intégrité des données.
En intégrant des données de qualité dans un seul et même magasin, les entreprises créent une source d’information unique complète et fiable, qui contribue à éliminer les silos de données. Ce référentiel central permet aux utilisateurs professionnels d’accéder en toute confiance aux données pertinentes de l’entreprise et de les utiliser lors du processus décisionnel. Les entrepôts de données dédiés aux entreprises peuvent également prendre en charge des formats open source comme Apache Iceberg, Parquet et CSV, afin d’améliorer l’accès aux données et leur partage au sein de l’entreprise.
Les entrepôts de données modernes prennent en charge divers workflows d’IA et de machine learning en fournissant des données propres et fiables. Les data scientists peuvent utiliser les données nettoyées et vérifiées des entrepôts pour créer des modèles d’IA générative propriétaires ou affiner les modèles existants, afin de mieux répondre aux besoins spécifiques de leur entreprise.
Un entrepôt de données destiné à l’IA doit être capable de collecter, de nettoyer, d’organiser et de structurer les données, et de faciliter leur flux vers les plateformes d’IA et de machine learning. Cependant, tous les entrepôts de données modernes ne sont pas optimisés pour les workloads d’IA. Le data lakehouse est en train de devenir la plateforme de données de prédilection pour l’infrastructure d’IA.
Les entrepôts de données centralisent et nettoient les données provenant de différentes sources pour créer une source d’information unique et offrir aux entreprises une vue complète et fiable des données. Les outils BI en libre-service permettent aux utilisateurs de l’entreprise d’accéder à ces données agrégées et d’exécuter des requêtes analytiques.
Ainsi, les entrepôts de données permettent aux utilisateurs professionnels, quel que soit leur niveau de compétence technique, de découvrir des thèmes, des tendances et des agrégations et d’en rendre compte. Les dirigeants utilisent ces informations pour prendre des décisions et faire des prévisions éclairées, fondées sur des preuves concrètes, et ce dans chaque domaine de l’entreprise, des processus métier à la gestion des stocks en passant par la gestion financière.
Les entrepôts de données peuvent également répondre aux besoins spécifiques des différents secteurs. Exemples :
Les capacités analytiques des entrepôts de données aident les pouvoirs publics à mieux comprendre des phénomènes complexes tels que la criminalité, les tendances démographiques et les schémas de circulation.
La capacité de centraliser et d’analyser des données disparates telles que les codes de facturation et de diagnostic, les données démographiques des patients, les médicaments et les résultats des tests, aide les professionnels de santé à mieux évaluer l’efficacité des soins, des opérations et autres.
Les entreprises peuvent utiliser les données historiques relatives aux choix de voyage et d’hébergement pour mieux cibler les publicités et les promotions proposées à leurs clients.
Les grandes entreprises manufacturières qui génèrent d’importants volumes de données peuvent utiliser les solutions d’entrepôt de données pour créer des datamarts adaptés aux besoins de chaque service.
Créez et gérez des pipelines intelligents de diffusion de données en continu via une interface graphique intuitive, facilitant ainsi une intégration fluide des données dans les environnements hybrides et multicloud.
watsonx.data vous permet d’adapter le dimensionnement des analyses et de l’IA à toutes vos données, où qu’elles se trouvent, grâce à un entrepôt de données ouvert, hybride et gouverné.
Avec IBM Consulting, exploitez les données de votre entreprise et développez une organisation basée sur les informations pour tirer des avantages métier.