Data lake cloud, entrepôt de données et datamart

Rendu abstrait de flux lumineux

Cette publication s’intéresse aux trois types de référentiels de stockage cloud qui existent de nos jours, explique leurs différences et permet d’identifier la solution la mieux adaptée à votre cas d’utilisation.

Le stockage cloud des données d’entreprise, en particulier des big data, est une priorité aujourd’hui, que vous l’utilisiez pour exercer votre activité au quotidien ou pour accomplir des tâches bien spécifiques.

Les données alimentent de nombreuses fonctions métier : création de programmes ciblés pour les clients et les prospects, optimisation des opérations et des processus de fabrication, développement, test, distribution et suivi des tests de dépistage et des vaccins. Les entreprises modernes doivent pouvoir disposer des données dont elles ont besoin, quand elles en ont besoin. Cependant, trouver l’option qui correspond le mieux à vos besoins n’est pas une tâche facile, et cela peut impliquer différents types de référentiels pour différentes catégories de données.

Commençons par les bases et découvrons quelques exemples de scénarios où un ou plusieurs types de référentiels de données peuvent être nécessaires pour répondre aux besoins de votre entreprise.

 

Trois types de référentiels de stockage cloud

Il existe aujourd’hui trois types de référentiels de stockage cloud, chacun servant un objectif différent :

Data lake

Un data lake est un grand référentiel de données brutes,non structurées ou semi-structurées. Ces données sont agrégées à partir de diverses sources et sont simplement stockées. Elles ne sont pas modifiées pour les adapter à un usage spécifique ou à un format particulier. Pour les uniformiser à des fins d’analyse, ces données doivent passer par un processus fastidieux de préparation, de nettoyage et de reformatage. Les data lakes sont des ressources précieuses pour les municipalités ou autres organisations qui stockent les informations relatives aux pannes, à la circulation, à la criminalité ou aux données démographiques. Les données peuvent être utilisées ultérieurement pour actualiser les budgets et les ressources des services de travaux publics ou des services d’urgence.

Entrepôt de données

L’entrepôt de données agrège les données provenant de nombreuses sources dans un référentiel centralisé qui unifie les qualités et le format des données. Cela permet aux data scientists de les utiliser dans leurs projets de data mining, d’intelligence artificielle (IA), de machine learning et, en fin de compte, d’analytique et de Business Intelligence. L’entreposage de données permettrait à une grande ville de regrouper les transactions électroniques des différents services (contraventions pour excès de vitesse, permis de détention de chiens, paiement des droits d’accise, et autres). Ces données structurées seraient analysées par la ville pour émettre des factures, mettre à jour les données de recensement et les fichiers de police. Elles peuvent également être utilisées par un développeur pour agréger les téraoctets de données générées par les capteurs automobiles et faciliter la prise de décision portant sur une solution de conduite autonome.

data mart

Un datamart est un sous-ensemble d’entrepôt de données réservé à certains utilisateurs au sein de l’entreprise ou de l’unité commerciale. Un datamart permettrait au service marketing d’une entreprise manufacturière de déterminer le groupe démographique cible ou le profil idéal pour faciliter l’élaboration des plans marketing. Il peut également être utilisé par un service de fabrication pour analyser la performance et le taux d’erreur en vue d’une amélioration continue. Les jeux de données stockés dans un datamart sont souvent utilisés en temps réel, pour assurer une analyse à jour et des résultats exploitables.

Data lake, entrepôt de données et datamart : principales différences

Bien que les trois types de référentiels de données cloud contiennent des données, il existe des différences très nettes entre eux. Par exemple, un entrepôt de données et un data lake sont tous deux de grandes agrégations de données, mais un data lake est généralement plus économique à implémenter et à gérer, car il est en grande partie non structuré. 

L’architecture des data lakes a évolué au cours des dernières années pour prendre en charge de plus grands volumes de données, ainsi que l’informatique basée sur le cloud. De grandes quantités de données sont recueillies auprès d’un certain nombre de sources de données et transférées vers un emplacement central. 

Un entrepôt de données peut être structuré de trois manières :

  1. En tant que service géré proposé par les fournisseurs de cloud.
  2. En tant que solution logicielle qui fournit un contrôle interne et des protocoles de sécurité stricts, ce qui est utile pour assurer la conformité réglementaire.
  3. En tant qu’appliance : il s’agit généralement d’une solution logicielle et matérielle prête à l’emploi.

Les données d’un entrepôt de données peuvent être plus facilement utilisées à diverses fins que les données d’un data lake. En effet, un entrepôt de données est structuré et peut être plus facilement exploré et analysé.

Le datamart, quant à lui, contient moins de données qu’un data lake ou un entrepôt de données, et les données sont classées par utilisation, par démographie ou par unité commerciale. Les datamarts peuvent avoir divers formats (étoile, flocon de neige ou coffre-fort) définis par la structure logique des données. Le coffre-fort est plus agile, plus flexible et plus évolutif que les autres formats.

Il existe trois types de datamarts :

  1. Un datamart dépendant, composé de partitions d’entrepôt de données d’entreprise. Il s’agit d’un sous-ensemble de données primaires dans un entrepôt.
  2. Un datamart indépendant, c’est-à-dire un système autonome, cloisonné dans une partie spécifique de l’entreprise.
  3. Un datamart hybride, composé de données provenant d’un entrepôt et de sources indépendantes. Ce type offre généralement un accès plus rapide aux données et une interface conviviale.

Le type de référentiel de données que vous choisissez, et sa structure, dépendent fortement des besoins et des exigences de votre entreprise. Si cela convient à votre activité, profitez des avantages du stockage hybride basé sur le cloud qui offre flexibilité et évolutivité, ainsi qu’une approche plus globale et éclairée de la résolution de problèmes et de la prise de décision.

Cas d’utilisation des solutions de référentiel de données cloud

Industrie

Une multinationale manufacturière génère de grands volumes de données pour diverses utilisations. Certaines données sont importantes, tandis que d’autres pourront ou non servir à l’avenir. L’entreprise utilise un entrepôt de données basé sur le cloud pour le stockage de données en masse, ce qui est moins coûteux que les autres options. Cependant, l’entreprise dispose également de datamarts dépendants pour certains aspects de son activité, apportant de la valeur aux services tels que la finance, la fabrication et le marketing. Chacun de ces datamarts contient des données affectées à un usage spécifique et formatées pour faciliter l’analyse. Par exemple :

  • Le service financier utilise son datamart pour préparer les relevés des comptes clients et tenir à jour les bilans.
  • Le service de fabrication utilise son datamart pour analyser l’efficacité des chaînes de montage, traiter les données pour alimenter les solutions d’IA et gérer les bases de données d’approvisionnement.
  • Le service marketing utilise son datamart pour déterminer l’efficacité des campagnes et de la communication, tout en analysant et en compilant les réponses aux enquêtes.

Grande municipalité

Une grande municipalité a besoin d’une solution abordable qui puisse fournir des données de manière économique et relativement exploitable. La municipalité utilise un data lake dans le cloud pour gérer les données de trafic. Elle n’a pas les moyens d’analyser ces données et d’agir en conséquence pour le moment, mais sera prête dès que les fonds seront disponibles. Elle utilise également un entrepôt de données logiciel sur site pour suivre l’état des factures fiscales. En outre, la municipalité utilise un datamart hybride pour suivre la propagation d’un virus parmi la population, regroupant les données de divers hôpitaux et services de santé municipaux dans un référentiel unique à analyser et à utiliser par le ministère de la santé.

Idées reçues courantes sur le stockage de données dans le cloud

Il existe de nombreuses idées reçues concernant les référentiels de données basés sur le cloud. En voici les plus courantes :

  • Modèle universel : ce type de solution est inenvisageable pour le stockage de données dans le cloud. Chaque entreprise a des contraintes budgétaires, des objectifs, une répartition des ressources et des préférences différents. Il est important d’évaluer les besoins de votre entreprise et votre budget, et de vous en tenir à ces critères pour choisir la solution qui vous permettra d’atteindre vos objectifs.
  • Les îlots de données laissent vos données bloquées dans un référentiel : c’est faux. La nature même du stockage basé sur le cloud permet d’accéder aux données où qu’elles se trouvent, avec les autorisations appropriées.
  • Les solutions basées sur le cloud sont moins sécurisées : en réalité, les fournisseurs de cloud peuvent offrir un niveau de sécurité renforcé, en fournissant des mises à jour régulières et en utilisant les protocoles les plus récents. Ils disposent généralement d’équipes d’experts en sécurité dédiés possédant les certifications les plus récentes pour garantir que la solution de sécurité la plus rigoureuse protège vos données. De nombreux fournisseurs ont également des équipes qui travaillent avec les organismes de conformité réglementaire pour optimiser leur solution. Cependant, dans certains secteurs (comme la santé et la finance), la conformité réglementaire pourrait exiger la possibilité d’accéder aux données sans connexion Internet, ce qui nécessiterait un équipement sur site.
  • Les référentiels de données basés sur le cloud sont coûteux : le stockage dans le cloud peut être moins coûteux que les solutions sur site, car il n’y a pas d’investissements initiaux importants dans l’infrastructure ni de coûts liés au refroidissement ou à l’espace au sol, à la maintenance continue ou aux équipes d’experts internes. Les coûts mensuels varient selon le prestataire ou le fournisseur de cloud.

 

Comment déterminer la solution de stockage cloud la mieux adaptée à votre entreprise ?

Votre entreprise, avec ses ressources, objectifs et défis, est unique. Évaluez soigneusement vos options afin de déterminer la solution qui répondra le mieux à vos besoins. Tenez compte des aspects suivants :

  • Vos objectifs métier et technologiques
  • Votre budget
  • Le volume de données à stocker
  • La fréquence à laquelle vous devrez y accéder
  • Vos besoins aujourd’hui, ou à court terme

Ces considérations vous aideront à déterminer quelle solution, ou combinaison de solutions, vous aidera à atteindre vos objectifs.

Référentiels de données IBM dans le cloud : solutions et gestion

IBM propose plusieurs solutions pour répondre à vos besoins en matière de stockage cloud et de science des données.

  • IBM Db2 Warehouse on Cloud est un entrepôt de données cloud élastique qui offre une mise à l’échelle indépendante du stockage et du calcul. Les datamarts plus petits peuvent utiliser la fonctionnalité Flex One, qui est un entrepôt de données élastique conçu pour l’analytique haute performance. Ce système peut être déployé sur plusieurs fournisseurs de cloud, à partir de 40 Go de stockage.
  • Une autre option à envisager est IBM® InfoSphere Master Data Management (MDM). Ce système personnalisable gère tous les aspects des données critiques de votre entreprise et permet aux utilisateurs d’y accéder dans une vue unique et fiable. Grâce à ce tableau de bord rationalisé, les utilisateurs peuvent effectuer des analyses détaillées, obtenir des informations exploitables et garantir la conformité aux politiques et aux règles de gouvernance des données à l’échelle de l’entreprise.
  • Netezza Performance Server, la dernière évolution d’IBM Netezza Appliance, s’appuie sur l’architecture hyperconvergée d’IBM Cloud Pak for Data System pour fournir un système d’aide à la décision cloud natif pour les analyses les plus complexes de votre entreprise. La solution est également disponible sur AWS et Azure.
  • IBM Watson Studio, une offre de science des données et de machine learning, permet aux entreprises d’exploiter les actifs et d’injecter des prévisions dans les processus métier et les applications modernes.

    Auteur

    Tanmay Sinha

    Program Director, Db2 Portfolio