Le stockage cloud des données d’entreprise, en particulier des big data, est une priorité aujourd’hui, que vous l’utilisiez pour exercer votre activité au quotidien ou pour accomplir des tâches bien spécifiques.
Les données alimentent de nombreuses fonctions métier : création de programmes ciblés pour les clients et les prospects, optimisation des opérations et des processus de fabrication, développement, test, distribution et suivi des tests de dépistage et des vaccins. Les entreprises modernes doivent pouvoir disposer des données dont elles ont besoin, quand elles en ont besoin. Cependant, trouver l’option qui correspond le mieux à vos besoins n’est pas une tâche facile, et cela peut impliquer différents types de référentiels pour différentes catégories de données.
Commençons par les bases et découvrons quelques exemples de scénarios où un ou plusieurs types de référentiels de données peuvent être nécessaires pour répondre aux besoins de votre entreprise.
Il existe aujourd’hui trois types de référentiels de stockage cloud, chacun servant un objectif différent :
Un data lake est un grand référentiel de données brutes,non structurées ou semi-structurées. Ces données sont agrégées à partir de diverses sources et sont simplement stockées. Elles ne sont pas modifiées pour les adapter à un usage spécifique ou à un format particulier. Pour les uniformiser à des fins d’analyse, ces données doivent passer par un processus fastidieux de préparation, de nettoyage et de reformatage. Les data lakes sont des ressources précieuses pour les municipalités ou autres organisations qui stockent les informations relatives aux pannes, à la circulation, à la criminalité ou aux données démographiques. Les données peuvent être utilisées ultérieurement pour actualiser les budgets et les ressources des services de travaux publics ou des services d’urgence.
L’entrepôt de données agrège les données provenant de nombreuses sources dans un référentiel centralisé qui unifie les qualités et le format des données. Cela permet aux data scientists de les utiliser dans leurs projets de data mining, d’intelligence artificielle (IA), de machine learning et, en fin de compte, d’analytique et de Business Intelligence. L’entreposage de données permettrait à une grande ville de regrouper les transactions électroniques des différents services (contraventions pour excès de vitesse, permis de détention de chiens, paiement des droits d’accise, et autres). Ces données structurées seraient analysées par la ville pour émettre des factures, mettre à jour les données de recensement et les fichiers de police. Elles peuvent également être utilisées par un développeur pour agréger les téraoctets de données générées par les capteurs automobiles et faciliter la prise de décision portant sur une solution de conduite autonome.
Un datamart est un sous-ensemble d’entrepôt de données réservé à certains utilisateurs au sein de l’entreprise ou de l’unité commerciale. Un datamart permettrait au service marketing d’une entreprise manufacturière de déterminer le groupe démographique cible ou le profil idéal pour faciliter l’élaboration des plans marketing. Il peut également être utilisé par un service de fabrication pour analyser la performance et le taux d’erreur en vue d’une amélioration continue. Les jeux de données stockés dans un datamart sont souvent utilisés en temps réel, pour assurer une analyse à jour et des résultats exploitables.
Bien que les trois types de référentiels de données cloud contiennent des données, il existe des différences très nettes entre eux. Par exemple, un entrepôt de données et un data lake sont tous deux de grandes agrégations de données, mais un data lake est généralement plus économique à implémenter et à gérer, car il est en grande partie non structuré.
L’architecture des data lakes a évolué au cours des dernières années pour prendre en charge de plus grands volumes de données, ainsi que l’informatique basée sur le cloud. De grandes quantités de données sont recueillies auprès d’un certain nombre de sources de données et transférées vers un emplacement central.
Un entrepôt de données peut être structuré de trois manières :
Les données d’un entrepôt de données peuvent être plus facilement utilisées à diverses fins que les données d’un data lake. En effet, un entrepôt de données est structuré et peut être plus facilement exploré et analysé.
Le datamart, quant à lui, contient moins de données qu’un data lake ou un entrepôt de données, et les données sont classées par utilisation, par démographie ou par unité commerciale. Les datamarts peuvent avoir divers formats (étoile, flocon de neige ou coffre-fort) définis par la structure logique des données. Le coffre-fort est plus agile, plus flexible et plus évolutif que les autres formats.
Il existe trois types de datamarts :
Le type de référentiel de données que vous choisissez, et sa structure, dépendent fortement des besoins et des exigences de votre entreprise. Si cela convient à votre activité, profitez des avantages du stockage hybride basé sur le cloud qui offre flexibilité et évolutivité, ainsi qu’une approche plus globale et éclairée de la résolution de problèmes et de la prise de décision.
Une multinationale manufacturière génère de grands volumes de données pour diverses utilisations. Certaines données sont importantes, tandis que d’autres pourront ou non servir à l’avenir. L’entreprise utilise un entrepôt de données basé sur le cloud pour le stockage de données en masse, ce qui est moins coûteux que les autres options. Cependant, l’entreprise dispose également de datamarts dépendants pour certains aspects de son activité, apportant de la valeur aux services tels que la finance, la fabrication et le marketing. Chacun de ces datamarts contient des données affectées à un usage spécifique et formatées pour faciliter l’analyse. Par exemple :
Une grande municipalité a besoin d’une solution abordable qui puisse fournir des données de manière économique et relativement exploitable. La municipalité utilise un data lake dans le cloud pour gérer les données de trafic. Elle n’a pas les moyens d’analyser ces données et d’agir en conséquence pour le moment, mais sera prête dès que les fonds seront disponibles. Elle utilise également un entrepôt de données logiciel sur site pour suivre l’état des factures fiscales. En outre, la municipalité utilise un datamart hybride pour suivre la propagation d’un virus parmi la population, regroupant les données de divers hôpitaux et services de santé municipaux dans un référentiel unique à analyser et à utiliser par le ministère de la santé.
Il existe de nombreuses idées reçues concernant les référentiels de données basés sur le cloud. En voici les plus courantes :
Votre entreprise, avec ses ressources, objectifs et défis, est unique. Évaluez soigneusement vos options afin de déterminer la solution qui répondra le mieux à vos besoins. Tenez compte des aspects suivants :
Ces considérations vous aideront à déterminer quelle solution, ou combinaison de solutions, vous aidera à atteindre vos objectifs.
IBM propose plusieurs solutions pour répondre à vos besoins en matière de stockage cloud et de science des données.