Les datamarts, les entrepôts de données et les data lakes sont des référentiels centraux essentiels, mais ils répondent à des besoins différents au sein d’une organisation.
Un entrepôt de données est un système qui agrège les données issues de plusieurs sources dans un référentiel centralisé et cohérent, afin de permettre l’exploitation de l’intelligence artificielle (IA) et du machine learning, ainsi que le data mining. Ces facteurs permettent d’améliorer les capacités analytiques et l’intelligence décisionnelle. Grâce à ce processus stratégique de collecte, les solutions d’entrepôt de données consolident les informations provenant de différentes sources pour les rendre disponibles sous une forme unifiée.
Un datamart (comme indiqué ci-dessus) est une version ciblée d’un entrepôt de données qui contient un sous-ensemble plus restreint de données importantes et nécessaires à une seule équipe ou à un groupe d’utilisateurs sélectionnés d’une entreprise. Un datamart est créé à partir d’un entrepôt de données existant (ou d’autres sources de données) grâce à une procédure complexe qui implique plusieurs technologies et outils pour concevoir et construire une base de données physique, la remplir de données et mettre en place des protocoles d’accès et de gestion complexes.
Bien que ce processus soit délicat, il permet à un secteur d’activité d’obtenir des informations plus ciblées plus rapidement qu’en travaillant avec un jeu de données plus large provenant d’un entrepôt de données. Par exemple, les équipes marketing peuvent tirer parti de la création d’un datamart à partir d’un entrepôt existant, car leurs activités sont généralement indépendantes du reste des activités. Elles n’ont donc pas besoin d’accéder à toutes les données de l’entreprise.
Un data lake est également un référentiel de données. Il offre un stockage massif de données non structurées ou brutes provenant de multiples sources, mais ces informations n’ont pas encore été traitées ni préparées pour être analysées. Comme ils permettent de stocker les données dans leur format brut, les data lakes sont plus accessibles et plus rentables que les entrepôts de données. Il n’est pas nécessaire de nettoyer et de traiter les données avant de les ingérer.
Ainsi, les administrations publiques peuvent exploiter cette technologie pour suivre les données relatives au trafic routier, à la consommation d’électricité et aux voies navigables, puis les stocker dans un data lake pendant qu’elles réfléchissent à la meilleure façon d’utiliser ces données pour créer des « villes intelligentes » offrant des services plus efficaces.