Une architecture de données présente une perspective de haut niveau sur la manière dont les différents systèmes de gestion des données fonctionnent ensemble. Ceux-ci comprennent un certain nombre de référentiels de stockage de données différents, tels que les data lakes, les entrepôts de données, les datamarts, les bases de données, etc. Ensemble, ils peuvent créer des architectures de données, telles que les tissus de données et les maillages de données, qui gagnent de plus en plus en popularité. Ces architectures mettent davantage l'accent sur les données en tant que produits, en créant une plus grande normalisation autour des métadonnées et une plus grande démocratisation des données au sein des organisations grâce aux API.
La section suivante approfondit chacun de ces composants de stockage et types d’architecture de données :
Types de systèmes de gestion des données
- Entrepôts de données : un entrepôt de données regroupe les données provenant de différentes sources de données relationnelles sur une entreprise dans un référentiel unique, centralisé et cohérent. Après l’extraction, les données circulent dans un pipeline de données ETL et subissent diverses transformations pour répondre au modèle de données prédéfini. Une fois chargées dans l’entrepôt de données, les données vivent pour prendre en charge différentes applications de business intelligence (BI) et de science des données.
- Datamarts : un datamart est une version ciblée d’un entrepôt de données qui contient un sous-ensemble plus petit de données importantes et nécessaires à une seule équipe ou à un groupe restreint d’utilisateurs au sein d’une organisation, comme le département des ressources humaines. Parce qu’ils contiennent un sous-ensemble plus restreint de données, les datamarts permettent à un département ou à un secteur d’activité de découvrir des informations plus ciblées plus rapidement qu’en travaillant avec le jeu de données plus vaste de l’entrepôt. Les datamarts sont apparus à l’origine en réponse aux difficultés rencontrées par les organisations pour mettre en place des entrepôts de données dans les années 1990. L’intégration des données provenant de l’ensemble de l’organisation à ce moment-là nécessitait beaucoup de codage manuel et prenait peu de temps. La portée plus limitée des datamarts les rendait plus faciles et plus rapides à mettre en œuvre que les entrepôts de données centralisés.
- Data Lakes : alors que les entrepôts de données stockent les données traitées, un data lake héberge des données brutes (généralement plusieurs pétaoctets). Un data lake peut stocker à la fois des données structurées et non structurées, ce qui le rend unique par rapport aux autres référentiels de données. Cette flexibilité en matière de stockage est particulièrement utile pour les data scientists, les ingénieurs en traitement de données et les développeurs, car elle leur permet d'accéder aux données pour des exercices de découverte de données et des projets de machine learning. Les data lakes ont été créés à l'origine pour répondre à l'incapacité de l'entrepôt de données à gérer le volume, la vitesse et la variété croissants des données volumineuses. Si les data lakes sont plus lents que les entrepôts de données, ils sont également moins chers car il n'y a que peu ou pas de préparation des données avant l'ingestion. Aujourd'hui, ils continuent d'évoluer dans le cadre des efforts de migration des données vers le cloud. Ils prennent en charge un large éventail de cas d'utilisation, car les objectifs commerciaux des données n'ont pas besoin d'être définis au moment de la collecte des données. Cependant, les deux principaux concernent l'exploration scientifique des données et les efforts de sauvegarde et restauration des données. Les data scientists peuvent utiliser des data lakes pour valider des concepts. Les applications de machine learning bénéficient de la possibilité de stocker des données structurées et non structurées au même endroit, ce qui n'est pas possible avec un système de base de données relationnel. Les data lakes peuvent également être utilisés pour tester et développer des projets d'analyse de big data. Lorsque l'application a été développée et que les données utiles ont été identifiées, celles-ci peuvent être exportées vers un entrepôt de données pour une utilisation opérationnelle, et l'automatisation peut être utilisée pour faire évoluer l'application. Les data lakes peuvent également être utilisés pour la sauvegarde et la restauration des données, en raison de leur capacité à évoluer à moindre coût. Pour les mêmes raisons, ils permettent de stocker des données « au cas où », pour lesquelles les besoins commerciaux n'ont pas encore été définis. Le fait de stocker les données dès maintenant signifie qu'elles seront disponibles plus tard au fur et à mesure que de nouvelles initiatives émergeront.
Types d’architectures de données
Data fabrics : un data fabric est une architecture qui se concentre sur l’automatisation de l’intégration des données, de l’ingénierie des données et de la gouvernance dans une chaîne de valeur de données entre les fournisseurs et les consommateurs de données. Le data fabric repose sur la notion de « métadonnées actives », qui utilise le graphique de connaissances, la sémantique, l’exploration de données et la technologie de machine learning (ML) pour découvrir des modèles dans différents types de métadonnées (par exemple les journaux système, les réseaux sociaux, etc.). Il applique ensuite ces informations pour automatiser et orchestrer la chaîne de valeur des données. Par exemple, il peut permettre à un consommateur de données de trouver un produit de données, puis de se voir attribuer automatiquement ce produit de données. L’accès accru aux données entre les produits de données et les consommateurs de données permet de réduire les silos de données et d'obtenir une vision plus complète des données de l’entreprise. Les data fabrics sont une technologie émergente dont le potentiel est énorme et qui peuvent être utilisées pour améliorer le profilage des clients, la détection des fraudes et la maintenance préventive. Selon Gartner, les data fabrics réduisent le temps de conception de l’intégration de 30 %, le temps de déploiement de 30 % et le temps de maintenance de 70 %.
Data mesh : un data mesh est une architecture de données décentralisée qui organise les données par domaine d’activité. En utilisant un data mesh, l’organisation doit cesser de considérer les données comme un sous-produit d’un processus et commencer à les considérer comme un produit à part entière. Les producteurs de données agissent en tant que propriétaires de produits de données. En tant qu'experts en la matière, les producteurs de données peuvent utiliser leur compréhension des principaux consommateurs de données pour concevoir des API à leur intention. Ces API sont également accessibles depuis d'autres services de l'organisation, offrant ainsi un accès plus large aux données gérées.
Des systèmes de stockage plus traditionnels, tels que les lacs de données et les entrepôts de données, peuvent être utilisés comme de multiples dépôts de données décentralisés pour réaliser un data mesh. Le data mesh peut également fonctionner avec un data fabric, l’automatisation du data fabric permettant de créer plus rapidement de nouveaux produits de données ou d’assurer une gouvernance globale.