Une architecture de données décrit la manière dont les données sont gérées, depuis leur collecte jusqu’à leur transformation, leur distribution et leur consommation, en posant le schéma directeur de la circulation des données à travers les systèmes de stockage. Elle constitue la base des opérations de traitement des données et des applications d’intelligence artificielle (IA).
La conception d’une architecture de données est souvent basée sur les besoins métier et les exigences en matière de données, que les architectes et les ingénieurs data utilisent pour définir le modèle de données ainsi que les structures sous-jacentes qui le prennent en charge. Cette conception répond généralement à une stratégie ou à un besoin métier, comme une initiative en matière de reporting ou de science des données.
Newsletter sectorielle
Restez au fait des tendances les plus étonnantes du secteur dans le domaine de l’IA, de l’automatisation, des données et bien d’autres avec la newsletter Think. Consultez la déclaration de confidentialité d’IBM.
Lire la Déclaration de confidentialité d’IBM.
Vous recevrez votre abonnement en anglais. Vous trouverez un lien de désabonnement dans chaque newsletter. Vous pouvez gérer vos abonnements ou vous désabonner ici. Consultez la Déclaration de confidentialité d’IBM pour plus d’informations.
Dans un contexte où les entreprises font évoluer leurs données, la nécessité d’une architecture bien structurée et adaptable est devenue primordiale. Pourtant, 94 % des responsables des données citent l’absence d’une architecture de données bien définie parmi les principaux défis auxquels ils sont confrontés.1
Une architecture de données moderne permet d’unifier et de standardiser les données afin d’optimiser leur partage par les différents services de l’entreprise. Il fournit également une base évolutive pour les cas d’utilisation avancés comme l’analyse de données en temps réel et l’IA générative, afin d’accélérer et de fiabiliser l’exploitation des données.
Dans un contexte où les technologies comme l’Internet des objets (IdO) génèrent de nouvelles sources de données, une architecture bien conçue garantit que les données restent gérables, intégrées et utiles tout au long de leur cycle de vie. Elle permet de réduire la redondance, d’améliorer la qualité des données et d’éliminer les silos en reliant les systèmes de l’entreprise.
Lorsqu’elle est bien conçue, l’architecture de données n’est pas seulement une structure technique, mais une capacité stratégique qui transforme les données brutes en actifs réutilisables.
L’architecture de données regroupe plusieurs concepts qui se recoupent. Les éléments suivants permettent d’en définir le périmètre :
L’architecture de données modernes suit généralement l’une des deux approches fondamentales suivantes : centralisée ou décentralisée. Ces modèles indiquent la manière dont les données d’entreprise seront collectées, stockées et gérées.
Les architectures centralisées regroupent les données sur des plateformes unifiées, comme les data lakes ou les entrepôts de données, gérées selon un modèle de gouvernance des données unique. Cela permet de réduire la redondance, d’améliorer la qualité des données et d’assurer la modélisation des données structurées à l’aide du langage de requête structuré (SQL) et d’autres bases de données relationnelles.
Les architectures décentralisées répartissent la propriété des données entre les différents services de l’entreprise. Les équipes gèrent les données localement, souvent à l’aide de systèmes de bases de données non relationnelles (« bases de données NoSQL ») ou de pipelines basés sur les événements avec leurs propres schémas, métadonnées et contrôles d’accès. Cette approche permet l’intégration et le traitement des données en temps réel, leur diffusion en continu et les cas d’utilisation du machine learning (ML).
La plupart des entreprises associent les deux modèles pour concilier évolutivité,intégration des données et agilité. Cette approche hybride permet de prendre en charge différentes sources de données, de réduire les silos de données et de réaliser des opérations cloud natives sur des plateformes comme AWS ou Microsoft Azure.
Quel que soit le modèle architectural adopté par l’entreprise, la réussite dépend de la manière dont les données sous-jacentes sont structurées. C’est là que la modélisation des données entre en jeu.
Alors que l’architecture de données concerne la manière dont les données circulent entre les systèmes, la modélisation se concentre sur leur structuration au sein de ces systèmes. Les modèles de données définissent la forme, les relations et les contraintes de l’information au fur et à mesure qu’elle se déplace au sein de l’architecture.
La documentation relative à l’architecture de données comprend généralement trois types de modèles :
Également appelés « modèles de domaine », les modèles de données conceptuels offrent une vue globale de ce que le système contiendra, de la manière dont il sera organisé et des business rules qui s’y appliqueront. Généralement créés au début de la phase de planification du projet, ces modèles incluent des classes d’entités (éléments définis à suivre dans le modèle de données), leurs caractéristiques et contraintes, les relations entre elles et toute exigence pertinente en matière de sécurité ou d’intégrité des données.
Moins abstraits que les modèles conceptuels, les modèles de données logiques fournissent plus de détails sur les entités et les relations au sein d’un domaine donné. Ils suivent une notation formelle de modélisation des données et définissent les attributs de ces dernières, comme le type et la longueur, tout en illustrant la manière dont les entités sont connectées. Il est important de noter que les modèles logiques restent agnostiques sur le plan technologique et ne comprennent pas d’exigences spécifiques au système.
Les modèles de données physiques sont les plus détaillés des trois, puisqu’ils décrivent la manière dont la base de données sera mise en œuvre. Ils définissent la structure des tables, les index, les formats de stockage et les critères de performance. Axés sur les aspects techniques du stockage et de l’accès aux données, ces modèles sont utilisés pour créer, configurer et optimiser les schémas.
Les modèles de données définissent la structure de l’information au sein d’un système. À partir de là, des cadres plus larges guident la mise en œuvre des modèles et des systèmes qui les entourent.
Une architecture de données peut s'inspirer de cadres d'architecture d'entreprise populaires, notamment TOGAF, DAMA-DMBOK 2 et le Zachman Framework for Enterprise Architecture.
Cette méthodologie d’architecture d’entreprise a été développée en 1995 par The Open Group. Son architecture se compose de quatre piliers :
Le cadre TOGAF fournit une méthodologie complète pour concevoir et mettre en œuvre l'architecture informatique d'une entreprise, y compris son architecture de données.
DAMA International, fondée à l’origine sous le nom de Data Management Association International, est une organisation à but non lucratif qui se consacre à la promotion de la gestion des données et de l’information. Son corpus de connaissances sur la gestion des données, DAMA-DMBOK 2, couvre l’architecture des données, la gouvernance et l’éthique, la modélisation et la conception des données, le stockage, la sécurité et l’intégration.
Développé à l’origine par John Zachman chez IBM en 1987, ce cadre utilise une matrice de six couches, allant du contextuel au détaillé, et s’articule autour de six questions (comme le quoi, le pourquoi et le comment). Il fournit un moyen formel d’organiser et d’analyser les données, mais n’inclut pas de méthodes pour le faire.
L’architecture de données est construite à partir de différents composants interdépendants qui gèrent le déplacement, le stockage, la gouvernance et l’accès aux données. Ces éléments constituent la base opérationnelle des systèmes de données et se chargent de tout, de l’ingestion à l’analytique.
Les composants de l’architecture de données se répartissent généralement en quatre catégories, chacune comportant plusieurs sous-catégories :
Les données sont capturées à partir de sources externes et internes, et déplacées dans le système à des fins de traitement et de stockage.
Les pipelines ingèrent, transforment et transportent les données de leur point d’origine jusqu’à l’endroit où elles sont traitées et stockées. Ces systèmes peuvent suivre des schémas de traitement par lots, comme l’ETL (extraction, transformation, chargement) et l’ELT (extraction, chargement, transformation). Ils peuvent également diffuser les données en temps quasi réel. Les pipelines modernes incluent souvent logique de transformation, contrôles de qualité et validation des schémas dans le flux.
Les interfaces de programmation d’application (API) et les connecteurs prédéfinis permettent une intégration parfaite entre systèmes de données, applications et outils d’analyse. Elles proposent un moyen standardisé de rationaliser l’accès aux données sur différentes plateformes et sont essentielles à l’échange de données en temps réel.
Une fois ingérées, les données sont stockées dans des systèmes évolutifs, structurés et non structurés, et deviennent disponibles pour une utilisation et une analyse ultérieures.
Un entrepôt de données regroupe les données provenant de différentes sources de données relationnelles à l’échelle d’une entreprise dans un référentiel unique, centralisé et cohérent. Après extraction, les données transitent par un pipeline ETL, subissant diverses transformations pour se conformer au modèle de données prédéfini. Une fois chargées dans le système d’entreposage de données, elles deviennent exploitables pour diverses applications de business intelligence (BI) et de science des données.
Un datamart est une version ciblée de l’entrepôt de données, qui contient un jeu de données plus restreint, pertinent pour une seule équipe ou un seul groupe de parties prenantes. En réduisant la portée, le datamart offre des informations plus rapides et plus ciblées que les grands jeux de données stockés dans un entrepôt.
Les data lakes stockent des données brutes, non traitées, aux formats tant structurés que non structurés, et ce à l’échelle. Contrairement aux entrepôts de données, les data lakes ne requièrent ni modélisation préalable ni préparation des données, ce qui les rend parfaitement adaptés aux workloads de big data.
Le data lakehouse regroupe les meilleurs aspects des entrepôts de données et des data lakes au sein d’une seule et même solution de gestion des données. Il associe stockage à faible coût, moteur de requête haute performance et gouvernance intelligente des métadonnées.
Une base de données est un référentiel numérique conçu pour stocker, gérer et sécuriser les données. La méthode de stockage diffère d’une base de données à l’autre. Par exemple, les bases de données relationnelles (également appelées « bases de données SQL ») stockent les données dans des tables composées de lignes et de colonnes bien définies. Les bases de données NoSQL assurent le stockage sous la forme de différentes structures de données, comme les paires clé-valeur et les graphiques.
Au fur et à mesure que les données circulent et s’accumulent, les outils de gouvernance garantissent qu’elles sont bien organisées, sécurisées et faciles à découvrir tout au long de leur cycle de vie.
Un catalogue de données est un inventaire centralisé des actifs de données de l’entreprise. Il s’appuie sur les métadonnées pour fournir un contexte sur chaque jeu de données, notamment son origine, sa structure, son appartenance, son historique d’utilisation et sa qualité. Les catalogues de données aident les utilisateurs à trouver et à évaluer les données, facilitent la gouvernance et la mise en conformité, ainsi que la collaboration des équipes.
Les outils de traçabilité suivent le parcours des données à travers les systèmes et indiquent la manière dont elles ont été transformées, ainsi que leur provenance. Cette visibilité est essentielle pour assurer les audits, résoudre les problèmes et comprendre les dépendances. Les plateformes d’observabilité peuvent compléter la traçabilité en surveillant la performance des pipelines et les indicateurs de qualité des données.
Enfin, les données parviennent aux personnes et aux systèmes qui les utilisent par le biais de tableaux de bord, de requêtes ou d’outils intégrés facilitant la prise de décision.
Les plateformes de Business Intelligence améliorent l’accès aux données en alliant visualisations et tableaux de bord. Ces outils aident les utilisateurs non techniques à interpréter les tendances, à surveiller les indicateurs clés de performance (KPI) et à prendre des décisions axées sur les données.
Les points de terminaison SQL et autres interfaces de requête permettent aux analystes et aux data scientists d’explorer et d’analyser les données directement. Des outils comme Apache Spark et IBM watsonx.data fournissent la couche de calcul nécessaire pour exécuter des requêtes sur les jeux de données distribués à grande échelle.
Certaines architectures permettent de fournir les données directement aux applications, workflows ou API. Ces produits de données intégrés apportent des informations sur les opérations quotidiennes pour favoriser une prise de décision axée sur les données.
Les données de l’architecture peuvent également alimenter les workflows d’IA et de ML. Les données d’entraînement sont souvent puisées dans des data lakes, transformées par le biais des pipelines et utilisées pour développer et entraîner à nouveau les modèles. Ces modèles peuvent ensuite être déployés dans des produits, des tableaux de bord ou des processus métier afin d’améliorer l’automatisation et la prédiction.
Mettre en œuvre une architecture de données consiste à transposer les besoins métier sur une feuille de route pour assurer la collecte, l’organisation, la sécurité et l’accessibilité des données. Si chaque mise en œuvre est différente, la plupart suivent une approche en plusieurs phases qui vont de la planification à l’exécution.
La première étape du processus consiste à déterminer ce que l’entreprise cherche à accomplir à l’aide de ses données, qu’il s’agisse de favoriser le machine learning ou d’assurer sa conformité. Cela permet de définir les priorités architecturales, les sources de données à inclure et les systèmes à intégrer.
Les data architects développent des modèles de données conceptuels, logiques et physiques pour guider la structure et le flux. Ces modèles permettent d’identifier les entités clés, les relations, les exigences en matière de données et les contrôles d’accès. Parallèlement, des politiques de gouvernance sont mises en place pour définir la propriété, les droits d’accès et les règles du cycle de vie des données.
Après la mise en place des modèles et des politiques, les équipes conçoivent l’architecture en sélectionnant des technologies pour le stockage, l’intégration, la gestion des métadonnées et la consommation. Il s’agit notamment de définir la manière dont les données seront déplacées entre les systèmes et leur emplacement dans les systèmes de stockage.
La mise en œuvre consiste généralement à déployer les pipelines d’ingestion, à mettre en place les API, à configurer les couches de gouvernance et à activer des points d’accès tels que les tableaux de bord ou les points de terminaison des requêtes. Les exigences en matière de sécurité et de conformité sont intégrées à ce stade pour protéger les données.
Une fois déployée, l’architecture de données doit être surveillée et affinée en permanence. Les volumes de données augmentent, les cas d’utilisation évoluent et les réglementations changent. Les entreprises revoient et optimisent souvent leur architecture, surtout lorsqu’elles se tournent vers les plateformes cloud et les schémas architecturaux modernes.
À mesure que les organisations montent en puissance, le besoin d’une architecture de données flexible et résiliente s’accroît. Les architectures de données modernes privilégient l’interopérabilité, l’accès en temps réel et la capacité à gérer les données comme un produit, et non plus seulement comme un actif. Elles favorisent également la standardisation, la gestion des métadonnées et la démocratisation grâce aux API.
Les principales caractéristiques d’une architecture de données moderne sont les suivantes :
Les entreprises qui modernisent leur infrastructure de données adoptent de nouvelles stratégies pour faire face la complexité des environnements multicloud hybrides d’aujourd’hui. Cette évolution a donné naissance à de nouveaux schémas architecturaux, notamment le data fabric et le data mesh.
Le data fabric permet d’automatiser l’intégration et la gestion des données dans les environnements hybrides. Il associe métadonnées actives et machine learning pour découvrir les relations entre les systèmes et orchestrer les flux de données. Le data fabric peut provisionner automatiquement les produits de données et les livrer à la demande, afin d’améliorer l’efficacité opérationnelle et de réduire les silos.
Le data mesh décentralise la propriété des données en alignant l’architecture sur les domaines d’activité. Il encourage les producteurs de données, ceux qui sont les plus proches de la source, à traiter les données comme un produit et à concevoir des API orientées consommateur. Ce modèle permet d’éliminer les goulots d’étranglement et de favoriser la démocratisation des données évolutives à l’échelle de l’entreprise.
Et même si ces approches diffèrent, elles ne s’excluent pas mutuellement. De nombreuses entreprises mettent en œuvre des éléments des deux, en s’appuyant sur l’automatisation du tissu pour dimensionner la gouvernance décentralisée du maillage.
Une architecture de données bien construite offre des avantages considérables aux entreprises, notamment :
Le recoupement de champs de données issus de sources différentes peut provoquer des incohérences, des inexactitudes et freiner l’intégration des données. Une bonne architecture de données permet de normaliser la façon dont les données sont stockées et, potentiellement, de réduire la redondance, pour des analyses de meilleure qualité et holistiques.
Une architecture de données bien conçue permet de résoudre certains défis liés aux data lakes mal gérés, également appelés « marécages de données ». Les marécages de données ne suivent pas les normes appropriées (par exemple, qualité des données et pratiques de gouvernance) pour fournir des informations utiles. Les architectures de données favorisent l’application des normes de gouvernance et de sécurité des données, ce qui permet une surveillance efficace des pipelines de données.
Les données sont souvent cloisonnées, en raison des limites techniques du stockage des données et des barrières organisationnelles au sein de l’entreprise. Les architectures de données modernes visent à faciliter l’intégration des données entre les domaines, de sorte que les différentes zones géographiques et fonctions métier aient accès aux données des autres. Cela peut conduire à une compréhension améliorée et plus cohérente des indicateurs communs et à une vision plus globale de l’entreprise, afin d’éclairer la prise de décision fondée sur les données.
Une architecture de données moderne peut prendre en compte la manière dont les données sont gérées au fil du temps. Les données perdent généralement de leur utilité à mesure qu’elles vieillissent et lorsqu’elles sont consultées moins fréquemment. Au fil du temps, les données peuvent être transférées vers des types de stockage moins coûteux et plus lents, de sorte qu’elles restent disponibles pour les rapports et les audits, mais sans les dépenses liées au stockage haute performance.
Pour prospérer, les entreprises doivent exploiter les données pour fidéliser leur clientèle, automatiser les processus métier et innover avec des solutions pilotées par l’IA.
Avec IBM Consulting, exploitez les données de votre entreprise et développez une organisation basée sur les informations pour tirer des avantages métier.
Découvrez Cognos Analytics 12.0, des informations alimentées par l’IA pour une prise de décision plus éclairée.