Qu’est-ce qu’une architecture de données ?

Image d’un bâtiment géométrique moderne en verre

Auteurs

Tom Krantz

Staff Writer

IBM Think

Alexandra Jonker

Staff Editor

IBM Think

Qu’est-ce qu’une architecture de données ?

Une architecture de données décrit la manière dont les données sont gérées, depuis leur collecte jusqu’à leur transformation, leur distribution et leur consommation, en posant le schéma directeur de la circulation des données à travers les systèmes de stockage. Elle constitue la base des opérations de traitement des données et des applications d’intelligence artificielle (IA).

La conception d’une architecture de données est souvent basée sur les besoins métier et les exigences en matière de données, que les architectes et les ingénieurs data utilisent pour définir le modèle de données ainsi que les structures sous-jacentes qui le prennent en charge. Cette conception répond généralement à une stratégie ou à un besoin métier, comme une initiative en matière de reporting ou de science des données.

Les dernières actualités technologiques, étayées par des avis d’expert

Restez au fait des tendances les plus étonnantes du secteur dans le domaine de l’IA, de l’automatisation, des données et bien d’autres avec la newsletter Think. Consultez la déclaration de confidentialité d’IBM.
Lire la Déclaration de confidentialité d’IBM.

Merci ! Vous êtes abonné(e).

Vous recevrez votre abonnement en anglais. Vous trouverez un lien de désabonnement dans chaque newsletter. Vous pouvez gérer vos abonnements ou vous désabonner ici. Consultez la Déclaration de confidentialité d’IBM pour plus d’informations.

Pourquoi l’architecture de données est-elle importante ?

Dans un contexte où les entreprises font évoluer leurs données, la nécessité d’une architecture bien structurée et adaptable est devenue primordiale. Pourtant, 94 % des responsables des données citent l’absence d’une architecture de données bien définie parmi les principaux défis auxquels ils sont confrontés.1

Une architecture de données moderne permet d’unifier et de standardiser les données afin d’optimiser leur partage par les différents services de l’entreprise. Il fournit également une base évolutive pour les cas d’utilisation avancés comme l’analyse de données en temps réel et l’IA générative, afin d’accélérer et de fiabiliser l’exploitation des données.

Dans un contexte où les technologies comme l’Internet des objets (IdO) génèrent de nouvelles sources de données, une architecture bien conçue garantit que les données restent gérables, intégrées et utiles tout au long de leur cycle de vie. Elle permet de réduire la redondance, d’améliorer la qualité des données et d’éliminer les silos en reliant les systèmes de l’entreprise.

Lorsqu’elle est bien conçue, l’architecture de données n’est pas seulement une structure technique, mais une capacité stratégique qui transforme les données brutes en actifs réutilisables.

Mixture of Experts | 28 août, épisode 70

Décryptage de l’IA : Tour d’horizon hebdomadaire

Rejoignez notre panel d’ingénieurs, de chercheurs, de chefs de produits et autres spécialistes de premier plan pour connaître l’essentiel de l’actualité et des dernières tendances dans le domaine de l’IA.

Termes clés liés à l’architecture de données

L’architecture de données regroupe plusieurs concepts qui se recoupent. Les éléments suivants permettent d’en définir le périmètre :

  • Plateforme : l’environnement technologique qui héberge et exécute les systèmes de données. Il peut s’agir d’outils cloud ou sur site.
  • Modèle de données : représentation détaillée de l’organisation des données au sein d’un système. Il définit les entités, les relations et les formats.
  • Cadre : une méthodologie stratégique utilisée pour concevoir et gérer l’architecture d’entreprise. Les cadres fournissent une approche structurée pour aligner les systèmes de données sur les objectifs de l’entreprise.
  • Schéma : une solution reproductible pour relever un défi architectural courant. Des schémas tels que le data fabric et le data mesh décrivent les moyens éprouvés permettant d’améliorer l’évolutivité, la gouvernance ou l’accessibilité.

Types d’architecture de données

L’architecture de données modernes suit généralement l’une des deux approches fondamentales suivantes : centralisée ou décentralisée. Ces modèles indiquent la manière dont les données d’entreprise seront collectées, stockées et gérées.

Les architectures centralisées regroupent les données sur des plateformes unifiées, comme les data lakes ou les entrepôts de données, gérées selon un modèle de gouvernance des données unique. Cela permet de réduire la redondance, d’améliorer la qualité des données et d’assurer la modélisation des données structurées à l’aide du langage de requête structuré (SQL) et d’autres bases de données relationnelles.

Les architectures décentralisées répartissent la propriété des données entre les différents services de l’entreprise. Les équipes gèrent les données localement, souvent à l’aide de systèmes de bases de données non relationnelles (« bases de données NoSQL ») ou de pipelines basés sur les événements avec leurs propres schémasmétadonnées et contrôles d’accès. Cette approche permet l’intégration et le traitement des données en temps réel, leur diffusion en continu et les cas d’utilisation du machine learning (ML).

La plupart des entreprises associent les deux modèles pour concilier évolutivité,intégration des données et agilité. Cette approche hybride permet de prendre en charge différentes sources de données, de réduire les silos de données et de réaliser des opérations cloud natives sur des plateformes comme AWS ou Microsoft Azure.

Quel que soit le modèle architectural adopté par l’entreprise, la réussite dépend de la manière dont les données sous-jacentes sont structurées. C’est là que la modélisation des données entre en jeu.

Quels sont les trois types de modèles de données ?

Alors que l’architecture de données concerne la manière dont les données circulent entre les systèmes, la modélisation se concentre sur leur structuration au sein de ces systèmes. Les modèles de données définissent la forme, les relations et les contraintes de l’information au fur et à mesure qu’elle se déplace au sein de l’architecture.

La documentation relative à l’architecture de données comprend généralement trois types de modèles :

  • Modèles de données conceptuels
  • Modèles de données logiques
  • Modèles de données physiques

Modèles de données conceptuels

Également appelés « modèles de domaine », les modèles de données conceptuels offrent une vue globale de ce que le système contiendra, de la manière dont il sera organisé et des business rules qui s’y appliqueront. Généralement créés au début de la phase de planification du projet, ces modèles incluent des classes d’entités (éléments définis à suivre dans le modèle de données), leurs caractéristiques et contraintes, les relations entre elles et toute exigence pertinente en matière de sécurité ou d’intégrité des données.

Modèles de données logiques

Moins abstraits que les modèles conceptuels, les modèles de données logiques fournissent plus de détails sur les entités et les relations au sein d’un domaine donné. Ils suivent une notation formelle de modélisation des données et définissent les attributs de ces dernières, comme le type et la longueur, tout en illustrant la manière dont les entités sont connectées. Il est important de noter que les modèles logiques restent agnostiques sur le plan technologique et ne comprennent pas d’exigences spécifiques au système.

Modèles de données physiques

Les modèles de données physiques sont les plus détaillés des trois, puisqu’ils décrivent la manière dont la base de données sera mise en œuvre. Ils définissent la structure des tables, les index, les formats de stockage et les critères de performance. Axés sur les aspects techniques du stockage et de l’accès aux données, ces modèles sont utilisés pour créer, configurer et optimiser les schémas.

Les modèles de données définissent la structure de l’information au sein d’un système. À partir de là, des cadres plus larges guident la mise en œuvre des modèles et des systèmes qui les entourent.

Cadres d’architecture de données populaires

Une architecture de données peut s'inspirer de cadres d'architecture d'entreprise populaires, notamment TOGAF, DAMA-DMBOK 2 et le Zachman Framework for Enterprise Architecture.

L'Open Group Architecture Framework (TOGAF)

Cette méthodologie d’architecture d’entreprise a été développée en 1995 par The Open Group. Son architecture se compose de quatre piliers :

  • L’architecture d’entreprise définit la structure organisationnelle, la stratégie en matière de données et les processus de l’entreprise.
  • L’architecture de données décrit les actifs de données conceptuels, logiques et physiques, ainsi que la manière dont ils sont stockés et gérés tout au long de leur cycle de vie.
  • L’architecture d’application représente les systèmes applicatifs et la manière dont ils sont liés tant aux principaux processus métier que les uns aux autres.

  • L’architecture technique décrit l’infrastructure de données (matériel, logiciels et réseau) nécessaire pour prendre en charge les applications essentielles.

Le cadre TOGAF fournit une méthodologie complète pour concevoir et mettre en œuvre l'architecture informatique d'une entreprise, y compris son architecture de données.

DAMA-DMBOK 2

DAMA International, fondée à l’origine sous le nom de Data Management Association International, est une organisation à but non lucratif qui se consacre à la promotion de la gestion des données et de l’information. Son corpus de connaissances sur la gestion des données, DAMA-DMBOK 2, couvre l’architecture des données, la gouvernance et l’éthique, la modélisation et la conception des données, le stockage, la sécurité et l’intégration.

Zachman Framework for Enterprise Architecture

Développé à l’origine par John Zachman chez IBM en 1987, ce cadre utilise une matrice de six couches, allant du contextuel au détaillé, et s’articule autour de six questions (comme le quoi, le pourquoi et le comment). Il fournit un moyen formel d’organiser et d’analyser les données, mais n’inclut pas de méthodes pour le faire.

Les composants d’une architecture de données

L’architecture de données est construite à partir de différents composants interdépendants qui gèrent le déplacement, le stockage, la gouvernance et l’accès aux données. Ces éléments constituent la base opérationnelle des systèmes de données et se chargent de tout, de l’ingestion à l’analytique.

Les composants de l’architecture de données se répartissent généralement en quatre catégories, chacune comportant plusieurs sous-catégories :

Flux et intégration

Les données sont capturées à partir de sources externes et internes, et déplacées dans le système à des fins de traitement et de stockage.

Pipelines de données

Les pipelines ingèrent, transforment et transportent les données de leur point d’origine jusqu’à l’endroit où elles sont traitées et stockées. Ces systèmes peuvent suivre des schémas de traitement par lots, comme l’ETL (extraction, transformation, chargement) et l’ELT (extraction, chargement, transformation). Ils peuvent également diffuser les données en temps quasi réel. Les pipelines modernes incluent souvent logique de transformation, contrôles de qualité et validation des schémas dans le flux.

API et connecteurs

Les interfaces de programmation d’application (API) et les connecteurs prédéfinis permettent une intégration parfaite entre systèmes de données, applications et outils d’analyse. Elles proposent un moyen standardisé de rationaliser l’accès aux données sur différentes plateformes et sont essentielles à l’échange de données en temps réel.

Systèmes de stockage

Une fois ingérées, les données sont stockées dans des systèmes évolutifs, structurés et non structurés, et deviennent disponibles pour une utilisation et une analyse ultérieures.

Entrepôts de données

Un entrepôt de données regroupe les données provenant de différentes sources de données relationnelles à l’échelle d’une entreprise dans un référentiel unique, centralisé et cohérent. Après extraction, les données transitent par un pipeline ETL, subissant diverses transformations pour se conformer au modèle de données prédéfini. Une fois chargées dans le système d’entreposage de données, elles deviennent exploitables pour diverses applications de business intelligence (BI) et de science des données.

Datamarts

Un datamart est une version ciblée de l’entrepôt de données, qui contient un jeu de données plus restreint, pertinent pour une seule équipe ou un seul groupe de parties prenantes. En réduisant la portée, le datamart offre des informations plus rapides et plus ciblées que les grands jeux de données stockés dans un entrepôt.

Data lakes

Les data lakes stockent des données brutes, non traitées, aux formats tant structurés que non structurés, et ce à l’échelle. Contrairement aux entrepôts de données, les data lakes ne requièrent ni modélisation préalable ni préparation des données, ce qui les rend parfaitement adaptés aux workloads de big data.

Data lakehouses

Le data lakehouse regroupe les meilleurs aspects des entrepôts de données et des data lakes au sein d’une seule et même solution de gestion des données. Il associe stockage à faible coût, moteur de requête haute performance et gouvernance intelligente des métadonnées.

Bases de données

Une base de données est un référentiel numérique conçu pour stocker, gérer et sécuriser les données. La méthode de stockage diffère d’une base de données à l’autre. Par exemple, les bases de données relationnelles (également appelées « bases de données SQL  ») stockent les données dans des tables composées de lignes et de colonnes bien définies. Les bases de données NoSQL assurent le stockage sous la forme de différentes structures de données, comme les paires clé-valeur et les graphiques.

Gouvernance et métadonnées

Au fur et à mesure que les données circulent et s’accumulent, les outils de gouvernance garantissent qu’elles sont bien organisées, sécurisées et faciles à découvrir tout au long de leur cycle de vie.

Catalogues de données

Un catalogue de données est un inventaire centralisé des actifs de données de l’entreprise. Il s’appuie sur les métadonnées pour fournir un contexte sur chaque jeu de données, notamment son origine, sa structure, son appartenance, son historique d’utilisation et sa qualité. Les catalogues de données aident les utilisateurs à trouver et à évaluer les données, facilitent la gouvernance et la mise en conformité, ainsi que la collaboration des équipes.

Traçabilité et observabilité

Les outils de traçabilité suivent le parcours des données à travers les systèmes et indiquent la manière dont elles ont été transformées, ainsi que leur provenance. Cette visibilité est essentielle pour assurer les audits, résoudre les problèmes et comprendre les dépendances. Les plateformes d’observabilité peuvent compléter la traçabilité en surveillant la performance des pipelines et les indicateurs de qualité des données.  

Accès et consommation

Enfin, les données parviennent aux personnes et aux systèmes qui les utilisent par le biais de tableaux de bord, de requêtes ou d’outils intégrés facilitant la prise de décision.

Tableaux de bord et outils d’analyse

Les plateformes de Business Intelligence améliorent l’accès aux données en alliant visualisations et tableaux de bord. Ces outils aident les utilisateurs non techniques à interpréter les tendances, à surveiller les indicateurs clés de performance (KPI) et à prendre des décisions axées sur les données.

Moteurs de requête et de calcul

Les points de terminaison SQL et autres interfaces de requête permettent aux analystes et aux data scientists d’explorer et d’analyser les données directement. Des outils comme Apache Spark et IBM watsonx.data fournissent la couche de calcul nécessaire pour exécuter des requêtes sur les jeux de données distribués à grande échelle.

Produits de données intégrés

Certaines architectures permettent de fournir les données directement aux applications, workflows ou API. Ces produits de données intégrés apportent des informations sur les opérations quotidiennes pour favoriser une prise de décision axée sur les données.

Entraînement IA et ML

Les données de l’architecture peuvent également alimenter les workflows d’IA et de ML. Les données d’entraînement sont souvent puisées dans des data lakes, transformées par le biais des pipelines et utilisées pour développer et entraîner à nouveau les modèles. Ces modèles peuvent ensuite être déployés dans des produits, des tableaux de bord ou des processus métier afin d’améliorer l’automatisation et la prédiction.

Comment l’architecture de données est-elle mise en œuvre ?

Mettre en œuvre une architecture de données consiste à transposer les besoins métier sur une feuille de route pour assurer la collecte, l’organisation, la sécurité et l’accessibilité des données. Si chaque mise en œuvre est différente, la plupart suivent une approche en plusieurs phases qui vont de la planification à l’exécution.

Étape 1 : aligner sur les objectifs métier

La première étape du processus consiste à déterminer ce que l’entreprise cherche à accomplir à l’aide de ses données, qu’il s’agisse de favoriser le machine learning ou d’assurer sa conformité. Cela permet de définir les priorités architecturales, les sources de données à inclure et les systèmes à intégrer.

Étape 2 : définir les modèles de données et leur gouvernance

Les data architects développent des modèles de données conceptuels, logiques et physiques pour guider la structure et le flux. Ces modèles permettent d’identifier les entités clés, les relations, les exigences en matière de données et les contrôles d’accès. Parallèlement, des politiques de gouvernance sont mises en place pour définir la propriété, les droits d’accès et les règles du cycle de vie des données.

Étape 3 : concevoir l’architecture

Après la mise en place des modèles et des politiques, les équipes conçoivent l’architecture en sélectionnant des technologies pour le stockage, l’intégration, la gestion des métadonnées et la consommation. Il s’agit notamment de définir la manière dont les données seront déplacées entre les systèmes et leur emplacement dans les systèmes de stockage.

Étape 4 : créer et intégrer

La mise en œuvre consiste généralement à déployer les pipelines d’ingestion, à mettre en place les API, à configurer les couches de gouvernance et à activer des points d’accès tels que les tableaux de bord ou les points de terminaison des requêtes. Les exigences en matière de sécurité et de conformité sont intégrées à ce stade pour protéger les données.

Étape 5 : surveiller, faire évoluer et mettre à l’échelle

Une fois déployée, l’architecture de données doit être surveillée et affinée en permanence. Les volumes de données augmentent, les cas d’utilisation évoluent et les réglementations changent. Les entreprises revoient et optimisent souvent leur architecture, surtout lorsqu’elles se tournent vers les plateformes cloud et les schémas architecturaux modernes.

Fonctionnalités principales d’une architecture de données moderne

À mesure que les organisations montent en puissance, le besoin d’une architecture de données flexible et résiliente s’accroît. Les architectures de données modernes privilégient l’interopérabilité, l’accès en temps réel et la capacité à gérer les données comme un produit, et non plus seulement comme un actif. Elles favorisent également la standardisation, la gestion des métadonnées et la démocratisation grâce aux API.

Les principales caractéristiques d’une architecture de données moderne sont les suivantes :

  • Conception cloud native offrant une évolutivité élastique et une haute disponibilité.
  • Pipelines de données intelligents qui associent intégration en temps réel, diffusion des données en continu et analyse cognitive.
  • Parfaite intégration par API avec les applications modernes et héritées.
  • Gestion des données en temps réel, avec validation, classification et gouvernance.
  • Services découplés et extensibles, permettant une croissance modulaire et une interopérabilité ouverte.
  • Organisation par domaine s’appuyant sur des événements et des microservices pour refléter la structure de l’entreprise.
  • Optimisation intégrée pour concilier performance, coût et simplicité.

Schémas d’une architecture de données moderne

Les entreprises qui modernisent leur infrastructure de données adoptent de nouvelles stratégies pour faire face la complexité des environnements multicloud hybrides d’aujourd’hui. Cette évolution a donné naissance à de nouveaux schémas architecturaux, notamment le data fabric et le data mesh.

Data fabric

Le data fabric permet d’automatiser l’intégration et la gestion des données dans les environnements hybrides. Il associe métadonnées actives et machine learning pour découvrir les relations entre les systèmes et orchestrer les flux de données. Le data fabric peut provisionner automatiquement les produits de données et les livrer à la demande, afin d’améliorer l’efficacité opérationnelle et de réduire les silos.

Data mesh

Le data mesh décentralise la propriété des données en alignant l’architecture sur les domaines d’activité. Il encourage les producteurs de données, ceux qui sont les plus proches de la source, à traiter les données comme un produit et à concevoir des API orientées consommateur. Ce modèle permet d’éliminer les goulots d’étranglement et de favoriser la démocratisation des données évolutives à l’échelle de l’entreprise.

Et même si ces approches diffèrent, elles ne s’excluent pas mutuellement. De nombreuses entreprises mettent en œuvre des éléments des deux, en s’appuyant sur l’automatisation du tissu pour dimensionner la gouvernance décentralisée du maillage.

Avantages des architectures de données

Une architecture de données bien construite offre des avantages considérables aux entreprises, notamment :

  • Réduire la redondance
  • Améliorer la qualité des données
  • Faciliter l’intégration
  • Gestion du cycle de vie des données

Réduire la redondance

Le recoupement de champs de données issus de sources différentes peut provoquer des incohérences, des inexactitudes et freiner l’intégration des données. Une bonne architecture de données permet de normaliser la façon dont les données sont stockées et, potentiellement, de réduire la redondance, pour des analyses de meilleure qualité et holistiques.

Améliorer la qualité des données

Une architecture de données bien conçue permet de résoudre certains défis liés aux data lakes mal gérés, également appelés « marécages de données ». Les marécages de données ne suivent pas les normes appropriées (par exemple, qualité des données et pratiques de gouvernance) pour fournir des informations utiles. Les architectures de données favorisent l’application des normes de gouvernance et de sécurité des données, ce qui permet une surveillance efficace des pipelines de données.

Faciliter l’intégration

Les données sont souvent cloisonnées, en raison des limites techniques du stockage des données et des barrières organisationnelles au sein de l’entreprise. Les architectures de données modernes visent à faciliter l’intégration des données entre les domaines, de sorte que les différentes zones géographiques et fonctions métier aient accès aux données des autres. Cela peut conduire à une compréhension améliorée et plus cohérente des indicateurs communs et à une vision plus globale de l’entreprise, afin d’éclairer la prise de décision fondée sur les données.

Gestion du cycle de vie des données

Une architecture de données moderne peut prendre en compte la manière dont les données sont gérées au fil du temps. Les données perdent généralement de leur utilité à mesure qu’elles vieillissent et lorsqu’elles sont consultées moins fréquemment. Au fil du temps, les données peuvent être transférées vers des types de stockage moins coûteux et plus lents, de sorte qu’elles restent disponibles pour les rapports et les audits, mais sans les dépenses liées au stockage haute performance.

Solutions connexes
Outils et solutions d’analyse

Pour prospérer, les entreprises doivent exploiter les données pour fidéliser leur clientèle, automatiser les processus métier et innover avec des solutions pilotées par l’IA.

Explorer les solutions d’analytique
Services de conseil pour les données et les analyses

Avec IBM Consulting, exploitez les données de votre entreprise et développez une organisation basée sur les informations pour tirer des avantages métier.

Découvrir les services d’analytique
IBM Cognos Analytics

Découvrez Cognos Analytics 12.0, des informations alimentées par l’IA pour une prise de décision plus éclairée.

Découvrir Cognos Analytics
Passez à l’étape suivante

Pour prospérer, les entreprises doivent exploiter les données pour fidéliser leur clientèle, automatiser les processus métier et innover avec des solutions pilotées par l’IA.

Explorer les solutions d’analytique Découvrir les services d’analytique