Qu'est-ce qu'une architecture de données ?

Découvrez ce qu'est une architecture de données et les composants disponible pour l' implémenter

Dessin isométrique montrant des employés de bureau utilisant tous IBM Security
Qu'est-ce qu'une architecture de données ?

Une architecture de données décrit comment les données sont gérées, de la collecte à la transformation, la distribution et la consommation. Elle définit le plan directeur des données et la manière dont elles circulent dans les systèmes stockage de données. Elle est fondamentale pour les opérations traitement de données et les application d'intelligence artificielle (IA).

La conception d'une architecture de données doit être guidée par les besoins de l'entreprise, que les architectes et ingénieurs de données utilisent pour définir le modèle de données correspondant et les structures de données sous-jacentes qui le soutiennent. Ces conceptions facilitent généralement un besoin métier, tel qu'une initiative de production de rapports ou de science des données.

Alors que de nouvelles sources de données apparaissent grâce aux technologies émergentes, comme l'Internet des objets (IoT), une bonne architecture de données permet de s'assurer que les données sont gérables et utiles, en soutenant la gestion du cycle de vie des données. Plus précisément, elle peut éviter le stockage de données redondantes, améliorer la qualité des données grâce au nettoyage et à la déduplication, et permettre de mettre en oeuvre de nouvelles applications. Les architectures de données modernes fournissent également des mécanismes permettant d'intégrer les données entre les domaines, par exemple, entre les services ou les zones géographiques, et de supprimer les silos de données sans l'énorme complexité liée au stockage de toutes les données dans un seul endroit.

Les architectures de données modernes s'appuient souvent sur des plateformes cloud pour gérer et traiter les données. Bien qu'elle puisse être plus coûteuse, l'extensibilité de ses capacités de calcul permet de réaliser rapidement d'importantes tâches de traitement des données. L'évolutivité du stockage permet également de faire face à l'augmentation des volumes de données et de garantir que toutes les données pertinentes sont disponibles pour améliorer la qualité de l'entraînement des applications d'IA.


Modèles de données conceptuels, logiques et physiques

La documentation sur l'architecture des données comprend trois types de modèle de données

  • Modèles de données conceptuels : appelés également modèles de domaine, ils offrent une vue d'ensemble de ce que le système contiendra, de la façon dont il sera organisé et des règles de gestion impliquées. Les modèles conceptuels sont généralement créés dans le cadre du processus de collecte des exigences initiales du projet. Ils comprennent généralement des classes d'entités (définissant les types de choses qu'il est important pour l'entreprise de représenter dans le modèle de données), leurs caractéristiques et contraintes, les relations entre elles et les exigences pertinentes de sécurité et d'intégrité des données.
  •  Modèles de données logiques : ils sont moins abstraits et fournissent plus de détails sur les concepts et les relations du domaine considéré. L'un des nombreux systèmes de notation formelle de modélisation des données est suivi. Ceux-ci indiquent les attributs des données, tels que les types de données et leurs longueurs correspondantes, et montrent les relations entre les entités. Les modèles logiques de données ne spécifient aucune exigence technique du système.
  • Modèles de données physiques : ils sont moins abstraits et fournissent plus de détails sur les concepts et les relations du domaine considéré. L'un des nombreux systèmes de notation formelle de modélisation des données est suivi. Ceux-ci indiquent les attributs des données, tels que les types de données et leurs longueurs correspondantes, et montrent les relations entre les entités. Les modèles logiques de données ne spécifient aucune exigence technique du système.

Cadres d' architecture de données courants

Une architecture de données peut s'inspirer de cadres d'architecture d'entreprise courants, notamment TOGAF, DAMA-DMBOK 2 et Zachman Framework for Enterprise Architecture.

The Open Group Architecture Framework (TOGAF)

Cette méthodologie d'architecture d'entreprise a été développée en 1995 par The Open Group, dont IBM est un membre essentiel.

L'architecture repose sur quatre piliers :

  • Architecture d'entreprise : elle définit la structure organisationnelle, la stratégie métier et les processus de l'entreprise.
  • Architecture de données : elle décrit les actifs de données conceptuels, logiques et physiques et comment ils sont stockés et gérés tout au long de leur cycle de vie .
  • Architecture d'applicatiions : elle représente les systèmes d'application et la manière dont ils sont liés aux principaux processus métier et entre eux.
  • Architecture technique : elle décrit l' infrastructure technologie (matériel, logiciel et réseau) nécessaire pour prendre en charge les applications stratégiques.

En tant que tel, TOGAF fournit un cadre complet pour concevoir et implémenter l'architecture informatique d'une entreprise, y compris son architecture de données.

DAMA-DMBOK 2

DAMA International, qui s'appelait Data Management Association International lors de sa création, est une organisation à but non lucratif qui se consacre à la promotion de la gestion des données et de l'information. Son Data Management Body of Knowledge, DAMA-DMBOK 2, couvre l'architecture des données, ainsi que la gouvernance et l'éthique, la modélisation et la conception des données, le stockage, la sécurité et l'intégration.

Zachman Framework for Enterprise Architecture

Développé à l'origine par John Zachman chez IBM en 1987, ce cadre utilise une matrice de six couches allant du contexte au détail, en fonction de six questions telles que pourquoi, comment et lquoi. Il fournit un moyen formel d'organiser et d'analyser les données, mais ne comprend pas de méthodes pour le faire.

 


Types d'architecture de données et composants sous-jacents

Une architecture de données présente une perspective de haut niveau sur la façon dont les différents systèmes de gestion des données fonctionnent ensemble. Ceux-ci comprennent un certain nombre de référentiels de stockage de données différents, tels que les lacs de données, les entrepôts de données, les petits entrepôts de données, les bases de données, etc. Ensemble, ils peuvent créer des architectures de données, telles que les data fabrics et les maillages de données, qui connaissent un succès croissant. Ces architectures mettent davantage l'accent sur les données en tant que produits, créant une plus grande normalisation autour des métadonnées et démocratisent davantage les données dans les organisations via les API.

La section suivante analyse d'une manière plus approfondie chacun de ces composants de stockage et types d'architecture de données :

Types de système de gestion des données

  • Entrepôts de données : un entrepôt de données regroupe des données provenant de différentes sources de données relationnelles au sein d'une entreprise dans un référentiel unique, central et cohérent. Après l'extraction, les données passent par un pipeline de données ETL, subissant diverses transformations de données pour répondre au modèle de données prédéfini. Une fois chargées dans l'entrepôt de données, les données vivent pour prendre en charge différentes applications d'aide à la décision (BI) et de science des données.
  • Petits entrepôts de données : un petit-entrepôts de données est une version ciblée d'un entrepôt de données qui contient un sous-ensemble plus restreint de données importantes et nécessaires pour une seule équipe ou un groupe sélectionné d'utilisateurs au sein d'une organisation, comme le service des ressources humaines. Comme ils contiennent un plus petit sous-ensemble de données, les petits entrepôts de données permettent à un service ou à un secteur d'activité de découvrir des informations plus ciblées plus rapidement qu'en travaillant avec l'ensemble des données de l'entrepôt de données. Les petits entrepôts de données sont apparus à l'origine en réponse aux difficultés rencontrées par les organisations pour mettre en place des entrepôts de données dans les années 1990. À cette époque, l'intégration des données de l'ensemble de l'organisation nécessitait un codage manuel important et chronophage. La portée plus limitée des petits entrepôts de données les rendait plus faciles et plus rapides à mettre en œuvre que les entrepôts de données centralisés.
  • Lacs de données : alors que les entrepôts de données stockent des données traitées, un lac de données contient des données brutes, généralement en pétaoctets. Un lac de données peut stocker des données structurées et non structurées, ce qui le rend unique par rapport aux autres référentiels de données. Cette flexibilité dans les conditions de stockage est particulièrement utile pour les scientifiques, les ingénieurs des données et les développeurs, car elle leur permet d'accéder aux données pour des exercices de découverte de données et des projets d'apprentissage automatique. Les lacs de données ont été créés à l'origine en réponse à l'incapacité de l'entrepôt de données à gérer le volume, la vitesse et la variété croissants des données volumineuses. Si les lacs de données sont plus lents que les entrepôts de données, ils sont également moins coûteux, car la préparation des données avant leur ingestion est minime ou absente. Aujourd'hui, ils continuent d'évoluer dans le cadre des efforts de migration des données vers le cloud. Les lacs de données prennent en charge un large éventail de cas d'utilisation, car les objectifs métier des données ne doivent pas être définis au moment de la collecte des données. Toutefois, deux cas principaux sont l'exploration scientifique des données et les efforts de sauvegarde et de récupération des données. Les scientifiques des données peuvent utiliser des lacs de données pour la preuve de concepts. Les applications d'apprentissage automatique bénéficient de la possibilité de stocker des données structurées et non structurées au même endroit, ce qui n'est pas possible avec un système de base de données relationnelle. Les lacs de données peuvent également être utilisés pour tester et développer des projets d'analyse de données volumineuses. Lorsque l'application a été développée et que les données utiles ont été identifiées, elles peuvent être exportées dans un entrepôt de données pour une utilisation opérationnelle, et l'automatisation peut être utilisée pour faire évoluer l'application. Les lacs de données peuvent également être utilisés pour la sauvegarde et la récupération des données, en raison de leur capacité à évoluer à faible coût. Pour les mêmes raisons, les lacs de données sont bien adaptés pour stocker des données "au cas où", pour lesquelles les besoins de l'entreprise n'ont pas encore été définis. Stocker les données maintenant signifie qu'elles seront disponibles plus tard lorsque de nouvelles initiatives verront le jour.

Types d'architecture de données

Data fabrics : une data fabric est une architecture qui se concentre sur l'automatisation de l'intégration des données, l'ingénierie des données et la gouvernance dans une chaîne de valeur des données entre les fournisseurs de données et les consommateurs de données. Une data fabric repose sur la notion de "métadonnées actives", qui utilise le graphe de connaissances, la sémantique, l'exploration de données et la technologie d'apprentissage automatique (ML) pour découvrir des modèles dans divers types de métadonnées (par exemple, les journaux du système, les données sociales, etc.) Elle applique ensuite ces informations pour automatiser et orchestrer la chaîne de valeur des données. Par exemple, elle, peut permettre à un consommateur de données de trouver un produit de données, puis de se voir allouer ce produit automatiquement. L'accès accru aux données entre les produits de données et les consommateurs de données entraîne une réduction des silos de données et fournit une image plus complète des données de l'organisation. Les datafabrics sont une technologie émergente ayant un potentiel énorme. Elles peuvent être utilisés pour améliorer le profilage des clients, la détection des fraudes et la maintenance préventive.  Selon Gartner, les data fabrics réduisent le temps de conception de l'intégration de 30 %, le temps de déploiement de 30 % et la maintenance de 70 %.

Maillages de données : Un maillage de données est une architecture de données décentralisée qui organise les données par domaine d'activité. En utilisant un maillage de données, l'organisation ne doit plus considérer les données comme le sous-produit d'un processus, mais comme un produit à part entière. Les producteurs de données agissent en tant que propriétaires de produits de données. En tant qu'experts du domaine, les producteurs de données peuvent utiliser leur compréhension des principaux consommateurs de données pour concevoir des API à leur intention. Ces API peuvent être également accessibles à partir d'autres parties de l'organisation, offrant ainsi un accès plus large aux données gérées.

Des systèmes de stockage plus traditionnels, tels que les lacs de données et les entrepôts de données, peuvent être utilisés comme de multiples référentiels décentralisés de données pour réaliser un maillage de données. Un maillage de données peut également fonctionner avec une data fabric, l'automatisation de ce dernier permettant de créer plus rapidement des produits de données ou d'appliquer une gouvernance mondiale.

 


Types d'architecture de données

Une architecture de données bien construite peut offrir aux entreprises un certain nombre d'avantages clés, notamment :

  • Réduction de la redondance : il peut exister des zones de données qui se chevauchent dans différentes sources, ce qui entraîne un risque d'incohérence, d'inexactitude des données et d'occasions manquées d'intégration des données. Une bonne architecture de données peut normaliser la façon dont les données sont stockées, et potentiellement réduire la duplication, permettant une meilleure qualité et des analyses holistiques.
  • Amélioration de la qualité des données : des architectures de données bien conçues peuvent résoudre certains des problèmes liés aux lacs de données mal gérés, également appelés "marécages de données". Un marécage de données ne dispose pas de pratiques appropriées de qualité et de gouvernance des données pour fournir des informations pertinentes. Les architectures de données peuvent contribuer à faire respecter les normes de gouvernance et de sécurité des données, ce qui permet d'exercer une surveillance appropriée sur le pipeline de donnéesn afin qu'il fonctionne normalement. En améliorant la qualité et la gouvernance des données, les architectures de données peuvent garantir que les données sont stockées d'une manière qui les rend utiles aujourd'hui et à l'avenir.
  • Permettre l'intégration : les données ont souvent été cloisonnées, en raison des limitations techniques du stockage des données et des barrières organisationnelles au sein de l'entreprise. Les architectures de données actuelles doivent viser à faciliter l'intégration des données entre les domaines, afin que les différentes zones géographiques et fonctions métier aient accès aux données des autres. Il est ainsi possible d'améliorer et de rendre plus cohérente la compréhension des mesures communes (tels que les dépenses, les revenus et leurs facteurs associés) et d'obtenir une vue globale des clients, des produits et des zones géographiques, afin de mieux éclairer la prise de décision.
  • Gestion du cycle de vie des données : une architecture de données moderne peut aborder la manière dont les données sont gérées dans le temps. Les données perdent généralement de leur utilité à mesure qu'elles vieillissent et qu'on y accède moins fréquemment. Au fil du temps, les données peuvent être transférées vers des types de stockage moins coûteux et plus lents, afin qu'elles restent disponibles pour les rapports et les audits, mais sans les dépenses liées à un stockage à haute performance.

Architecture de données moderne

À mesure que les organisations établissent leur feuille de route pour les applications de demain, notamment l'IA, la blockchain et les charges de travail de l'Internet des objets (IoT), elles nécessitent une architecture de données modernen, capable de prendre en charge les exigences en matière de données.

Les sept principales caractéristiques d'une architecture de données moderne sont les suivantes :

  • Native du cloud et compatible cloud, afin que l'architecture de données puisse bénéficier de la mise à l'échelle élastique et de la haute disponibilité du cloud.
  • Des pipelines de données robustes, évolutifs et portables, qui combinent des flux de travail intelligents, des analyses cognitives et une intégration en temps réel dans un cadre unique.
  • Intégration transparente des données, grâce à des interfaces API standard permettant de se connecter aux applications existantes.
  • Activation des données en temps réel, y compris la validation, la classification, la gestion et la gouvernance.
  • Découplée et extensible, il n'existe donc aucune dépendance entre les services, et les normes ouvertes permettent l'interopérabilité.
  • Basée sur des domaines de données, des événements et des microservices communs.
  • Optimisée pour équilibrer le coût et la simplicité.

Solutions IBM

IBM Cloud Pak for Data

IBM Cloud Pak for Data est une plateforme de données ouverte et extensible qui fournit un ensemble de nœuds de données pour rendre toutes les données disponibles pour l'IA et l'analyse dans n'importe quel nuage.


IBM Watson Studio

Créez, exécutez et gérez des modèles d'IA. Préparez les données et construisez des modèles dans n'importe quel cloud à l'aide d'un code source ouvert ou de la modélisation visuelle. Prévoyez et optimisez vos résultats.


IBM Db2 on Cloud

Découvrez Db2 on Cloud, une base de données cloud SQL entièrement gérée, configurée et optimisée pour des performances robustes.



Pour aller plus loin

IBM prend en charge une architecture de données moderne par le biais de ses solutions Data Fabric. L'approche d'IBM à l'égard d'un tissu de données résout quatre problèmes clés des clients : la gouvernance et la confidentialité des données, l'intégration des données multicloud, le MLOp et l'IA de confiance et la vue globale du client, tous ces éléments étant fournis sur sa plateforme cloud hybride, IBM Cloud Pak for Data.