Qu’est-ce qu’une architecture de données ?

Une architecture de données décrit comment les données sont gérées, de la collecte à la transformation, à la distribution et à la consommation. Elle définit le schéma directeur des données et la manière dont elles circulent dans les systèmes de stockage de données. C'est la base des opérations de traitement de données et des applications d'intelligence artificielle (IA).

La conception d’une architecture de données doit être pilotée par les exigences métier, que les Data Architect et les ingénieurs de données s’appuient pour définir le modèle de données respectif et les structures de données sous-jacentes, qui le soutiennent. Ces conceptions répondent généralement à un besoin métier, tel qu’une initiative en matière de production de rapports ou de science des données.

À mesure que de nouvelles sources de données émergent grâce aux technologies émergentes, telles que l’Internet des objets (Ido), une bonne architecture de données garantit que les données sont gérables et utiles, prenant en charge la gestion du cycle de vie des données. Plus précisément, il peut éviter le stockage redondant des données, améliorer la qualité des données grâce au nettoyage et à la déduplication, et permettre de nouvelles applications. Les architectures de données modernes fournissent également des mécanismes permettant d'intégrer les données entre domaines, par exemple entre départements ou zones géographiques, en éliminant les silos de données sans l'énorme complexité qu'implique le fait de tout stocker au même endroit.

Les architectures de données modernes tirent souvent parti des plateformes cloud pour gérer et traiter les données. Bien qu’elles puissent être plus coûteuses, leur évolutivité des calculs permet d’effectuer rapidement des tâches importantes de traitement des données. L’évolutivité du stockage permet également de faire face aux volumes croissants de données et de s’assurer que toutes les données pertinentes sont disponibles pour améliorer la qualité des applications d’IA d’entraînement.

Créez des fworkflows d’IA responsables avec la gouvernance de l’IA

Découvrez les éléments constitutifs et les bonnes pratiques pour aider vos équipes à accélérer l’IA responsable.

Contenu connexe

Obtenir l’e-book sur l’IA générative

Modèles de données conceptuels, logiques et physiques

La documentation relative à l’architecture de données comprend trois types de modèles de données :

Modèles de données conceptuels : ils sont également appelés modèles de domaine et offrent une vue d’ensemble de ce que le système contient, de la manière dont il est organisé et des business rules impliquées. Les modèles conceptuels sont généralement créés dans le cadre du processus de collecte des exigences initiales du projet. En règle générale, ils comprennent des classes d'entités (définissant les types de choses qu'il est important pour l'entreprise de représenter dans le modèle de données), leurs caractéristiques et contraintes, les relations entre elles et les exigences pertinentes en matière de sécurité et d'intégrité des données.
Modèles de données logiques : ils sont moins abstraits et fournissent plus de détails sur les concepts et les relations dans le domaine considéré. L'un des nombreux systèmes de notation formelle pour la modélisation des données est utilisé. Ceux-ci indiquent les attributs des données, tels que les types de données et leurs tailles correspondantes, et montrent les relations entre les entités. Les modèles de données logiques ne spécifient aucune exigence technique.
Modèles de données physiques: le modèle de données physiques est le plus détaillé et le plus spécifique des trois. Ils définissent l’implémentation réelle de la base de données, y compris les structures de tableaux, les index, le stockage et les considérations de performance. Ils se concentrent sur les aspects techniques du stockage et de l’accès aux données, et sont utilisés pour créer et optimiser le schéma de base de données.

Cadres d'architecture de données populaires

Une architecture de données peut s'inspirer de cadres d'architecture d'entreprise populaires, notamment TOGAF, DAMA-DMBOK 2 et Zachman Framework for Enterprise Architecture.

L'Open Group Architecture Framework (TOGAF)

Cette méthodologie d’architecture d’entreprise a été développée en 1995 par The Open Group, dont IBM est un membre Platinum.

L'architecture repose sur quatre piliers :

L’architecture d’entreprise, qui définit la structure organisationnelle, la stratégie métier et les processus de l’entreprise.
L’architecture des données, qui décrit les actifs de données conceptuels, logiques et physiques, ainsi que la manière dont ils sont stockés et gérés tout au long de leur cycle de vie.
L’architecture d’applications, qui représente les systèmes d'application et la manière dont ils sont liés aux principaux processus d'entreprise et les uns aux autres.
L’architecture technique, qui décrit l’infrastructure technologique (matériel, logiciel et réseau) nécessaire pour prendre en charge les applications essentielles.

En tant que tel, TOGAF fournit un cadre complet pour la conception et la mise en œuvre de l'architecture informatique d'une entreprise, y compris son architecture de données.

DAMA-DMBOK 2

DAMA International, fondée à l'origine sous le nom de Data Management Association International, est une organisation à but non lucratif qui se consacre à la promotion de la gestion des données et de l'information. Son corpus de connaissances sur la gestion des données, DAMA-DMBOK 2, couvre l'architecture des données, ainsi que la gouvernance et l'éthique, la modélisation et la conception des données, le stockage, la sécurité et l'intégration.

Zachman Framework for Enterprise Architecture

Développé à l'origine par John Zachman chez IBM en 1987, ce cadre utilise une matrice de six couches, allant du contextuel au détaillé, et s'articulant autour de six questions telles que le pourquoi, le comment et le quoi. Il fournit un moyen formel d'organiser et d'analyser les données, mais n'inclut pas de méthodes pour le faire.

Types d'architectures de données et de composants sous-jacents

Une architecture de données présente une perspective de haut niveau sur la manière dont les différents systèmes de gestion des données fonctionnent ensemble. Ceux-ci comprennent un certain nombre de référentiels de stockage de données différents, tels que les data lakes, les entrepôts de données, les datamarts, les bases de données, etc. Ensemble, ils peuvent créer des architectures de données, telles que les tissus de données et les maillages de données, qui gagnent de plus en plus en popularité. Ces architectures mettent davantage l'accent sur les données en tant que produits, en créant une plus grande normalisation autour des métadonnées et une plus grande démocratisation des données au sein des organisations grâce aux API.

La section suivante approfondit chacun de ces composants de stockage et types d’architecture de données :

Types de systèmes de gestion des données

Entrepôts de données : un entrepôt de données regroupe les données provenant de différentes sources de données relationnelles sur une entreprise dans un référentiel unique, centralisé et cohérent. Après l’extraction, les données circulent dans un pipeline de données ETL et subissent diverses transformations pour répondre au modèle de données prédéfini. Une fois chargées dans l’entrepôt de données, les données vivent pour prendre en charge différentes applications de business intelligence (BI) et de science des données.
Datamarts : un datamart est une version ciblée d’un entrepôt de données qui contient un sous-ensemble plus petit de données importantes et nécessaires à une seule équipe ou à un groupe restreint d’utilisateurs au sein d’une organisation, comme le département des ressources humaines. Parce qu’ils contiennent un sous-ensemble plus restreint de données, les datamarts permettent à un département ou à un secteur d’activité de découvrir des informations plus ciblées plus rapidement qu’en travaillant avec le jeu de données plus vaste de l’entrepôt. Les datamarts sont apparus à l’origine en réponse aux difficultés rencontrées par les organisations pour mettre en place des entrepôts de données dans les années 1990. L’intégration des données provenant de l’ensemble de l’organisation à ce moment-là nécessitait beaucoup de codage manuel et prenait peu de temps. La portée plus limitée des datamarts les rendait plus faciles et plus rapides à mettre en œuvre que les entrepôts de données centralisés.
Data Lakes : alors que les entrepôts de données stockent les données traitées, un data lake héberge des données brutes (généralement plusieurs pétaoctets). Un data lake peut stocker à la fois des données structurées et non structurées, ce qui le rend unique par rapport aux autres référentiels de données. Cette flexibilité en matière de stockage est particulièrement utile pour les data scientists, les ingénieurs en traitement de données et les développeurs, car elle leur permet d'accéder aux données pour des exercices de découverte de données et des projets de machine learning. Les data lakes ont été créés à l'origine pour répondre à l'incapacité de l'entrepôt de données à gérer le volume, la vitesse et la variété croissants des données volumineuses. Si les data lakes sont plus lents que les entrepôts de données, ils sont également moins chers car il n'y a que peu ou pas de préparation des données avant l'ingestion. Aujourd'hui, ils continuent d'évoluer dans le cadre des efforts de migration des données vers le cloud. Ils prennent en charge un large éventail de cas d'utilisation, car les objectifs commerciaux des données n'ont pas besoin d'être définis au moment de la collecte des données. Cependant, les deux principaux concernent l'exploration scientifique des données et les efforts de sauvegarde et restauration des données. Les data scientists peuvent utiliser des data lakes pour valider des concepts. Les applications de machine learning bénéficient de la possibilité de stocker des données structurées et non structurées au même endroit, ce qui n'est pas possible avec un système de base de données relationnel. Les data lakes peuvent également être utilisés pour tester et développer des projets d'analyse de big data. Lorsque l'application a été développée et que les données utiles ont été identifiées, celles-ci peuvent être exportées vers un entrepôt de données pour une utilisation opérationnelle, et l'automatisation peut être utilisée pour faire évoluer l'application. Les data lakes peuvent également être utilisés pour la sauvegarde et la restauration des données, en raison de leur capacité à évoluer à moindre coût. Pour les mêmes raisons, ils permettent de stocker des données « au cas où », pour lesquelles les besoins commerciaux n'ont pas encore été définis. Le fait de stocker les données dès maintenant signifie qu'elles seront disponibles plus tard au fur et à mesure que de nouvelles initiatives émergeront.

Types d’architectures de données

Data fabrics : un data fabric est une architecture qui se concentre sur l’automatisation de l’intégration des données, de l’ingénierie des données et de la gouvernance dans une chaîne de valeur de données entre les fournisseurs et les consommateurs de données. Le data fabric repose sur la notion de « métadonnées actives », qui utilise le graphique de connaissances, la sémantique, l’exploration de données et la technologie de machine learning (ML) pour découvrir des modèles dans différents types de métadonnées (par exemple les journaux système, les réseaux sociaux, etc.). Il applique ensuite ces informations pour automatiser et orchestrer la chaîne de valeur des données. Par exemple, il peut permettre à un consommateur de données de trouver un produit de données, puis de se voir attribuer automatiquement ce produit de données. L’accès accru aux données entre les produits de données et les consommateurs de données permet de réduire les silos de données et d'obtenir une vision plus complète des données de l’entreprise. Les data fabrics sont une technologie émergente dont le potentiel est énorme et qui peuvent être utilisées pour améliorer le profilage des clients, la détection des fraudes et la maintenance préventive. Selon Gartner, les data fabrics réduisent le temps de conception de l’intégration de 30 %, le temps de déploiement de 30 % et le temps de maintenance de 70 %.

Data mesh : un data mesh est une architecture de données décentralisée qui organise les données par domaine d’activité. En utilisant un data mesh, l’organisation doit cesser de considérer les données comme un sous-produit d’un processus et commencer à les considérer comme un produit à part entière. Les producteurs de données agissent en tant que propriétaires de produits de données. En tant qu'experts en la matière, les producteurs de données peuvent utiliser leur compréhension des principaux consommateurs de données pour concevoir des API à leur intention. Ces API sont également accessibles depuis d'autres services de l'organisation, offrant ainsi un accès plus large aux données gérées.

Des systèmes de stockage plus traditionnels, tels que les lacs de données et les entrepôts de données, peuvent être utilisés comme de multiples dépôts de données décentralisés pour réaliser un data mesh. Le data mesh peut également fonctionner avec un data fabric, l’automatisation du data fabric permettant de créer plus rapidement de nouveaux produits de données ou d’assurer une gouvernance globale.

Avantages des architectures de données

Une architecture de données bien élaborée peut offrir aux entreprises un certain nombre d’avantages principaux, notamment :

Réduire la redondance : il peut y avoir des chevauchements des champs de données entre différentes sources, ce qui entraîne un risque d’incohérence, d’inexactitude des données et des opportunités d’intégration de données manquées ; Une bonne architecture de données permet de normaliser la façon dont les données sont stockées et, potentiellement, de réduire les doublons, pour des analyses de meilleure qualité et holistiques.
Améliorer la qualité des données : des architectures de données bien conçues peuvent résoudre certains des défis des data lakes mal gérés, également appelés « data swamps ». Un data swamp manque de qualité de données appropriée et de pratiques de gouvernance des données pour fournir des apprentissages pertinents. Les architectures de données peuvent aider à appliquer les normes de gouvernance et de sécurité des données, permettant une surveillance appropriée du pipeline de données pour fonctionner comme prévu. En améliorant la qualité et la gouvernance des données, les architectures de données peuvent garantir que les données sont stockées d'une manière qui les rend exploitables aujourd'hui et à l'avenir.
Permettre l'intégration : les données ont souvent été cloisonnées, en raison des limites techniques du stockage des données et des barrières organisationnelles au sein de l'entreprise. Les architectures de données modernes devraient viser à faciliter l'intégration des données entre les domaines, de sorte que les différentes zones géographiques et fonctions commerciales aient accès à leurs données respectives. Cela permet une compréhension meilleure et plus cohérente des indicateurs communs (tels que les dépenses, les revenus et leurs facteurs associés). Elles offrent également une vision plus globale des clients, des produits et des zones géographiques, afin de mieux éclairer la prise de décision.
Gestion du cycle de vie des données : une architecture de données moderne peut prendre en compte la manière dont les données sont gérées au fil du temps. Les données perdent généralement de leur utilité au fur et à mesure qu'elles prennent de l'âge et qu'elles sont consultées moins fréquemment. Au fil du temps, les données peuvent être transférées vers des types de stockage moins coûteux et plus lents, de sorte qu'elles restent disponibles pour les rapports et les audits, mais sans les dépenses liées au stockage haute performance.

Architecture de données moderne

Alors que les organisations élaborent leur feuille de route pour les applications de demain, y compris les workloads liés à l'IA, à la blockchain et à l'Internet des objets (IdO), elles ont besoin d'une architecture de données moderne capable de répondre aux exigences en matière de données.

Les sept principales caractéristiques d’une architecture de données moderne sont :

Un cloud natif et compatible avec le cloud, afin que l’architecture des données puisse bénéficier de l’évolutivité élastique et de la haute disponibilité du cloud.
Des pipelines de données robustes, évolutifs et portables, qui combinent des workflows intelligents, des analyses cognitives et une intégration en temps réel dans un même cadre.
Une intégration transparente des données, à l’aide d’interfaces API standard pour se connecter aux applications existantes.
Une activation des données en temps réel, y compris la validation, la classification, la gestion et la gouvernance.
Un système découplé et extensible, de sorte qu'il n'y a pas de dépendances entre les services et que des normes ouvertes permettent l'interopérabilité.
Sur la base de domaines de données, d’événements et de microservices communs.
Optimisé pour trouver un équilibre entre coût et simplicité.

Solutions IBM

IBM Cloud Pak for Data

IBM Cloud Pak for Data est une plateforme de données ouverte et extensible qui fournit une data fabric afin de rendre toutes les données disponibles pour l’IA et l’analytique, sur n’importe quel cloud.

Découvrir IBM Cloud Pak for Data

IBM Watson Studio

Créez, exécutez et gérez des modèles d’IA. Préparez les données et créez des modèles sur n’importe quel cloud à l’aide d’un code open source ou de la modélisation visuelle. Faites des prédictions et optimisez vos résultats.

Découvrir IBM Watson Studio

IBM Db2 on Cloud

Découvrez Db2 on Cloud, une base de données cloud SQL entièrement gérée, configurée et optimisée pour des performances robustes.

Découvrir IBM Db2 on Cloud

Ressources

Créer un socle de données solide pour l’IA

Lisez le document numérique pour découvrir comment créer un socle de données robuste pour l’IA en priorisant les aspects clés de la gestion des données : l’accès, la gouvernance, la confidentialité et la conformité.

Lire le rapport de l'IBV

Une architecture data fabric peut aider les entreprises qui investissent dans l’IA, le machine learning, l’Internet des objets et l’edge computing à tirer le meilleur parti de leurs données.

Passez à l’étape suivante

Faites évoluer les workloads d’IA pour toutes vos données n’importe où avec IBM watsonx.data, un entrepôt de données adapté à vos besoins basé sur une architecture data lakehouse ouverte.

Découvrir watsonx.data

Réserver une démo en direct