Une architecture de données décrit comment les données sont gérées, de la collecte à la transformation, la distribution et la consommation. Elle définit le plan directeur des données et la manière dont elles circulent dans les systèmes stockage de données. Elle est fondamentale pour les opérations traitement de données et les application d'intelligence artificielle (IA).
La conception d'une architecture de données doit être guidée par les besoins de l'entreprise, que les architectes et ingénieurs de données utilisent pour définir le modèle de données correspondant et les structures de données sous-jacentes qui le soutiennent. Ces conceptions facilitent généralement un besoin métier, tel qu'une initiative de production de rapports ou de science des données.
Alors que de nouvelles sources de données apparaissent grâce aux technologies émergentes, comme l'Internet des objets (IoT), une bonne architecture de données permet de s'assurer que les données sont gérables et utiles, en soutenant la gestion du cycle de vie des données. Plus précisément, elle peut éviter le stockage de données redondantes, améliorer la qualité des données grâce au nettoyage et à la déduplication, et permettre de mettre en oeuvre de nouvelles applications. Les architectures de données modernes fournissent également des mécanismes permettant d'intégrer les données entre les domaines, par exemple, entre les services ou les zones géographiques, et de supprimer les silos de données sans l'énorme complexité liée au stockage de toutes les données dans un seul endroit.
Les architectures de données modernes s'appuient souvent sur des plateformes cloud pour gérer et traiter les données. Bien qu'elle puisse être plus coûteuse, l'extensibilité de ses capacités de calcul permet de réaliser rapidement d'importantes tâches de traitement des données. L'évolutivité du stockage permet également de faire face à l'augmentation des volumes de données et de garantir que toutes les données pertinentes sont disponibles pour améliorer la qualité de l'entraînement des applications d'IA.
La documentation sur l'architecture des données comprend trois types de modèle de données
Une architecture de données peut s'inspirer de cadres d'architecture d'entreprise courants, notamment TOGAF, DAMA-DMBOK 2 et Zachman Framework for Enterprise Architecture.
The Open Group Architecture Framework (TOGAF)
Cette méthodologie d'architecture d'entreprise a été développée en 1995 par The Open Group, dont IBM est un membre essentiel.
L'architecture repose sur quatre piliers :
En tant que tel, TOGAF fournit un cadre complet pour concevoir et implémenter l'architecture informatique d'une entreprise, y compris son architecture de données.
DAMA-DMBOK 2
DAMA International, qui s'appelait Data Management Association International lors de sa création, est une organisation à but non lucratif qui se consacre à la promotion de la gestion des données et de l'information. Son Data Management Body of Knowledge, DAMA-DMBOK 2, couvre l'architecture des données, ainsi que la gouvernance et l'éthique, la modélisation et la conception des données, le stockage, la sécurité et l'intégration.
Zachman Framework for Enterprise Architecture
Développé à l'origine par John Zachman chez IBM en 1987, ce cadre utilise une matrice de six couches allant du contexte au détail, en fonction de six questions telles que pourquoi, comment et lquoi. Il fournit un moyen formel d'organiser et d'analyser les données, mais ne comprend pas de méthodes pour le faire.
Une architecture de données présente une perspective de haut niveau sur la façon dont les différents systèmes de gestion des données fonctionnent ensemble. Ceux-ci comprennent un certain nombre de référentiels de stockage de données différents, tels que les lacs de données, les entrepôts de données, les petits entrepôts de données, les bases de données, etc. Ensemble, ils peuvent créer des architectures de données, telles que les data fabrics et les maillages de données, qui connaissent un succès croissant. Ces architectures mettent davantage l'accent sur les données en tant que produits, créant une plus grande normalisation autour des métadonnées et démocratisent davantage les données dans les organisations via les API.
La section suivante analyse d'une manière plus approfondie chacun de ces composants de stockage et types d'architecture de données :
Types de système de gestion des données
Types d'architecture de données
Data fabrics : une data fabric est une architecture qui se concentre sur l'automatisation de l'intégration des données, l'ingénierie des données et la gouvernance dans une chaîne de valeur des données entre les fournisseurs de données et les consommateurs de données. Une data fabric repose sur la notion de "métadonnées actives", qui utilise le graphe de connaissances, la sémantique, l'exploration de données et la technologie d'apprentissage automatique (ML) pour découvrir des modèles dans divers types de métadonnées (par exemple, les journaux du système, les données sociales, etc.) Elle applique ensuite ces informations pour automatiser et orchestrer la chaîne de valeur des données. Par exemple, elle, peut permettre à un consommateur de données de trouver un produit de données, puis de se voir allouer ce produit automatiquement. L'accès accru aux données entre les produits de données et les consommateurs de données entraîne une réduction des silos de données et fournit une image plus complète des données de l'organisation. Les datafabrics sont une technologie émergente ayant un potentiel énorme. Elles peuvent être utilisés pour améliorer le profilage des clients, la détection des fraudes et la maintenance préventive. Selon Gartner, les data fabrics réduisent le temps de conception de l'intégration de 30 %, le temps de déploiement de 30 % et la maintenance de 70 %.
Maillages de données : Un maillage de données est une architecture de données décentralisée qui organise les données par domaine d'activité. En utilisant un maillage de données, l'organisation ne doit plus considérer les données comme le sous-produit d'un processus, mais comme un produit à part entière. Les producteurs de données agissent en tant que propriétaires de produits de données. En tant qu'experts du domaine, les producteurs de données peuvent utiliser leur compréhension des principaux consommateurs de données pour concevoir des API à leur intention. Ces API peuvent être également accessibles à partir d'autres parties de l'organisation, offrant ainsi un accès plus large aux données gérées.
Des systèmes de stockage plus traditionnels, tels que les lacs de données et les entrepôts de données, peuvent être utilisés comme de multiples référentiels décentralisés de données pour réaliser un maillage de données. Un maillage de données peut également fonctionner avec une data fabric, l'automatisation de ce dernier permettant de créer plus rapidement des produits de données ou d'appliquer une gouvernance mondiale.
Une architecture de données bien construite peut offrir aux entreprises un certain nombre d'avantages clés, notamment :
À mesure que les organisations établissent leur feuille de route pour les applications de demain, notamment l'IA, la blockchain et les charges de travail de l'Internet des objets (IoT), elles nécessitent une architecture de données modernen, capable de prendre en charge les exigences en matière de données.
Les sept principales caractéristiques d'une architecture de données moderne sont les suivantes :
IBM Cloud Pak for Data est une plateforme de données ouverte et extensible qui fournit un ensemble de nœuds de données pour rendre toutes les données disponibles pour l'IA et l'analyse dans n'importe quel nuage.
Créez, exécutez et gérez des modèles d'IA. Préparez les données et construisez des modèles dans n'importe quel cloud à l'aide d'un code source ouvert ou de la modélisation visuelle. Prévoyez et optimisez vos résultats.
Découvrez Db2 on Cloud, une base de données cloud SQL entièrement gérée, configurée et optimisée pour des performances robustes.