Un guide IBM de l’architecture pour le data fabric

Présentation

Le data fabric est un modèle architectural visant à amplifier l’utilisation des données au sein de l’entreprise, quels que soient le format, les sources de données, l’emplacement des données et leur utilisation. Les différents aspects du cycle de vie des données, de l’accès à la consommation, couverts par le data fabric sont la découverte de données, la gouvernance des données, la qualité des données, la classification des données, l’association au contexte commercial, la traçabilité des données, le libre-service et l’opérationnalisation des données pour rendre les bonnes données disponibles au bon endroit et au bon moment. Cliquer pour obtenir des conseils supplémentaires.

L’architecture de référence Data fabric est un template qui peut être utilisé par les entreprises comme guide pour mettre en œuvre les différents composants du data fabric dans leurs environnements respectifs. L'architecture de référence Data fabric comprend cinq modules clés, à savoir l’importation des métadonnées, l’enrichissement des métadonnées, le catalogage des métadonnées, la curation et la transformation des données, et la consommation de données. Ces modules sont essentiels pour profiter des avantages Data fabric mentionnés précédemment.

L’architecture de référence couvre les composants clés, les étapes à suivre et les décisions architecturales pour chaque module, afin d’atteindre l’objectif des cinq modules. Elle couvre également les différentes options de technologie disponibles dans l’environnement technologique d’IBM pour mettre en œuvre les composants et les étapes.

Pour le module de consommation de données, le schéma de consommation générique est abordé en supposant que les détails de chaque cas d’utilisation de consommation seraient couverts par l’architecture de référence associée à chaque cas d’utilisation. L’architecture de référence pour les données et l’IA devrait également vous intéresser.

Diagramme représentant une architecture de data fabric

Présentation pour IBM® Z

L’architecture de référence Data Fabric IBM z Systems est une spécialisation du modèle architectural plus large IBM Data and Analytics Data Fabric, qui vise à amplifier l’utilisation des données dans l’ensemble d’une entreprise, indépendamment du type de formats de données, des sources de données, de l’emplacement des données et de leur utilisation. Parmi les différents aspects du cycle de vie des données, de l’accès aux données à la consommation, ceux couverts par Data Fabric sont la découverte des données, la gouvernance des données, la qualité des données, la classification des données, l’association au contexte métier, la traçabilité des données, le libre-service et l’opérationnalisation des données afin de rendre les bonnes données disponibles au bon endroit et au bon moment. Consultez les directives supplémentaires :

La spécialisation du modèle architectural Data Fabric plus large par rapport aux systèmes IBM Z Systems se concentre sur deux aspects :

• Gestion de la gouvernance et de l’accès aux différentes sources de données sur les systèmes IBM Z Systems (par exemple, VSAM, IMS, DB2, …)
• Linux sur IBM Z ou LinuxONE (MongoDB,...) et
• Mise en œuvre des composants de l’architecture data fabric d’entreprise sur les systèmes IBM Z Systems et Linux sur IBM Z/LinuxONE. La solution inclut des composants fonctionnant sur zSystems / LinuxONE et/ou des systèmes externes.

L’architecture de référence pour Data Fabric est un modèle qui peut être utilisé par les entreprises comme guide pour les aider à implémenter les différents composants de Data Fabric dans leurs environnements respectifs. L’architecture de référence Data Fabric comporte cinq modules clés, à savoir Importation de métadonnées, Enrichissement des métadonnées, Catalogage des métadonnées, Curation et transformation des données et Consommation des données. Ces modules sont essentiels pour réaliser les avantages du Data Fabric mentionnés précédemment.

L’architecture de référence couvre les composants clés, les étapes impliquées et les décisions d’architecture pour chaque module, ce qui peut aider à réaliser l’objectif des cinq modules. Elle couvre également les différentes options de technologie disponibles dans l’environnement technologique IBM pour mettre en œuvre les composants et les étapes.

Pour le module Consommation des données, le modèle de consommation générique est couvert en supposant que les détails de chaque cas d’utilisation de consommation seront couverts par l’architecture de référence respective de chaque cas d’utilisation. La modernisation de l’application pour l’architecture IBM Z détaille davantage les modèles architecturaux pour un accès moderne et plus facile aux données du système d’enregistrement (SOR) sur IBM Z et LinuxONE ainsi que divers modèles centrés sur l’intégration des données. Cela est essentiel pour obtenir des informations sur la valeur métier fondée sur les données, car les applications partagent des données du système d’enregistrement (SOR) que ce soit par les concepts d’accès direct, de réplication, de mise en cache ou de virtualisation des données qui combinent les actifs de données dans l’ensemble de l’entreprise.

L’architecture de référence globale des données, de l’analytique et de l’IA pourrait également vous intéresser :

Diagramme représentant une architecture de référence data fabric

Nom

Énoncé de la question ou du problème

Hypothèses

Motivation

Emplacement, gravité et souveraineté des données

AD01

Des méthodes appropriées de contrôle et d’accès aux données doivent être mises en place pour soutenir la disponibilité et les exigences réglementaires.

La méthode de mise en œuvre choisie aura un impact direct sur les coûts, la viabilité pour répondre aux exigences de latence, le respect des réglementations et la satisfaction globale du client.

Des méthodes appropriées de contrôle et d’accès aux données doivent être mises en place pour soutenir la disponibilité et les exigences réglementaires.

Le déplacement et la réplication des données doivent être minimisés afin d’améliorer la simplicité, la gouvernance, les coûts et les préoccupations réglementaires tout en offrant une plateforme efficace, résiliente et flexible pour l’analytique (y compris l’analytique approfondie, l’optimisation des décisions et les workloads d’IA).

La méthode de mise en œuvre choisie aura un impact direct sur les coûts, la viabilité pour répondre aux exigences de latence, le respect des réglementations et la satisfaction globale du client.

En fonction de l’emplacement des données, déterminez si les données doivent être déplacées ou consultées virtuellement en fonction du workload, de la latence et des considérations réglementaires, juste à temps.

Organisation et relations du/des catalogue(s) de connaissances

AD02

Les entreprises peuvent avoir besoin de prendre en charge l’existence de plusieurs catalogues en fonction de divers types d’exigences, notamment l’existence d’écosystèmes multicloud hybrides où les catalogues doivent être connectés virtuellement. D’autres structures de catalogue peuvent être basées sur des considérations liées au projet, à la ligne de métier et à l’entreprise. Il peut également s’avérer nécessaire de mettre en place des instances de développement expérimentales/bac à sable au sein d’une entreprise.

L’instanciation de catalogues doit être mise en œuvre de manière à répondre aux besoins de l’entreprise sans être trop complexe à gérer et à parcourir.

Les choix du catalogue auront un impact sur la capacité de l’organisation à exploiter les données dans les écosystèmes de l’entreprise et éventuellement dans les écosystèmes des partenaires commerciaux.

Actifs de données et relations, y compris la capture et l’enrichissement des métadonnées

AD03

Les actifs de données sont créés et consommés à un rythme toujours plus rapide. Les entreprises ne peuvent plus compter sur des processus manuels et peu automatisés pour prendre en charge la capture et le catalogage des actifs de données et des métadonnées associées.

L’automatisation est essentielle pour capturer et enrichir les métadonnées créées pour les différents actifs de données dans les meilleurs délais.

Sans automatisation, l’organisation ne sera pas en mesure de maintenir un catalogue à jour et utilisable de ses actifs de données, ce qui freinera sa capacité à exploiter ses actifs de données pour devenir une organisation fondée sur les données.

Garantir la méthode de transformation et de curation appropriée en fonction de la workload et en tenant compte des exigences non fonctionnelles

AD04

Les entreprises auront besoin de différents types de mise en œuvre (par exemple en temps réel, en temps quasi réel (streaming), par lots (micro/mini/grand) pour les workloads petits, moyens, volumineux et extrêmement volumineux qui nécessitent un traitement de transformation et de curation.

Quel que soit le mode de mise en œuvre, la transformation et la curation des données doivent rester cohérentes pour que les fonctions appropriées de science des données, d’analytique et de reporting soient précises.

Le choix de la méthode appropriée de transformation et de curation des données permettra à l’entreprise d’atteindre ses objectifs dans divers cas d’utilisation, notamment l’IA digne de confiance, la Vue client à 360° et le développement d’informations.

Ressources

Qu’est-ce qu’une architecture de data fabric ?

Découvrez les six capacités essentielles d’une architecture data fabric dans cet article de blog.