Qu'est-ce qu'une fabrique de données ?
Découvrez comment les fabriques de données orchestrent intelligemment les données dans un paysage distribué, en les présentant aux consommateurs de données
Portrait de programmeur informatique travaillant sur 24
Qu'est-ce qu'une fabrique de données ?

La structure de données est une architecture qui facilite l'intégration de bout en bout de divers pipelines de données et environnements cloud grâce à l'utilisation de systèmes intelligents et automatisés. Au cours de la dernière décennie, les développements dans le domaine du cloud hybride, de l'intelligence artificielle, de l'Internet des objets (IdO) et de l'informatique de périphérie ont conduit à la croissance exponentielle du Big Data, créant davantage de complexité pour les entreprises. Cela a fait de l'unification et de la gouvernance des environnements de données une priorité croissante, car cette croissance a créé des défis importants, tels que des silos de données, des risques de sécurité et des goulots d'étranglement généraux pour la prise de décision. Les équipes de gestion des données relèvent ces défis de front avec des solutions de Data Fabric. Ils les exploitent pour unifier leurs systèmes de données disparates, intégrer la gouvernance, renforcer les mesures de sécurité et de confidentialité et offrir une plus grande accessibilité aux données aux travailleurs, en particulier à leurs utilisateurs professionnels.

Ces efforts d'intégration de données via les data fabrics permettent une prise de décision plus holistique et centrée sur les données. Historiquement, une entreprise peut avoir eu différentes plates-formes de données alignées sur des secteurs d'activité spécifiques. Par exemple, vous pouvez avoir une plate-forme de données RH, une plate-forme de données de chaîne d'approvisionnement et une plate-forme de données client, qui hébergent des données dans des environnements différents et séparés malgré les chevauchements potentiels. Cependant, une structure de données peut permettre aux décideurs de visualiser ces données de manière plus cohérente afin de mieux comprendre le cycle de vie du client, en établissant des liens entre des données qui n'existaient pas auparavant. En comblant ces lacunes dans la compréhension des clients, des produits et des processus, les structures de données accélèrent les initiatives de transformation numérique et d'automatisation dans toutes les entreprises.

Structure de données vs virtualisation des données

Virtualisation des données est l'une des technologies qui permet une approche data fabric. Plutôt que de déplacer physiquement les données de diverses sources sur site et dans le cloud à l'aide de la norme ETL (extraction, transformation, chargement), un outil de virtualisation des données se connecte aux différentes sources, n'intègre que les métadonnées nécessaires et crée une couche de données virtuelles. Cela permet aux utilisateurs d'exploiter les données sources en temps réel.


Architecture de tissu de données

Les services de données et les API rassemblent les données des systèmes existants, des datalakes, des entrepôts de données, des bases de données SQL, et des applications, pour offrir une vue globale sur les performances de l'entreprise. Contrairement à ces systèmes de stockage de données individuels, il vise à créer plus de fluidité dans les environnements de données, en essayant de contrer le problème de la gravité des données, c'est-à-dire l'idée que les données deviennent plus difficiles à déplacer à mesure qu'elles grandissent. Une structure de données élimine les complexités technologiques engagées pour le déplacement, la transformation et l'intégration des données, rendant toutes les données disponibles dans toute l'entreprise.

Les architectures de Data Fabric fonctionnent autour de l'idée de coupler de manière lâche les données des plates-formes avec les applications qui en ont besoin. Un exemple d'architecture de Data Fabric dans un environnement multi-cloud peut ressembler à ce qui suit, où un cloud, comme AWS, gère l'ingestion de données et une autre plate-forme, telle qu'Azure, supervise la transformation et la consommation des données. Ensuite, vous pouvez avoir un troisième fournisseur, comme IBM® Cloud Pak for Data, fournissant des services analytiques. L'architecture Data Fabric assemble ces environnements pour créer une vue unifiée des données.

Cela dit, ce n'est qu'un exemple. Il n'existe pas d'architecture de données unique pour une structure de données, car différentes entreprises ont des besoins différents. Le nombre variable de fournisseurs de cloud et d'implémentations d'infrastructures de données garantit des variations entre les entreprises. Cependant, les entreprises utilisant ce type de cadre de données présentent des points communs dans leurs architectures, qui sont propres à une structure de données. Plus précisément, ils ont six composantes fondamentales, que Forrest (le lien réside en dehors d'ibm.com) décrit dans le rapport "Enterprise Data Fabric Enables DataOps". Ces six couches comprennent les éléments suivants :

  1. Couche de gestion des données : elle est responsable de la gouvernance et de la sécurité des données.
  2. Couche d'ingestion de données : cette couche commence à assembler les données du cloud, en trouvant des connexions entre les données structurées et non structurées.
  3. Traitement des données : la couche de traitement des données affine les données pour garantir que seules les données pertinentes sont présentées pour l'extraction des données.
  4. Orchestration des données : cette couche critique effectue certaines des tâches les plus importantes pour la structure de données : la transformation, l'intégration et le nettoyage des données, ce qui les rend utilisables par les équipes de l'entreprise.
  5. Découverte de données : cette couche présente de nouvelles opportunités d'intégration de sources de données disparates. Par exemple, il peut trouver des moyens de connecter les données dans un data mart de la chaîne d'approvisionnement et un système de données de gestion de la relation client, offrant de nouvelles opportunités d'offres de produits aux clients ou des moyens d'améliorer la satisfaction des clients.
  6. Accès aux données : cette couche permet la consommation de données, garantissant les bonnes autorisations à certaines équipes pour se conformer aux réglementations gouvernementales. De plus, cette couche aide à mettre en évidence les données pertinentes grâce à l'utilisation de tableaux de bord et d'autres outils de visualisation de données. 

Avantages des architectures Data Fabric

Alors que les fournisseurs de Data Fabric sont de plus en plus adoptés par les entreprises du marché, Gartner (le lien réside en dehors d'ibm.com) a noté des améliorations spécifiques en termes d'efficacité, affirmant qu'il peut réduire "le temps de conception d'intégration de 30 %, de déploiement de 30 % et de maintenance de 70 %". S'il est clair que les data fabrics peuvent améliorer la productivité globale, les avantages suivants ont également démontré une valeur commerciale pour les utilisateurs :

  • Intégration intelligente : les structures de données utilisent des graphes de connaissances sémantiques, la gestion des métadonnées et l'apprentissage automatique pour unifier les données sur différents types de données et points de terminaison. Cela aide les équipes de gestion des données à regrouper les ensembles de données connexes ainsi qu'à intégrer de nouvelles sources de données nettes dans l'écosystème de données d'une entreprise. Cette fonctionnalité automatise certains aspects de la gestion de la charge de travail des données, ce qui entraîne les gains d'efficacité susmentionnés, mais elle contribue également à éliminer les silos entre les systèmes de données, à centraliser les pratiques de gouvernance des données et à améliorer la qualité globale des données.
  • Démocratisation des données : Les architectures Data Fabric facilitent les applications en libre-service, élargissant l'accès aux données au-delà des ressources plus techniques, telles que les ingénieurs de données, les développeurs et les équipes d'analyse de données. La réduction des goulots d'étranglement des données favorise par la suite une plus grande productivité, permettant aux utilisateurs professionnels de prendre des décisions commerciales plus rapides et en libérant les utilisateurs techniques pour hiérarchiser les tâches qui utilisent mieux leurs compétences.
  • Meilleure protection des données : L'élargissement de l'accès aux données ne signifie pas non plus un compromis sur la sécurité des données et les mesures de confidentialité. En fait, cela signifie que davantage de garde-corps de gouvernance des données sont mis en place autour des contrôles d'accès, garantissant que des données spécifiques ne sont disponibles que pour certains rôles. Les architectures Data Fabric permettent également aux équipes techniques et de sécurité de mettre en œuvre le masquage et le chiffrement des données autour des données sensibles et propriétaires, atténuant ainsi les risques liés au partage de données et aux violations du système. 

Cas d'utilisation des data fabrics

Les tissus de données en sont encore à leurs balbutiements en termes d'adoption, mais leurs capacités d'intégration de données aident les entreprises dans la découverte de données, leur permettant de prendre en charge une variété de cas d'utilisation. Bien que les cas d'utilisation qu'une structure de données puisse gérer ne soient pas extrêmement différents des autres produits de données, elle se différencie par la portée et l'échelle qu'elle peut gérer en éliminant les silos de données. En intégrant diverses sources de données, les entreprises et leurs scientifiques des données peuvent créer une vue globale de leurs clients, ce qui s'est avéré particulièrement utile pour les clients bancaires. Les data fabrics ont été plus spécifiquement utilisés pour :

  • Profils clients,
  • Détection de fraude,
  • Analyse de maintenance préventive,
  • Modèles de risque de retour au travail, et plus encore.

Solutions associées

IBM Cloud Pak for Data

IBM Cloud Pak for Data est une plateforme de données ouverte et extensible qui fournit une structure de données pour rendre toutes les données disponibles pour l'IA et l'analyse, sur n'importe quel cloud.


IBM Watson® Studio

Créez, exécutez et gérez des modèles d'IA. Préparez des données et créez des modèles sur n'importe quel cloud à l'aide de code open source ou de modélisation visuelle. Anticipez et optimisez vos résultats.


IBM® Db2® sur le Cloud

Découvrez Db2 on Cloud, une base de données cloud SQL entièrement gérée, configurée et optimisée pour des performances robustes.



Ressources


Étapes suivantes

Structures de données et IBM Cloud Pak for Data

IBM Cloud Pak® for Data exploite les microservices et ses principales capacités de données et d'IA pour permettre l'intégration intelligente des données dans les systèmes distribués, offrant aux entreprises une vue globale des performances de l'entreprise. Ceci permet de collecter, d'organiser et d'analyser plus rapidement les données de l'entreprise, tout en aidant l'entreprise à prendre des décisions à grande échelle. Les équipes en charge de la gestion des données peuvent également être sûres que leurs données sont sécurisées grâce aux cadres de sécurité concurrentiels d'IBM, qui garantissent le respect des politiques réglementaires et réduisent les risques de conformité.