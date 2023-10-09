L’architecture des plateformes de données a une histoire intéressante. Vers le tournant des années 2000, les entreprises ont commencé à comprendre que le workload de reporting et de business intelligence nécessitait une nouvelle solution plutôt que des applications transactionnelles. Une plateforme optimisée pour la lecture, capable d’intégrer des données provenant de plusieurs applications, a vu le jour : Datawarehouse.
Au cours d’une autre décennie, Internet et la technologie mobile ont commencé à générer des données d’un volume, d’une variété et d’une rapidité imprévus. Cela nécessitait une solution de plateforme de données différente. C’est ainsi qu’est né le data lake, qui gère de gros volumes de données structurées et non structurées.
Une autre décennie s’est écoulée. Il est alors devenu évident que les data lakes et les entrepôts de données ne suffisent plus à gérer la complexité opérationnelle et le nouveau workload des entreprises. Cela est trop cher. La valeur des projets de données est difficile à atteindre. Les plateformes de données sont difficiles à modifier. Le temps exigeait, une fois de plus, une nouvelle solution.
Devinez quoi ? Cette fois, au moins trois solutions de plateformes de données différentes émergent : le data lakehouse, le data fabric et le data mesh. Bien qu’encourageant, cela crée également de la confusion sur le marché. Les concepts et les valeurs se chevauchent. Parfois, différentes interprétations émergent en fonction de la personne interrogée.
Cet article tente de dissiper ces confusions. Les concepts y seront expliqués. Ensuite, il sera présenté un cadre des exigences, qui montrera comment ces trois concepts peuvent être reliés ou utilisés en tandem.
Le concept de lakehouse a été popularisé par Databricks, qui l’a défini ainsi : «Un data lakehouse est une nouvelle architecture de gestion de données ouverte qui combine la flexibilité, la rentabilité et l’évolutivité des data lakes avec la gestion de données et les transactions ACID des entrepôts de données, ce qui permet d’appliquer la business intelligence (BI) et le machine learning (ML) à toutes les données ».
Les entrepôts de données traditionnels utilisaient un processus d’extraction, de transformation et de chargement (ETL) pour ingérer les données, tandis que les data lakes s’appuient sur un processus d’extraction, de chargement et de transformation (ELT). Les données extraites à partir de plusieurs sources sont chargées dans un stockage BLOB bon marché, puis transformées et conservées dans un entrepôt de données, qui assure un stockage par blocs coûteux.
Cette architecture de stockage est rigide et inefficace. La transformation doit être effectuée en continu pour synchroniser le stockage BLOB et celui de l’entrepôt de données, ce qui augmente les coûts. Et la transformation continue prend encore beaucoup de temps. Lorsque les données seront prêtes à être analysées, les informations qu’elles peuvent fournir seront obsolètes par rapport à l’état actuel des systèmes transactionnels.
En outre, le stockage en entrepôt de données ne peut pas prendre en charge les workloads telles que l’intelligence artificielle (IA) et le machine learning (ML), qui nécessitent d’immenses quantités de données pour l’entraînement des modèles. Pour ces workloads, les fournisseurs de data lakes recommandent généralement d’extraire les données dans des fichiers plats à utiliser uniquement à des fins d’entraînement et de test des modèles. Cela ajoute une étape ETL supplémentaire, ce qui rend les données encore plus obsolètes.
Le data lakehouse a été créé pour résoudre ces problèmes. La couche de stockage de l’entrepôt de données est supprimée des architectures lakehouse. La transformation des données est alors effectuée dans le stockage BLOB. Plusieurs API sont ajoutées afin que différents types de workloads puissent utiliser les mêmes compartiments de stockage. Cette architecture est parfaitement adaptée au cloud, car AWS S3 ou Azure DLS2 peuvent fournir le stockage nécessaire.
Le data fabric représente une nouvelle génération d’architecture de plateforme de données. Il peut être défini comme suit : un ensemble faiblement couplé de services distribués, qui permet de mettre à disposition les bonnes données au bon format, au bon moment et au bon endroit, à partir de sources hétérogènes de nature transactionnelle et analytique, sur toute plateforme cloud ou sur site, généralement en libre-service, tout en répondant à des exigences non fonctionnelles telles que la rentabilité, la performance, la gouvernance, la sécurité et la conformité.
Le but du data fabric est de rendre les données disponibles à l’endroit et au moment où elles sont nécessaires, en atténuant les complexités technologiques liées à leur déplacement, à leur transformation et à leur intégration, afin que chacun puisse les utiliser. Voici quelques caractéristiques clés du data fabric :
Un data fabric est composé d’un réseau de nœuds de données (par exemple, des plateformes de données et des bases de données), qui interagissent tous ensemble pour apporter une plus grande valeur. Les nœuds de données sont répartis dans l’écosystème informatique hybride et multicloud de l’entreprise.
Un data fabric peut être composé de plusieurs entrepôts de données, data lakes, appareils IdO/edge et bases de données transactionnelles. Il peut inclure des technologies allant d’Oracle, Teradata et Apache Hadoop à Snowflake sur Azure, RedShift sur AWS ou MS SQL dans le centre de données sur site, pour n’en citer que quelques-unes.
La data fabric englobe toutes les phases du cycle de vie données-informations-analyse. Un nœud du data fabric fournit des données brutes à un autre qui se charge de l’analyse. Ces analyses peuvent être exposées sous forme d’API REST dans la structure, afin qu’elles puissent être utilisées par les systèmes transactionnels d’enregistrement pour la prise de décision.
Le data fabric est conçu pour rapprocher les mondes analytique et transactionnel. Ici, tout est un nœud, et les nœuds interagissent les uns avec les autres par le biais de divers mécanismes. Certains nécessitent un déplacement des données, tandis que d’autres permettent un accès aux données sans déplacement. L’idée sous-jacente est que les silos de données (et la différenciation) finiront par disparaître dans cette architecture.
Les politiques de sécurité et de gouvernance sont appliquées chaque fois que les données circulent ou sont consultées au sein du data fabric. Tout comme Istio applique une gouvernance de la sécurité aux conteneurs dans Kubernetes, le data fabric appliquera des politiques aux données selon des principes similaires, en temps réel.
Le data fabric favorise la découvrabilité des données. Ici, les actifs de données peuvent être publiés dans des categories, créant ainsi une marketplace à l’échelle de l’entreprise. Cette marketplace propose un mécanisme de recherche, utilisant des métadonnées et un graphe de connaissances pour faciliter la découverte des actifs. Cela permet d’accéder aux données à chaque étape de leur cycle de vie.
L’avènement du data fabric ouvre de nouvelles opportunités pour transformer la culture d’entreprise et les modèles opérationnels. Les data fabrics étant distribués mais inclusifs, leur utilisation favorise une gouvernance fédérée mais unifiée. Les données seront ainsi plus fiables. La marketplace permettra à chaque partie prenante au sein de l’entreprise de découvrir et d’utiliser les données pour innover. Les équipes diversifiées pourront collaborer plus facilement et gérer les actifs de données partagés avec un objectif commun.
Le data fabric est une architecture englobante, au sein de laquelle certaines nouvelles technologies (par exemple, la virtualisation des données) jouent un rôle clé. Toutefois, il permet aux bases de données et aux plateformes de données existantes de participer à un réseau, où un catalogue ou une marketplace de données peuvent aider à découvrir de nouveaux actifs. Ici, les métadonnées jouent un rôle essentiel dans la découverte des actifs de données.
Le concept de data mesh a été introduit par Thoughtworks, qui l’a défini ainsi : « ...une architecture de données analytiques et un modèle opérationnel où les données sont traitées comme un produit et détenues par les équipes qui connaissent et utilisent le plus intimement les données ». Le concept repose sur quatre principes : la propriété du domaine, les données en tant que produit, les plateformes de données en libre-service et la gouvernance informatique fédérée.
Les concepts de data fabric et de data mesh se recoupent. Par exemple, les deux recommandent une architecture distribuée, contrairement aux plateformes centralisées telles que les entrepôts de données, les data lakes et les data lakehouses. Les deux veulent faire ressortir l’idée d’un produit de données proposé à travers une marketplace.
Des différences existent également. Comme la définition ci-dessus le montre clairement, contrairement au data fabric, le data mesh concerne des données analytiques. Son champ d’action est plus étroit que le data fabric. Ensuite, il met l’accent sur le modèle opérationnel et la culture, ce qui signifie qu’il va au-delà d’une simple architecture comme le data fabric. La nature du produit de données peut être générique dans le data fabric, tandis que le data mesh prescrit clairement la propriété des produits de données en fonction du domaine.
Il est clair que ces trois concepts ont leurs propres priorités et points forts. Pourtant, la similitude est évidente.
Le lakehouse se distingue des deux autres. Il s’agit d’une nouvelle technologie, comme ses prédécesseurs. Il peut être codifié. Plusieurs produits existent sur le marché, notamment Databricks, Azure Synapse et Amazon Athena.
Le data mesh requiert un nouveau modèle opérationnel et un changement culturel. Souvent, ces changements culturels nécessitent une évolution de l’état d’esprit collectif de l’entreprise. Par conséquent, le data mesh peut être révolutionnaire par nature. Il peut être développé à partir de zéro dans une plus petite partie de l’entreprise avant de s’étendre au reste de l’entreprise.
Le data fabric n’a pas les exigences préalables du data mesh. Il ne suppose pas un changement culturel. Il peut être constitué à partir des actifs existants, dans lesquels l’entreprise a investi au fil des ans. Par conséquent, son approche est évolutionnaire.
Alors, comment une entreprise peut-elle intégrer tous ces concepts ?
Elle peut adopter un data lakehouse dans le cadre de son propre parcours d’évolution de la plateforme de données. Par exemple, une banque peut se débarrasser de son entrepôt de données vieux de dix ans et proposer tous les cas d’utilisation de la BI et de l’IA à partir d’une seule plateforme de données, en déployant un lakehouse.
Si l’entreprise est complexe et dispose de plusieurs plateformes de données, si la découverte de données est un défi, si mettre les données à la disposition des différentes parties de l’entreprise est difficile, le data fabric est une architecture à envisager. Outre les nœuds de plateforme de données existants, un ou plusieurs nœuds de data lakehouse peuvent également y participer. Même les bases de données transactionnelles peuvent rejoindre le réseau en tant que nœuds pour offrir ou consommer des actifs de données.
Pour remédier à la complexité métier, si l’entreprise s’engage dans un changement culturel en faveur d’une propriété des données axée sur le domaine, promeut la découverte et la livraison de données en libre-service et adopte une gouvernance fédérée, elle est en route vers un data mesh. Si l’architecture de data fabric est déjà en place, l’entreprise peut l’utiliser comme facteur clé dans son parcours de data mesh. Par exemple, la marketplace de data fabric peut proposer des produits de données centrés sur un domaine (un résultat clé du data mesh) à partir de celui-ci. La découverte axée sur les métadonnées, déjà établie en tant que fonctionnalité grâce au data fabric, peut être utile pour découvrir les nouveaux produits de données issus du data mesh.
Chaque entreprise peut examiner ses objectifs métier respectifs et décider du point d’entrée qui lui convient le mieux. Toutefois, même si les points d’entrée ou les motivations peuvent être différents, une entreprise peut facilement utiliser ces trois concepts ensemble dans sa quête de centralité des données.
