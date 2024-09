La première couche fondamentale d'une plateforme de données moderne est le stockage et le traitement.

Les systèmes modernes de stockage de données sont axés sur l'utilisation optimale des données, ce qui implique de savoir où stocker les données et comment les traiter. Les deux formats de stockage les plus populaires sont les entrepôts de données et les data lakes, bien que les data lakehouses et les data mesh gagnent en popularité.



L'entrepôt de données



Les entrepôts de données sont conçus pour gérer des données structurées avec des cas d'utilisation clairs et définis.



L'utilisation des entrepôts de données remonte aux années 1990, lorsque les bases de données étaient utilisées pour stocker des données. Ils se trouvaient dans les locaux de l'entreprise et avaient une capacité de stockage très limitée.



Vers 2013, les entrepôts de données ont commencé à migrer vers le cloud, où l'évolutivité était soudainement devenue possible. Les entrepôts de données hébergés sur le cloud restent le système de stockage de données privilégié car ils optimisent la puissance de calcul et la vitesse de traitement.



Pour qu'un entrepôt de données fonctionne correctement, les données doivent être collectées, reformatées, nettoyées et téléchargées dans l'entrepôt. Les données qui ne peuvent pas être reformatées risquent d'être perdues.



Le data lake



En janvier 2008, Yahoo a publié Hadoop (basé sur NoSQL) en tant que projet open source à l'Apache Software Foundation. À l'origine, les data lakes étaient basés sur Hadoop. Ils étaient évolutifs et conçus pour une utilisation sur site. Malheureusement, l'écosystème Hadoop est extrêmement complexe et difficile à utiliser. Les data lakes ont commencé à migrer vers le cloud vers 2015, ce qui les a rendus beaucoup moins coûteux et plus intuitifs.



Les data lakes ont été conçus à l'origine pour collecter des données brutes et non structurées sans imposer de schémas (formats) afin que les chercheurs puissent obtenir davantage d'informations à partir d'un large éventail de données. En raison de problèmes liés à l'analyse des informations obsolètes, inexactes ou inutiles, les data lakes peuvent devenir des « marécages de données » moins fiables.



Dans une architecture typique de data lake, les données sont stockées sur un Object Storage tel qu'Amazon S3 d'AWS, associé à un outil tel que Spark pour traiter les données.



Le data lakehouse



Les data lakehouses associent la flexibilité, la rentabilité et les capacités d'évolutivité des data lakes aux fonctionnalités ACID (atomicité, cohérence, isolation et durabilité) des transactions et des fonctionnalités de gestion des données des entrepôts de données. (ACID est l’acronyme de l’ensemble des 4 propriétés clés qui définissent une transaction : l’atomicité, la cohérence, l’isolation et la durabilité.)

Les entrepôts de données soutiennent la BI et le machine learning, et l'un des principaux atouts de l'entrepôt de données est qu'il utilise des couches de métadonnées. Les data lakehouse utilisent également un nouveau moteur de requête, conçu pour les recherches SQL hautes performances.



Data mesh



Contrairement aux entrepôts de données, aux data lakes et aux data lakehouses, le data mesh décentralise la propriété des données. Avec ce modèle architectural, un domaine spécifique (par exemple un partenaire commercial ou un département) n'est pas propriétaire de ses données, mais les partage librement avec d'autres domaines. Cela signifie que toutes les données du système du data mesh doivent conserver un format uniforme.



Les systèmes de data mesh peuvent être utiles pour les entreprises qui prennent en charge plusieurs domaines de données. Le concept de data mesh comprend une couche de gouvernance des données et une couche d'observabilité. Il existe également une couche d'interopérabilité universelle.



Le data mesh peut être utile aux organisations qui se développent rapidement et qui ont besoin d'une certaine évolutivité pour le stockage des données.