La première couche de nombreuses plateformes de données est le stockage de données. Le type de stockage de données utilisé dépend des besoins de l’organisation et peut inclure un stockage sur site et dans le cloud. Voici quelques magasins de données courants :
Entrepôts de données
Un entrepôt de données , ou entrepôt de données d’entreprise (EDW), agrège les données de différentes sources dans un magasin de données unique, centralisé et cohérent pour l’analyse des données, le data mining, l’IA et le machine learning. Les entrepôts de données sont le plus souvent utilisés pour gérer des données structurées avec des cas d’utilisation d’analyse clairement définis.
Data lakes
Un data lake est un environnement de stockage à faible coût, qui héberge généralement des pétaoctets de données brutes. Un data lake peut stocker des données structurées et des données non structurées dans divers formats, permettant aux chercheurs de travailler plus facilement avec un large éventail de données.
À l’origine, les data lakes étaient souvent créés dans l'écosystème Hadoop, un projet open source basé sur NoSQL. À partir de 2015, de nombreux data lakes ont commencé à migrer vers le cloud. Une architecture typique de data lake peut désormais stocker les données sur une plateforme de stockage d’objets, telle qu’Amazon S3 d’Amazon Web Services (AWS), et utiliser un outil comme Spark pour traiter les données.
Data lakehouses
Un data lakehouse combine les capacités des entrepôts de données et des data lakes en une seule solution de gestion des données.
Bien que les entrepôts de données offrent de meilleures performances que les data lakes, ils sont souvent plus coûteux et limités en termes d’évolutivité. Les data lakes optimisent les coûts de stockage, mais n’ont pas la structure nécessaire pour des analyses utiles.
Les data lakehouses résolvent ces problèmes en tirant parti du stockage d’objets cloud pour stocker un plus large éventail de types de données : données structurées, données non structurées et données semi-structurées. L’architecture des data lakehouses associe ce stockage à des outils destinés à soutenir les efforts d’analyse avancés, tels que la business intelligence et le machine learning.