Accueil
Thèmes
Qu’est-ce qu’un data lakehouse ?
L’objectif des data lakehouses est de résoudre les principales difficultés rencontrées dans les entrepôts de données et les data lakes afin d’offrir une solution optimisée de gestion des données aux organisations. Il s’agit de la prochaine évolution des solutions de gestion des données sur le marché.
Un data lakehouse est une plateforme de données qui regroupe les meilleurs aspects des entrepôts de données et des data lakes dans une seule solution de gestion des données. Les entrepôts de données sont en général plus performants que les data lakes, mais ils peuvent être plus coûteux et limités en termes d’évolutivité. Les data lakehouses tentent de résoudre ce problème en tirant parti du stockage d’objets cloud pour stocker un plus large éventail de types de données : données structurées, données non structurées et données semi-structurées. Ces avantages étant réunis dans une architecture de données unique, les équipes de données peuvent accélérer le traitement de leurs données, car elles n’ont plus besoin de basculer entre deux systèmes de données disparates pour exécuter et dimensionner des analyses plus avancées, comme le machine learning.
Découvrez les obstacles à l’adoption de l’IA, en particulier le manque de solutions de gouvernance de l’IA et de gestion des risques.
Les data lakehouses sont apparus en réponse aux défis posés par les entrepôts de données et les data lakes. Il est donc utile de définir ces différents référentiels de données et d’en comprendre les différences.
Un entrepôt de données rassemble les données brutes de plusieurs sources dans un référentiel central et les organise dans une infrastructure de base de données relationnelle. Ce système de gestion des données prend principalement en charge l’analytique des données et les applications de Business Intelligence, comme le reporting d’entreprise. Il utilise des processus ETL pour extraire, transformer et charger des données vers leur destination. Cependant, il est limité par son inefficacité et son coût, encore plus quand le nombre de sources de données et leur quantité augmentent.
Les data lakes sont généralement créés sur des plateformes de big data comme Apache Hadoop. Ils sont connus pour leur faible coût et la flexibilité de leur stockage, car ils ne sont pas régis par les schémas prédéfinis des entrepôts de données traditionnels. Ils hébergent également différents types de données : audio, vidéo et texte. Et comme les producteurs de données génèrent en grande partie des données non structurées, il s’agit d’une distinction importante, car ces data lakes sont également adaptés à une plus grande diversité de projets de science des données et d’intelligence artificielle (IA). Ils permettent d’obtenir des informations plus novatrices et d’améliorer la prise de décision au sein des organisations. Cependant, les data lakes ont aussi leurs inconvénients. Leur taille et leur complexité peuvent nécessiter davantage de ressources techniques, par exemple des data scientists et des ingénieurs de données, pour gérer la quantité de données stockées. De plus, étant donné que la gouvernance des données est mise en œuvre plus en aval dans ces systèmes, les data lakes ont tendance à cloisonner davantage les données dans différents silos, qui risquent de se transformer en marécage de données. Dans ce cas de figure, le data lake peut devenir inutilisable.
Les data lakes et les entrepôts de données sont généralement utilisés en tandem. Les data lakes agissent comme un système fourre-tout pour les nouvelles données, et les entrepôts de données appliquent une structure en aval à des données spécifiques qui en proviennent. Mais coordonner ces systèmes pour fournir des données fiables peut s’avérer coûteux en temps et en ressources. Les longs délais de traitement contribuent à l’obsolescence des données et les couches supplémentaires d’ETL introduisent plus de risques en termes de qualité.
Les data lakehouses compensent les lacunes des entrepôts de données et des data lakes pour créer un meilleur système de gestion des données. Ils offrent aux organisations un stockage rapide et économique pour leurs données d’entreprise, avec une flexibilité suffisante pour prendre en charge les workloads d’analytique des données et de machine learning.
Comme indiqué précédemment, les data lakehouses combinent les meilleures fonctionnalités des entrepôts de données avec celles des data lakes. Ils tirent parti de structures de données similaires à celles des entrepôts de données et les associent à un stockage aussi économique et flexible que celui des data lakes, permettant aux organisations de stocker et d’accéder au big data plus rapidement et plus efficacement, tout en atténuant les problèmes potentiels de qualité des données. Ils prennent en charge divers jeux de données, structurées et non structurées, répondant ainsi aux besoins des workflows de Business Intelligence et de science des données. Ils sont également compatibles avec les langages de programmation comme Python, R et SQL haute performance.
Les data lakehouses prennent également en charge les transactions ACID sur des workloads de données plus importants. ACID est synonyme d’atomicité, de cohérence, d’isolement et de durabilité : autant de propriétés clés qui définissent les transactions pour garantir l’intégrité des données. L’atomicité, c’est comme si toutes les modifications apportées aux données étaient effectuées en une seule opération. On parle de cohérence lorsque les données sont dans un état cohérent au début et à la fin d’une transaction. L’isolement fait référence à l’état intermédiaire de la transaction, qui est invisible pour les autres transactions. De ce fait, les transactions qui s’exécutent simultanément semblent être sérialisées. La durabilité signifie qu’après l’exécution d’une transaction, les modifications apportées aux données persistent et ne sont pas annulées, même en cas de défaillance du système. Cette fonctionnalité est critique pour la cohérence des données, car plusieurs utilisateurs lisent et écrivent des données simultanément.
Un data lakehouse se compose généralement de cinq couches : ingestion, stockage, métadonnées, API et consommation. Elles constituent le modèle architectural des data lakehouses.
Cette première couche rassemble des données provenant de différentes sources et les transforme dans un format pouvant être stocké et analysé dans un data lakehouse. La couche d'ingestion peut utiliser des protocoles pour se connecter à des sources internes et externes telles que des systèmes de gestion de bases de données, des bases de données NoSQL, des réseaux sociaux, etc. Comme son nom l’indique, cette couche est responsable de l’ingestion des données.
Dans cette couche, les données structurées, non structurées et semi-structurées sont stockées dans des formats de fichier open source, tels que Parquet ou Optimized Row Columnar (ORC). Le véritable avantage d’un lakehouse, c’est sa capacité à accepter tous les types de données à un coût abordable.
La couche de métadonnées constitue la base du data lakehouse. Il s’agit d’un catalogue unifié qui fournit des métadonnées pour chaque objet du stockage de data lake. Il permet d’organiser et de fournir des informations sur les données du système. Cette couche donne également à l’utilisateur la possibilité d’utiliser des fonctionnalités de gestion telles que les transactions ACID, la mise en cache des fichiers et l’indexation, pour un traitement des requêtes plus rapide. Les utilisateurs peuvent mettre en œuvre des schémas prédéfinis au sein de cette couche, à des fins de gouvernance des données et d’audit.
Un data lakehouse utilise des API pour améliorer le traitement des tâches et effectuer des analyses plus avancées. Plus précisément, cette couche permet aux consommateurs et/ou aux développeurs d’utiliser tout un éventail de langages et de bibliothèques, comme TensorFlow, à un niveau abstrait. Les API sont optimisées pour la consommation des actifs de données.
Cette dernière couche de l’architecture de data lakehouse héberge les applications et outils clients. En d’autres termes, elle a accès à toutes les métadonnées et données stockées dans le data lake. Les utilisateurs de toute une organisation peuvent utiliser le lakehouse et effectuer des tâches analytiques telles que la création de tableaux de bord de Business Intelligence , la visualisation de données et d’autres tâches de machine learning.
Les data lakehouses ont été conçus pour rassembler les meilleures caractéristiques des entrepôts de données et des data lakes. Ils présentent donc des avantages clés spécifiques pour ses utilisateurs. Notamment :
Mettez vos workloads d’IA à l’échelle pour toutes vos données, partout. IBM watsonx.data est le seul magasin de données ouvert du secteur qui vous permet de tirer parti de plusieurs moteurs de requête pour exécuter vos workloads gouvernés, où qu’ils se trouvent, afin d’optimiser l’utilisation des ressources et de réduire vos coûts.
Grâce à des décennies d’innovation en matière de sécurité, d’évolutivité et de disponibilité des données, vos applications et analyses sont protégées, hautement performantes et résilientes, où que vous soyez, avec IBM Db2.
L’entrepôt de données cloud natif avancé conçu pour obtenir une analytique et des informations unifiées et évolutives, partout. Grâce à une évolutivité élastique granulaire et à des fonctionnalités de pause et de reprise, Netezza Performance Server vous permet de contrôler les coûts et les ressources à l’échelle d’une grande entreprise.
D’après IBM Research, l’approche unifiée des data lakehouses représente une opportunité unique dans le domaine de la gestion unifiée de la résilience des données.
Les solutions IBM fournissent des capacités à même de résoudre les problèmes liés à l’environnement d’analyse. Découvrez pourquoi IBM est nommé leader de la gestion des données pour les solutions d’analyse.
Découvrez comment ces trois concepts peuvent être reliés ou utilisés en tandem.
Apprenez-en plus sur le moteur de requête open source rapide et flexible disponible avec l’architecture de data lakehouse ouverte de watsonx.data.
1 Lakehouse: A New Generation of Open Platforms that Unify
Data Warehousing and Advanced Analytics (lien externe à ibm.com), Stanford, 2021