Qu’est-ce qu’un data lakehouse ?

Image d’une maison au bord d’un lac bleu avec des arbres

Auteurs

Alexandra Jonker

Staff Editor

IBM Think

Alice Gomstyn

Staff Writer

IBM Think

Qu’est-ce qu’un data lakehouse ?

Un data lakehouse est une plateforme de données qui combine le stockage flexible d’un data lake avec les capacités d’analyse haute performance d’un entrepôt de données.
 

Les data lakes et les entrepôts de données sont généralement utilisés en tandem. Les data lakes servent de système fourre-tout pour les nouvelles données, tandis que les entrepôts de données appliquent une structure en aval aux données.

Mais coordonner ces systèmes pour fournir des données fiables peut s’avérer coûteux en temps et en ressources. Les longs délais de traitement contribuent à l’obsolescence des données et les couches supplémentaires d’ETL (extraction, transformation, chargement) introduisent des risques en matière de qualité des données

Les data lakehouses compensent les lacunes des entrepôts de données et des data lakes pour créer un meilleur système de gestion des données. Ils associent les structures de données des entrepôts de données au stockage peu coûteux et à la flexibilité des data lakes.

Les data lakehouses permettent aux équipes chargées des données d’unifier leurs systèmes de données disparates, d’accélérer le traitement en vue d’analyses plus pointues (par exemple de machine learning (ML)), d’accéder efficacement au big data et d’améliorer la qualité des données. 

L’émergence des data lakehouses

Les data lakehouses ont été conçus pour résoudre les défis associés aux entrepôts de données et aux data lakes, mais aussi pour réunir leurs avantages au sein d’une architecture de données unique.

Par exemple, les entrepôts de données sont plus performants que les data lakes, tant pour le stockage que pour la transformation des données d’entreprise. Cependant, le stockage des données nécessite des schémas stricts (généralement le schéma en étoile et le schéma en flocon). 

Par conséquent, les entrepôts de données sont peu adaptés aux données non structurées ou semi-structurées, qui sont essentielles pour les cas d’utilisation de l’intelligence artificielle (IA) et du ML. Leur capacité d’évolutivité est également limitée.

Les data lakes, quant à eux, permettent aux entreprises d’agréger tous les types de données (structurées, non structurées et semi-structurées) provenant de diverses sources en un seul endroit. Ils offrent un stockage de données plus évolutif et plus abordable, mais ne disposent pas d’outils de traitement des données intégrés.

Les data lakehouses combinent certains aspects des entrepôts de données et des data lakes. Ils utilisent le stockage d’objets dans le cloud pour stocker des données dans n’importe quel format à moindre coût. Et, à cela s’ajoute une infrastructure analytique de type entrepôt, qui prend en charge les requêtes haute performance, l’analyse en temps quasi réel et les initiatives de business intelligence (BI).

Design 3D de balles roulant sur une piste

Les dernières actualités et informations en matière d’IA 


La newsletter hebdomadaire Think vous apporte toute l’actualité sur l’IA, le cloud et bien d’autres sujets. 

Entrepôt de données, data lake et data lakehouse

Les entrepôts de données, les data lakes et les data lakehouses sont tous des référentiels de données, avec toutefois des différences importantes. Ils sont souvent utilisés conjointement dans une architecture de données intégrée pour divers cas d’utilisation.

Entrepôt de données

Un entrepôt de données rassemble les données brutes de plusieurs sources dans un référentiel central et les organise dans une infrastructure de base de données relationnelle. Ce système de gestion des données prend principalement en charge l’analyse des données et les applications de business intelligence, telles que le reporting d’entreprise.

Il utilise des processus ETL pour extraire, transformer et charger des données vers leur destination. Cependant, il est limité par son inefficacité et son coût, encore plus quand le nombre de sources de données et leur quantité augmentent.

Alors que les entrepôts de données étaient traditionnellement hébergés sur site sur des ordinateurs centraux (mainframes), aujourd’hui, beaucoup d’entre eux sont hébergés dans le cloud et mis à disposition sous forme de services cloud.

Data lake

Les data lakes ont initialement été développés sur des plateformes big data telles qu’Apache Hadoop. Cependant, ils reposent désormais sur un service de stockage d’objets dans le cloud, qui leur permet de stocker tous types de données. Parmi les services courants, on peut citer Amazon Simple Storage Service (Amazon S3), Microsoft Azure Blob Storage, Google Cloud Storage et IBM Cloud Object Storage. 

Étant donné que les entreprises génèrent en grande partie des données non structurées, cette capacité de stockage est un facteur important. Elle permet de mener davantage de projets dans le domaine de la science des données et de l’IA, qui à leur tour génèrent des informations plus novatrices et améliorent la prise de décision au sein des organisations. 

Cependant, la taille et la complexité des data lakes peuvent nécessiter les compétences d’utilisateurs plus techniques, tels que des data scientists et des ingénieurs de données. De plus, dans la mesure où la gouvernance des données intervient en aval dans ces systèmes, les data lakes peuvent être sujets au cloisonnement des données, puis évoluer vers des « marécages de données » (où les données de qualité sont inaccessibles en raison d’une mauvaise gestion).

Data Lakehouse

Les data lakehouses permettent de résoudre les principales difficultés rencontrées dans les entrepôts de données et les data lakes afin d’offrir aux organisations une solution optimisée de gestion des données. Ils exploitent le stockage d’objets dans le cloud pour un stockage rapide et peu coûteux d’un large éventail de types de données, tout en offrant des capacités d’analyse haute performance. Les entreprises peuvent utiliser les data lakehouses parallèlement à leurs data lakes et entrepôts de données sans avoir à tout démonter et reconstruire.

Avantages des data lakehouses

Les data lakehouses offrent plusieurs avantages de taille aux utilisateurs, notamment :

  • Réduction de la redondance des données
  • Coûts réduits
  • Prise en charge d’un large éventail de workloads
  • Amélioration de la gouvernance des données
  • Amélioration de l’évolutivité
  • Diffusion en continu en temps réel

Réduction de la redondance des données

Le système de stockage des données unique offre une plateforme rationalisée qui répond à toutes les demandes en matière de données, réduisant ainsi la duplication des données. Les data lakehouses simplifient également l’observabilité des données de bout en bout en réduisant la quantité de données transitant par les pipelines de données vers divers systèmes.

Coûts réduits

Étant donné que les data lakehouses profitent des coûts réduits du stockage d’objets dans le cloud, ils sont plus rentables que les entrepôts de données. En outre, l’architecture hybride d’un data lakehouse évite d’avoir à gérer plusieurs systèmes de stockage de données, ce qui réduit les coûts d’exploitation.

Prise en charge d’un large éventail de workloads

Les data lakehouses peuvent être adaptés à différents cas d’utilisation tout au long du cycle de vie de la gestion des données. Ils prennent également en charge les workflows de business intelligence et de visualisation fondés sur les données, ainsi que les workflows de science des données plus complexes.

Amélioration de la gouvernance des données

L’architecture data lakehouse atténue les problèmes de gouvernance inhérents aux data lakes. Par exemple, lorsque les données sont ingérées et chargées, le lakehouse peut s’assurer que les données répondent aux exigences des schémas définis, réduisant ainsi les problèmes de qualité des données en aval.

Amélioration de l’évolutivité

Dans les entrepôts de données traditionnels, le calcul et le stockage sont couplés. Les data lakehouses séparent le stockage et le calcul, ce qui permet aux équipes chargées des données d’accéder au même stockage de données tout en utilisant différents nœuds informatiques pour différentes applications. Il en résulte une évolutivité et une flexibilité accrues.

Diffusion en continu en temps réel

Les data lakehouses sont spécialement conçus pour les entreprises et les technologies actuelles. De nombreuses sources de données contiennent des données en continu en temps réel provenant d’appareils, par exemple les appareils connectés (Internet des objets). Ces sources sont prises en charge grâce à l’ingestion de données en temps réel.

AI Academy

La gestion des données est-elle le secret de l’IA générative ?

Découvrez pourquoi des données de haute qualité sont essentielles pour une utilisation réussie de l’IA générative.

Qu’est-ce que Delta Lake ?

Développé par Databricks en 2016, Delta Lake est un format de stockage de données open source qui combine des fichiers de données Apache Parquet avec un journal de métadonnées robuste. Ce format enrichit les data lakes de fonctions essentielles de gestion des données, notamment l’application de schémas, le voyage dans le temps et les transactions ACID. (ACID est synonyme d’atomicité, de cohérence, d’isolement et de durabilité : autant de propriétés clés qui définissent les transactions pour garantir l’intégrité des données.)

Ces fonctions contribuent à rendre les data lakes plus fiables et intuitifs. Elles permettent également aux utilisateurs d’exécuter des requêtes en langage SQL (Structured Query Language), des workloads d’analyse et d’autres activités sur le data lake, rationalisant ainsi le business intelligence, l’intelligence des données, l’IA et le ML.

Delta Lake est devenu open source en 2019. Depuis lors, le développement des data lakehouses passe généralement par la création d’une couche de stockage Delta Lake au-dessus d’un data lake, puis par son intégration à un moteur de traitement des données tel qu’Apache Spark ou Hive

Dans leur version open source, on parle de « data lakehouses ouverts ». Parmi les autres formats de table ouverts, citons Apache Iceberg (un format haute performance pour les tables analytiques volumineuses) et Apache Hudi (destiné au traitement incrémentiel des données).

Couloir de centre de données

Le data lakehouse hybride et ouvert pour l'IA

Simplifiez l’accès aux données et automatisez la gouvernance des données. Découvrez la puissance de l’intégration d’une stratégie de data lakehouse dans votre architecture de données, notamment l’optimisation des coûts de vos workloads et le dimensionnement de l’IA et des analyses, avec toutes vos données, partout.

Les couches de l’architecture de data lakehouse

L’architecture d’un data lakehouse se compose généralement de cinq couches :

  • Couche d’ingestion
  • Couche de stockage
  • Couche de métadonnées
  • Couche API
  • Couche de consommation

Couche d’ingestion

La première couche rassemble les données provenant de diverses sources et les transforme dans un format que le lakehouse peut stocker et analyser. La couche d’ingestion peut utiliser des protocoles pour se connecter à des sources internes et externes, par exemple des systèmes de gestion de bases de données, des bases de données NoSQL ou encore des réseaux sociaux. 

Couche de stockage

Dans cette couche, les jeux de données structurées, non structurées et semi-structurées sont stockées dans des formats de fichier open source, tels que Parquet ou Optimized Row Columnar (ORC). Il en ressort un avantage majeur du data lakehouse : sa capacité à accepter tous les types de données à un coût abordable.

Couche de métadonnées

Cette couche constitue un catalogue unifié qui fournit des métadonnées pour chaque objet stocké dans le data lake. Elle permet d’organiser et de fournir des informations sur les données du système. Elle permet également d’effectuer des transactions ACID, de mettre des fichiers en cache et d’indexer les données pour accélérer les requêtes. Les utilisateurs peuvent y mettre en œuvre des schémas prédéfinis à des fins de gouvernance des données et d’audit.

Couche API

Un data lakehouse utilise des API pour améliorer le traitement des tâches et effectuer des analyses plus avancées. Plus précisément, cette couche permet aux consommateurs et/ou aux développeurs d’utiliser tout un éventail de langages et de bibliothèques, notamment TensorFlow, à un niveau abstrait. Les API sont optimisées pour la consommation des actifs de données.

Couche de consommation de données

La dernière couche de l’architecture de data lakehouse héberge les applications et les outils, avec accès à toutes les métadonnées et données stockées dans le data lake. Les utilisateurs de toute l’entreprise peuvent ainsi accéder aux données et utiliser le lakehouse pour effectuer des tâches telles que créer des tableaux de bord de business intelligence, visualiser des données et exécuter des tâches de machine learning.

Solutions connexes
IBM watsonx.data

Exploitez vos données où qu’elles se trouvent grâce à un data lakehouse hybride et ouvert pour l’IA et l’analytique.

Découvrir watsonx.data
Solutions de lac de données

Relevez les défis des données d’aujourd’hui grâce à une architecture de data lakehouse. Connectez-vous aux données en quelques minutes, obtenez rapidement des informations fiables et réduisez les coûts de votre entrepôt de données.

Découvrez les solutions IBM Data Lake
Services de conseil pour les données et les analyses

Avec IBM Consulting, exploitez les données de votre entreprise et développez une organisation basée sur les informations pour tirer des avantages métier.

Découvrir les services d’analytique