Le développement du format Delta Lake a ouvert la voie à la création des data lakehouses.

Pendant longtemps, les organisations géraient principalement leurs données dans des entrepôts de données. Bien qu’utiles pour l’analytique et la BI, les entrepôts nécessitent l’utilisation de schémas stricts. Ils ne fonctionnent pas bien avec les données non structurées ou semi-structurées, qui sont devenues plus répandues et plus omniprésentes avec les investissements de plus importants des entreprises dans l’IA et le ML.

Avec l’essor des data lakes au début des années 2010, les organisations disposent désormais d’un moyen de regrouper toutes sortes de données provenant de diverses sources au même endroit.

Cependant, les data lakes ont leurs propres inconvénients. Les processus de contrôle qualité leur font souvent défaut. Ils ne prennent pas en charge les transactions ACID, et il n’est pas facile de les interroger directement.

Pour rendre les données utilisables, les entreprises devaient souvent créer des pipelines de données ETL (extraction, transformation, chargement) distincts afin de déplacer les données d’un data lake vers un entrepôt.

Delta Lake est apparu en 2016, ajoutant les transactions ACID, l’application de schémas et le voyage dans le temps aux data lakes, les rendant plus fiables pour l’interrogation directe et l’analytique.

Passé en open source en 2019, Delta Lake a joué un rôle clé dans la conception de l'architecture des data lakehouses, qui allie la flexibilité des data lakes à la performance des entrepôts de données.

Nombre d’organisations créent des data lakehouses en créant une couche de stockage Delta Lake par-dessus un data lake existant et en l’intégrant à un moteur de traitement de données tel que Spark ou Hive.

Les data lakehouses permettent la prise en charge de l’intégration des données et rationalisent l’architecture de données en éliminant la nécessité de gérer des data lakes et des entrepôts de données distincts, une approche pouvant conduire à des silos de données.

De leur côté, ces architectures rationalisées permettent de garantir que les data scientists, les ingénieurs de données et les autres utilisateurs peuvent accéder aux données dont ils ont besoin, quand ils en ont besoin. Les workloads d’IA et de ML sont des cas d’utilisation courants pour les data lakehouses optimisés par Delta Lake.

Les data lakes sont, en eux-mêmes, déjà utiles pour ces workloads, car ils peuvent héberger des quantités considérables de données structurées, non structurées et semi-structurées.

En ajoutant des fonctionnalités telles que les transactions ACID et l’application de schémas, Delta Lake contribue à garantir la qualité et la fiabilité des données d’entraînement, ce que les data lakes standard ne peuvent pas faire à un tel niveau.