Come un data lake, un data lakehouse utilizza cloud object storage a basso costo. Questo approccio consente loro di memorizzare i dati in quasi tutti i formati (strutturati, semi-strutturati e non strutturati).
Ciò che lo rende un lakehouse è il livello di gestione dei dati in stile warehouse costruito in cima a quello storage, che aggiunge la struttura dei dati e la governance per supportare i workload di analytics e di BI.
La maggior parte dei data lakehouse si basa su formati di tabella aperti (OTF), in genere:
- Apache Hudi (originariamente creato da Uber e progettato per il trattamento dei dati)
- Apache Iceberg (un formato ad alte prestazioni per tabelle analitiche di massa)
- Delta Lake (un'opzione popolare sviluppata da Databricks e resa open source nel 2019)
Queste tecnologie agiscono come strati di metadati che organizzano i file di dati aperti (come quelli memorizzati in Apache Parquet) in tabelle logiche simili a database.
Questo approccio consente alle organizzazioni di lavorare con i dati lacustri grezzi come se fossero dati di magazzino strutturati, supportando funzionalità chiave come il viaggio nel tempo, il controllo delle versioni, l'evoluzione degli schemi, la manipolazione dei dati e la coerenza transazionale (ACID).
("ACID" sta per atomicità, coerenza, isolamento e durabilità. Queste proprietà aiutano a garantire l'integrità e l'affidabilità delle transazioni di dati).
Grazie a questi livelli e funzionalità aggiuntivi, i lakehouse rendono i data lake più affidabili e intuitivi da utilizzare. Consentono inoltre agli utenti di eseguire query di linguaggio di query strutturato (SQL), workload di analytics e altri casi d'uso avanzati direttamente su un data lake, semplificando BI, AI, ML e data intelligence (DI).