Cos'è un data lakehouse?

Cos'è un data lakehouse?

Un data lakehouse è una moderna piattaforma dati che combina il data storage flessibile e a basso costo di un data lake con le funzionalità di analytics ad alte prestazioni e di gestione dei dati di un data warehouse.

Storicamente, le organizzazioni spesso utilizzavano data lake e data warehouse in parallelo. I data lake fungevano da sistema generico per dati grezzi strutturati, semi-strutturati e non strutturati, che venivano poi spostati utilizzando pipeline ETL/ELT in un data warehouse per casi d'uso a valle come business intelligence (BI) e analytics predittiva.

Tuttavia, coordinare questi sistemi per fornire dati affidabili può essere costoso sia in termini di tempo che di risorse, specialmente per l'analytics dei dati e i workload di AI. Il movimento dei dati può contribuire a stagnazione e ridondanza dei dati, mentre strati aggiuntivi di ETL/ELT possono introdurre rischi di qualità e coerenza dei dati. 

Le data lakehouse alleviano queste difficoltà portando le funzionalità di gestione e analytics dei dati tipiche dei data warehouse direttamente ai dati archiviati nei data lake. Questa disposizione aiuta i team dati a unificare la gestione dei dati, accelerare il trattamento dei dati, migliorare la qualità dei dati e supportare carichi di lavoro scalabili di intelligenza artificiale (AI) e machine learning (ML).

Come funziona un data lakehouse?

Come un data lake, un data lakehouse utilizza cloud object storage a basso costo. Questo approccio consente loro di memorizzare i dati in quasi tutti i formati (strutturati, semi-strutturati e non strutturati).

Ciò che lo rende un lakehouse è il livello di gestione dei dati in stile warehouse costruito in cima a quello storage, che aggiunge la struttura dei dati e la governance per supportare i workload di analytics e di BI.

La maggior parte dei data lakehouse si basa su formati di tabella aperti (OTF), in genere:

  • Apache Hudi (originariamente creato da Uber e progettato per il trattamento dei dati)
  • Apache Iceberg (un formato ad alte prestazioni per tabelle analitiche di massa)
  • Delta Lake (un'opzione popolare sviluppata da Databricks e resa open source nel 2019)

Queste tecnologie agiscono come strati di metadati che organizzano i file di dati aperti (come quelli memorizzati in Apache Parquet) in tabelle logiche simili a database.

Questo approccio consente alle organizzazioni di lavorare con i dati lacustri grezzi come se fossero dati di magazzino strutturati, supportando funzionalità chiave come il viaggio nel tempo, il controllo delle versioni, l'evoluzione degli schemi, la manipolazione dei dati e la coerenza transazionale (ACID).

("ACID" sta per atomicità, coerenza, isolamento e durabilità. Queste proprietà aiutano a garantire l'integrità e l'affidabilità delle transazioni di dati).

Grazie a questi livelli e funzionalità aggiuntivi, i lakehouse rendono i data lake più affidabili e intuitivi da utilizzare. Consentono inoltre agli utenti di eseguire query di linguaggio di query strutturato (SQL), workload di analytics e altri casi d'uso avanzati direttamente su un data lake, semplificando BI, AI, ML e data intelligence (DI).

Livelli dell'architettura del data lakehouse

L'architettura di un data lakehouse è in genere composta da cinque livelli:

  • Livello di acquisizione
  • Livello di archiviazione
  • Livello di metadati
  • Livello di API
  • Livello di consumo

Livello di acquisizione

Questo primo livello raccoglie i dati da una serie di fonti interne ed esterne e li prepara per storage e l'analisi. Il livello di ingestion può utilizzare connettori per integrarsi con fonti come sistemi di gestione di database, database NoSQL, applicazioni SaaS e feed di social media. L'ingestione può essere in batch o in tempo reale.

Livello di storage

Il livello di storage contiene set di dati strutturati, non strutturati e semi-strutturati in uno storage cloud a basso costo. I servizi comuni includono Amazon Simple Storage Service (Amazon S3), Microsoft Azure Blob Storage, Google Cloud Storage e IBM Cloud Object Storage

I dati sono tipicamente memorizzati in formati di storage a colonne ottimizzati per grandi workload analitici, come Apache Parquet o Optimized Row Columnar (ORC). Questo livello offre un beneficio importante del data lakehouse: la capacità di ospitare in modo conveniente praticamente tutti i tipi di dati.

Livello di metadati

Il livello dei metadati è un catalogo unificato che organizza e fornisce informazioni sui dati presenti nel lago. In genere è alimentato da formati di tabella aperti come Apache Iceberg, Apache Hudi o Delta Lake.

Le funzionalità di questo livello consentono transazioni ACID, viaggi nel tempo e applicazione degli schemi, che aiutano a migliorare la governance dei dati. Controlli di accesso solidi a questo livello sono fondamentali per le organizzazioni che gestiscono dati sensibili e preziosi per tracciare gli accessi e le modifiche dei dati per mantenere gli audit trail.1

Livello API

Application programming interface (API) fornisce accesso standardizzato ai dati e ai metadati di lakehouse. In particolare, questo livello offre ai consumatori di dati l'opportunità di utilizzare una gamma di analytics engine e framework di machine learning (come Tensorflow) per eseguire analytics avanzate e model training direttamente sui dati della lakehouse.

Livello di consumo

Lo strato finale dell'architettura del data lakehouse ospita app e strumenti che hanno accesso a tutti i dati memorizzati nel lake. Questo consente l'accesso ai dati agli utenti in tutta l'organizzazione, che possono utilizzare il lakehouse per eseguire attività come la creazione di dashboard di business intelligence, visualizzazioni dei dati e lavori di machine learning.

Che cos'è un'architettura medallion lakehouse?

L'architettura dei dati a medaglia (MDA) è un approccio di progettazione dei dati a più livelli e incentrato sulla qualità che garantisce che i dati lakehouse siano progressivamente puliti, convalidati e affidabili man mano che si spostano dall'ingestione al consumo. Può aiutare le organizzazioni a creare un data lakehouse scalabile e governato, adatto per il reporting aziendale quotidiano, nonché per i workload avanzati di analytics e machine learning.

Questa scalabilità è critico per mantenere la qualità man mano che i volumi di dati crescono. Secondo uno studio benchmark del gennaio 2025, l'87,4% delle organizzazioni ha riscontrato che i framework legacy di qualità dei dati diventano operativamente insostenibili oltre i sette petabyte.2

Il framework organizza i dati in tre livelli distinti durante tutto il ciclo di vita: bronzo, argento e oro, migliorando la qualità dei dati ad ogni fase.

  • Lo strato di bronzo è per i dati non elaborati. Conserva i dati originali esattamente come erano al momento della ricezione dai sistemi di origine. Ciò garantisce la presenza di un file sorgente sempre immutabile, eliminando il rischio di perdita o sovrascrittura dei dati durante la trasformazione.

  • Lo strato d'argento è il luogo in cui i dati vengono attivamente ripuliti, strutturati e arricchiti. Unifica i record in conflitto o duplicati in un'unica fonte di dati per analytics e reportistica operativa.

  • Lo strato d'oro contiene dati raffinati e pronti per il business, una singola fonte affidabile ideale per il processo decisionale strategico. Tutte le metriche aziendali critiche sono definite e pre-calcolate in questo livello.

Lo strato d'oro rafforza anche la prontezza dell'AI. Fornisce un flusso di dati AI-ready di alta qualità direttamente alle pipeline di ML, che può aiutare a migliorare l'accuratezza dei modelli e ridurre gli sforzi di preparazione dei dati.

Questa progressione strutturata dei dati garantisce che qualsiasi file di dati finale possa essere tracciato a ritroso, attraverso la sua trasformazione, fino al suo stato originale. Inoltre, offre costi più prevedibili e spesso più bassi, in quanto le risorse di data storage e di calcolo possono essere ottimizzate in base allo scopo di ciascun livello.

Quali sono le funzioni principali di una data lakehouse?

I data lakehouse offrono diverse caratteristiche chiave:

  • Formati di file aperti
  • Transazioni ACID
  • Dati unificati
  • Storage conveniente
  • Flessibilità di workload
  • Una solida governance dei dati
  • Scalabilità
  • Supporto per lo streaming in tempo reale

Formati di file aperti

I formati di archiviazione aperti e a colonna (o formati dati aperti) come Apache Parquet o ORC migliorano le prestazioni delle query e riducono i costi di archiviazione attraverso compressione efficiente, potatura delle colonne e predicate pushdown. Questi formati sono compatibili con i motori di analytics più diffusi che consentono alle organizzazioni di accedere agli stessi dati contemporaneamente. Questa funzionalità li aiuta a evitare il blocco da fornitore e a raggiungere l'interoperabilità tra i loro diversi strumenti.

Transazioni ACID

La maggior parte dei data lakehouse utilizza formati di tabelle aperte come Apache Iceberg, Apache Hudi e Delta Lake per fornire transazioni ACID. Queste transazioni, come inserimenti, aggiornamenti ed eliminazioni, garantiscono che i dati rimangano coerenti e affidabili durante e dopo le operazioni sui dati.

Dati unificati

Un singolo sistema di data storage crea una piattaforma centralizzata che può soddisfare tutte le esigenze di dati aziendali, riducendo i silos di dati e la duplicazione tra sistemi e team. Questa unificazione semplifica anche data observability, poiché il movimento dei dati attraverso vari pipeline e sistemi di dati viene significativamente ridotto.

Storage conveniente

I data lakehouse utilizzano il cloud object storage a basso costo, rendendoli più convenienti per grandi volumi di dati e workload rispetto ai data warehouse. L'architettura ibrida di un data lakehouse elimina anche la necessità di mantenere molteplici sistemi di data storage, spesso riducendo le spese operative.

Flessibilità dei workload

I data lakehouse possono affrontare diversi casi d'uso in tutto il ciclo di vita della gestione dei dati. Possono supportare workflow di business intelligence e visualizzazione basati sui dati, oppure progetti di data science più complessi (come l'addestramento di modelli di machine learning o l'analytics in tempo reale), tutto sugli stessi dati.

Solida governance dei dati e sicurezza

L'architettura data lakehouse mitiga i problemi di governance dei data lake con cataloghi di metadati centralizzati, applicazione degli schemi e strumenti integrati di gestione della qualità dei dati . La sicurezza dei dati può essere rafforzata mediante controlli di accesso, monitoraggio e audit, anonimizzazione dei dati, blockchain e persino calcolo quantistico.3,4

Scalabilità

I data lake ospitano storage e calcolo separati, consentendo ai team di dati di scalare separatamente. Questo disaccoppiamento offre anche la flessibilità di accedere agli stessi dati utilizzando diversi motori di calcolo o nodi per applicazioni differenti.

Supporto per lo streaming in tempo reale

I moderni data lakehouse sono progettati per le aziende e le tecnologie odierne. Molte fonti di dati contengono dati in streaming in tempo reale da fonti come i dispositivi Internet of Things. Il sistema lakehouse supporta queste fonti tramite l'ingestione in tempo reale dei dati e l'elaborazione incrementale.

In che modo una lakehouse si differenzia da un data warehouse o da un data lake?

Un data lakehouse non è semplicemente un data warehouse combinato con un data lake. È un'architettura unificata che unisce le parti migliori di entrambi in un'unica piattaforma.

Data warehouse: governance e prestazioni solide, minore flessibilità

I data warehouse sono costruiti per l'analytics. Offrono prestazioni eccellenti per le applicazioni di business intelligence e di reporting, archiviando e trasformando i dati aziendali.

Tuttavia, i data warehouse non possiedono la flessibilità dei data lake. Sono limitati dalla loro inefficienza e dai costi elevati, che aumentano con la crescita dei volumi di dati e dei workload. Il data warehousing richiede inoltre schemi rigorosi, il che significa che i dati devono essere conformi a un modello predefinito prima di essere inseriti nel repository dei dati (schema-on-write). A causa di questi vincoli, non funzionano bene con dati non strutturati o semi-strutturati, che sono fondamentali per i casi d'uso di AI e ML.

Data lake: maggiore flessibilità, governance e analytics deboli

I data lake consentono alle organizzazioni di memorizzare tutti i tipi di dati, strutturati, non strutturati e semi-strutturati, da fonti diverse in un'unica posizione. Utilizzano un approccio schema-on-read, quindi i modelli di dati vengono applicati quando i dati vengono utilizzati anziché quando vengono memorizzati. In genere hanno anche un data storage più scalabile e conveniente (spesso cloud object storage).

Tuttavia, non dispongono di strumenti per il trattamento dei dati e si affidano a funzionalità esterne per eseguire analytics. Le loro dimensioni e complessità possono richiedere anche l'esperienza di utenti più tecnici, come data scientist e data engineer. E, poiché la governance dei dati avviene a valle, i data lake possono essere soggetti a silo di dati, evolvendosi successivamente in paludi di dati (dove i dati di qualità sono inaccessibili a causa di una cattiva gestione).

Data lakehouse: flessibilità dei data lake con gestione e prestazioni simili a quelle di un warehouse

I data lakehouse sono progettati per risolvere le sfide dei data warehouse e dei data lake, riunendo i loro benefici in un'unica piattaforma. Utilizzano uno storage flessibile e a basso costo che supporta un'ampia gamma di tipi di dati, offrendo al contempo la gestione dei dati e funzionalità ad alte prestazioni per supportare workload BI, analytics e AI/ML in un'unica architettura.

Anson Kokkat, Principal Product Manager di IBM Software, sottolinea l'importanza delle lakehouse per i programmi di AI moderni:

"I modelli AI sono validi solo quanto la piattaforma di dati governata e scalabile su cui si basano." Il giusto data lakehouse diventa la base che trasforma i dati aziendali non elaborati in AI pronta per la produzione. Quando si basa su un'architettura aperta, ciò si traduce in flessibilità dell'AI: non si è bloccati in un unico motore, ma si può integrare con strumenti open source esistenti come Presto, Apache Spark, OpenSearch e Cassandra".

Un altro grande vantaggio: le organizzazioni possono spesso implementare data lakehouse insieme ai loro data lake e data warehouse esistenti senza un completo smantellamento e ricostruzione.

AI Academy

È la gestione dei dati il segreto dell’AI generativa?

Scopri perché i dati di alta qualità sono fondamentali per un uso efficace dell'AI generativa.

Domande frequenti su data lakehouses

Cos'è un data lakehouse aperto?

Oggi, molti fornitori offrono open data lakehouse. Questa architettura supporta dati aperti e formati aperti per memorizzare grandi quantità di dati in formati indipendenti dal produttore, come Parquet, Avro e Apache ORC. Può anche utilizzare Apache Iceberg per condividere grandi volumi di dati attraverso un formato di tabella aperto.

Quali sono i problemi comuni con i lakehouse?

Le sfide comuni dei data lakehouse includono implementazioni complesse (incluse migrazioni da piattaforme dati esistenti); bilanciare la governance dei dati e la sicurezza dei dati con l'accesso ai dati; e garantire che le prestazioni delle query rimangano ottimali man mano che i volumi dei dati crescono.

È possibile eseguire AI e ML sull'architettura data lakehouse?

Sì. I data lakehouse supportano i workload di AI e ML fornendo un accesso unificato a grandi volumi di dati diversificati con una solida governance. Utilizzano dati aperti e formati di tabelle aperte per prevenire il blocco da fornitore e consentire l'integrazione diretta tra il livello di archiviazione e i framework ML.

Un data lakehouse può sostituire completamente il mio data warehouse?

Può farlo, ma se deve farlo o no dipende dalle priorità dei dati. I lakehouse sono una scelta solida per memorizzare big data diversificati e supportare workload di AI/ML, mentre i warehouse rimangono utili per esigenze di dati più strutturate o ad alte prestazioni e bassa latenza . Molte organizzazioni utilizzano entrambe le piattaforme.

Come si può evitare che una lakehouse si trasformi in una "palude di dati"?

Evitare una palude di dati richiede solide pratiche di governance dei dati, qualità dei dati e sicurezza dei dati. Inoltre, un'architettura di storage a livelli (medaglione) mantiene i dati organizzati, e i formati di tabella aperta con transazioni ACID aiutano a garantire integrità, coerenza e affidabilità dei dati.

Techsplainers | Podcast | Cos'è una data lakehouse?

Ascolta: "Cos'è un data lakehouse?"

Segui Techsplainers: Spotify, Apple Podcast e Casted.

Autori

Alexandra Jonker

Staff Editor

IBM Think

Alice Gomstyn

Staff Writer

IBM Think

Rendering 3D di una spirale di diverse icone allineate, come una fotocamera, una manopola del volume e una lavagnetta
Soluzioni correlate
IBM StreamSets

Crea e gestisci pipeline di dati intelligenti in streaming attraverso un'interfaccia grafica intuitiva, che facilita la perfetta integrazione dei dati in ambienti ibridi e multicloud.

Esplora StreamSets
IBM watsonx.data™

Watsonx.data ti consente di scalare analytics e AI con tutti i tuoi dati, ovunque risiedano, attraverso uno storage dei dati aperto, ibrido e governato.

Scopri watsonx.data
Servizi di consulenza per dati e analytics

Sblocca il valore dei dati enterprise con IBM Consulting, creando un'organizzazione basata su insight in grado di generare vantaggi aziendali.

Esplora i servizi di analytics
Fai il passo successivo

Progetta una strategia dati che elimini i silo, riduca la complessità e migliori la qualità dei dati per esperienze eccezionali di clienti e dipendenti.

  1. Esplora le soluzioni di gestione dei dati
  2. Scopri watsonx.data
Note a piè di pagina

1 Data Lakehouse Architecture: The Evolution of Enterprise Data Management, Journal of Computer Science and Technology Studies, 23 giugno 2025. 

2 Data Lakehouse Implementation: A Journey From Traditional Data Warehouses, World Journal of Advanced Engineering Technology and Sciences, 26 febbraio 2025.

3 Data Lakehouse: A Survey and Experimental Study, Science Direct, 26 settembre 2024.

4 Minimizing Incident Response Time in Real-World Scenarios Using Quantum Computing, Springer Nature Link, 26 maggio 2023.