Che cos'è un data lake?

Che cos'è un data lake?

Un data lake è un repository progettato per memorizzare grandi volumi di dati non elaborati, tipicamente utilizzando Cloud Object Storage cloud a basso costo. Questo approccio consente l'ingestione e lo storage di dati strutturati, semi-strutturati e non strutturati all'interno di un'unica piattaforma.

I data lake sono nati per aiutare le organizzazioni a gestire il flusso di big data generato da app e servizi connessi a Internet alla fine degli anni 2000 e all'inizio degli anni 2010. A differenza dei database tradizionali e dei data warehouse, i data lake non applicano schemi rigidi e i data lake odierni utilizzano storage cloudaccessibile e scalabile, rendendoli ideali per grandi quantità di dati diversi.

I data lake sono ormai componenti fondamentali delle architetture dati di molte organizzazioni. Sono utilizzati come storage a basso costo e generico; archivi per dati vecchi o inutilizzati; aree di contenimento per i dati in entrata; o per memorizzare gli enormi set di dati non strutturati necessari per i workload di data science, Apprendimento automatico (ML), AI e big data analytics.

Nonostante l’evoluzione delle esigenze dei dati e delle architetture emergenti (come i data lakehouse), a flessibilità a basso costo dei data lake continua a rivelarsi vantaggiosa per le aziende che generano valore da grandi volumi di dati. Entro il 2030, il mercato globale dei data lake dovrebbe raggiungere i 45,8 miliardi di dollari, con una crescita del 23,9% rispetto al 2024.1

Perché i data lake sono importanti?

I volumi di dati aziendali stanno iniziando a sembrare illimitati come le stelle nel cielo notturno: sono vasti, illimitati e apparentemente infiniti.

I dati arrivano da sensori Internet of Things (IoT), feed dei social media, applicazioni aziendali e innumerevoli altre fonti. Senza un’area di archiviazione conveniente e scalabile, le organizzazioni rischiano un errore strategico: lasciare petabyte di dati sconosciuti e inutilizzati.

Questi dati potrebbero contenere le informazioni necessarie per sbloccare nuove fonti di entrate, aumentare la reale efficienza operativa o offrire esperienze clienti iper-personalizzate. Potrebbe anche essere centrale per garantire che gli investimenti in IA siano efficaci e redditizi: il 72% dei CEO arriva a dire che i dati proprietari sono la chiave per sbloccare il valore dell'AI generativa (gen AI).2

Tuttavia, trarre valore da questi dati richiede più di un semplice spazio per la loro archiviazione; richiede anche un facile accesso per l'uso collaborativo. Secondo uno studio del 2025 dell'IBM Institute for Business Value, l'82% dei chief data officer intervistati considera i dati sprecati se i dipendenti non possono accedervi per il processo decisionale.3

Come repository centralizzati, i data lake possono migliorare in modo significativo l'accessibilità dei dati precedentemente isolati. Di solito offrono accesso ai dati self-service, permettendo agli utenti non tecnici di accedere e analizzare set di dati affidabili provenienti da tutta l'azienda, migliorando la collaborazione e accelerando l'innovazione.

La storia e l'evoluzione dei data lake

Per molto tempo, le organizzazioni si sono affidate ai database relazionali (sviluppati negli anni '70) e ai data warehouse (sviluppati negli anni '80) per gestire i loro dati. Queste soluzioni sono ancora parti importanti degli ecosistemi IT di molte organizzazioni, ma sono state progettate principalmente per set di dati strutturati.

Con la crescita di internet, e soprattutto con l'arrivo dei social media e dello streaming, le organizzazioni si sono trovate a gestire enormi quantità di dati non strutturati, come testi e immagini di forma libera. I data warehouse e i database relazionali erano poco attrezzati per gestire questo afflusso di dati in tempo reale a causa dei loro schemi rigorosi e dei costi di storage relativamente elevati.

Nel 2011, James Dixon, allora Chief Technology Officer di Pentaho, coniò il termine “data lake". Dixon vedeva il data lake come un'alternativa al data warehouse. Mentre i data warehouse forniscono dati elaborati per casi d’uso aziendali specifici, Dixon immaginava un data lake come un ampio insieme di dati conservati nel loro formato naturale. Gli utenti potevano estrarre da questo data lake i dati di cui avevano bisogno e utilizzarli a loro piacimento.

Molti dei primi data lake sono stati costruiti sull'Hadoop Distributed File System (HDFS), un framework open source e uno dei componenti principali di Apache Hadoop. Questi primi data lake erano ospitati on-premise, ma questo è rapidamente diventato un problema man mano che il volume di dati continuava a aumentare. Il cloud computing ha offerto una soluzione: spostare i data lake verso servizi di object storage basati su cloud più scalabili.

I data lake sono ancora in evoluzione oggi. Molte soluzioni data lake ora offrono caratteristiche oltre lo storage economico e Scalabile, come sicurezza dei dati e strumenti di governance, data catalog e metadata management.

I data lake sono anche componenti fondamentali dei data lakehouse, una soluzione di gestione dei dati relativamente nuova che combina lo storage a basso costo di un data lake e le funzionalità di analytics ad alte prestazioni di un data warehouse.

Architettura del data lake

Un'architettura di data lake è organizzata in diversi livelli, ciascuno dei quali supporta una fase del ciclo di vita dei dati.

  • Livello di acquisizione
  • Livello di archiviazione
  • Livello del catalogo dati e dei metadati
  • Livello di elaborazione e analytics
  • Livello di sicurezza e governance
  • Livello di accesso

Livello di acquisizione

Il livello di ingestione collega lo storage centrale del data lake a varie fonti dati, come database, app, dispositivi Internet of Things (IoT) e sensori. La maggior parte dei data lake utilizza un processo di estrazione, caricamento, trasformazione (ELT) (piuttosto che di estrazione, trasformazione, caricamento (ETL)) in questo livello. Essi inseriscono dati nel loro stato originale da varie pipeline di dati, ma non li trasformano fino a quando non sono necessari. Questo approccio, che applica uno schema solo quando si accede ai dati, è chiamato "schema-on-read".

Livello di storage

Sebbene i primi data lake fossero basati su Apache Hadoop, il cuore di un data lake moderno è un servizio di cloud object storage, che può essere distribuito in ambienti on-premise, cloud privato e cloud pubblico. Le opzioni più comuni includono Amazon Simple Storage Service (Amazon S3), Microsoft Azure Blob Storage, Google Cloud Storage e IBM Cloud Object Storage.

Il cloud object storage consente alle organizzazioni di archiviare, nello stesso data store, diversi tipi di dati non elaborati. È inoltre generalmente più scalabile e conveniente rispetto allo storage on-premise. I fornitori di storage cloud consentono alle organizzazioni di creare cluster di archiviazione di grandi dimensioni (server che funzionano come un sistema unificato) su richiesta, pagando solo per lo spazio effettivamente utilizzato.

Catalogo dati e livello di metadati

Il data catalog e il livello di metadati rendono possibile agli utenti trovare e comprendere i dati all'interno del data lake. I cataloghi di dati fungono da inventario dettagliato dei dati. Utilizzano metadati (come autore, dati di creazione e dimensioni del file) e strumenti di gestione dei dati per aiutare gli utenti a scoprire, comprendere, gestire, curare e accedere facilmente ai dati.

Senza questo strato, i data lake possono deteriorarsi in data swamp, paludi disordinate dove dati di qualità non sono accessibili perché mancano di metadati, struttura e governance. I data swamp sono di fatto delle "discariche".

Livello di elaborazione e analytics

Poiché storage e calcolo sono separati in un'architettura di data lake, l'analisi e l'elaborazione dei dati vengono eseguite tramite integrazione con i motori di calcolo. A questo livello, i data lake supportano una vasta gamma di strumenti. Esempi comuni includono motori di elaborazione di big data come Apache Spark e Hive, framework di machine learning e deep learning come TensorFlow e librerie di analytics come Pandas.

Livello di sicurezza e governance

Soprattutto, il data lake storage deve essere sicuro, soprattutto quando contiene informazioni personali o sensibili su dipendenti e clienti. I livelli di sicurezza e governance includono funzionalità come soluzioni integrate di governance dei dati, crittografia e controlli di accesso tramite gestione delle identità e degli accessi (IAM). Queste soluzioni aiutano a proteggere da accessi non autorizzati e supportano la gestione dei dati sugli altri livelli.

Queste funzionalità aiutano inoltre le organizzazioni a rispettare i requisiti normativi previsti dalle leggi sulla privacy dei dati come il Regolamento generale sulla protezione dei dati (GDPR) e il US Health Insurance Portability and Accountability Act (HIPAA).

Livello di accesso

Un vantaggio chiave dei data lake è che forniscono accesso a dati grezzi e precedentemente inaccessibili. Il livello di accesso consente agli utenti di interrogare, esplorare ed estrarre insight dal lago. Gli utenti a valle includono tipicamente ingegneri dei dati e data scientist, oltre a utenti business con meno competenze tecniche.

Questo livello utilizza interfacce di query e application programming interface (API) per connettere gli utenti ai dati. Esempi comuni includono motori di query SQL come le API Presto e Spark.

Mixture of Experts | 12 dicembre, episodio 85

Decoding AI: Weekly News Roundup

Unisciti al nostro gruppo di livello mondiale di ingegneri, ricercatori, leader di prodotto e molti altri mentre si fanno strada nell'enorme quantità di informazioni sull'AI per darti le ultime notizie e gli ultimi insight sull'argomento.

Vantaggi dei data lake

I data lake aiutano le organizzazioni a ottenere più valore dai loro dati rendendoli più facili da condividere e utilizzare. Più specificamente, i data lake offrono:

  • Raccolta e inserimento dei dati flessibili e facili
  • Ottimizzazione dei costi e delle risorse
  • Scalabilità e prestazioni
  • Un processo decisionale più rapido e collaborativo
Raccolta e inserimento dei dati flessibili e facili

I data lake possono assorbire e memorizzare dati in una vasta gamma di formati, inclusi set di dati strutturati, semi-strutturati e non strutturati. Inoltre, supportano diversi metodi di ingestione, sia che si tratti di upload in batch che di dati in streaming in tempo reale. Questa flessibilità consente alle organizzazioni di raccogliere dati da diverse fonti (come dispositivi IoT, feed di social media o sistemi interni) senza la necessità di trasformazioni complesse o soluzioni di storage separate.

Ottimizzazione dei costi e delle risorse

Con i data lake, i dati possono essere ingaggiati e archiviati nel loro formato grezzo e nativo, evitando così costosi processi di pulizia e trasformazione iniziali. Il cloud object storage è generalmente più conveniente rispetto alle alternative on-premise, e l'uso di tecnologie open source per l'elaborazione riduce ulteriormente i costi. Questi risparmi consentono alle organizzazioni di ottimizzare i processi di gestione dei dati, allocando budget e risorse in modo più efficace tra le iniziative.

Scalabilità e prestazioni

I data lake separano le risorse di elaborazione e lo storage e spesso utilizzano servizi di cloud storage, rendendo più facile scalare la capacità e le risorse di calcolo rispetto a molte altre soluzioni di data storage. Questa architettura permette loro di gestire una crescita massiccia dei dati (fondamentale per workload di AI e machine learning (ML)) senza degradazioni delle prestazioni.

Un processo decisionale più rapido e collaborativo

I data lake possono aiutare a ridurre i silos di dati riunendo le informazioni in una singola fonte affidabile, accessibile in tutta l'organizzazione, invece di diffondersi tra le unità di business. Analisti e data scientist non devono più perdere tempo ad accedere direttamente a più fonti e possono invece accedere, interrogare e utilizzare rapidamente i dati di cui necessitano.

Questo repository centralizzato aiuta a velocizzare la preparazione dei dati, incoraggia il riutilizzo e supporta un processo decisionale più collaborativo basato sui dati. Grazie a questi vantaggi, le organizzazioni possono anche sperimentare un'accelerazione dell'innovazione e degli sforzi di ricerca e sviluppo.

Data warehouse vs. data lake vs. data lakehouse

Data lake, data warehouse e data lakehouse sono tutti tipi distinti di soluzioni di data storage. Tuttavia, le loro differenze si completano a vicenda e spesso vengono usate insieme in un'architettura dati integrata per supportare vari casi d'uso.

Data lake e data warehouse a confronto

Come un data lake, un data warehouse aggrega dati da fonti eterogenee in un memorizzare centrale. La differenza chiave è che i data warehouse di solito puliscono e preparano i dati prima dell'ingestione, così che siano immediatamente pronti per gli analytics.

I warehouse sono ottimizzati per i dati strutturati e strettamente integrati con motori di analytics, dashboard di business intelligence (BI) e strumenti di visualizzazione dei dati. Di conseguenza, i magazzini tendono a offrire prestazioni elevate ma a un costo più elevato e con meno flessibilità rispetto ai data lake. Le organizzazioni in genere utilizzano i data warehouse per specifici progetti di analytics, mentre si affidano ai data lake per data storage su larga scala e multipurpose. 

Data lake e data lakehouse a confronto

Un data lakehouse è una soluzione di gestione dei dati che combina il data storage flessibile e a basso costo di un data lake con le funzionalità di analytics ad alte prestazioni di un data warehouse. Come un data lake, un data lakehouse può memorizzare dati in qualsiasi formato a basso costo. Tuttavia, fornisce anche un'infrastruttura di analytics in stile warehouse oltre al data lake storage nel cloud. 

Le organizzazioni possono utilizzare lakehouse per supportare numerosi workload, inclusi AI, ML, BI e real-time analytics. I lakehouse possono anche fungere da percorso di modernizzazione per le architetture dati: le organizzazioni possono inserire li accanto ai lake e ai warehouse esistenti senza dover ricorrere a costosi interventi di smantellamento e sostituzione.

Casi d'uso di data lake

Le organizzazioni possono utilizzare i data lake per una vasta gamma di motivi in tutti i settori. Tra i più comuni:

  • Storage multiuso
  • Backup dei dati e archiviazione
  • Analytics avanzata e AI
  • Integrazione dei dati

Storage universale

Per molte organizzazioni, i data lake funzionano come soluzioni di storage universali per grandi volumi di dati. Invece di spendere tempo e risorse per trasformare i dati prima dell’ingestione, le organizzazioni possono memorizzare i dati grezzi in uno object storage scalabile, in grado di ospitare facilmente petabyte di dati in pressoché qualsiasi formato. Gli utenti possono interrogare i dati direttamente dal lake tramite analytics engine oppure spostarli in un data warehouse o in un’altra piattaforma di dati secondo le necessità.

Le organizzazioni possono anche utilizzare i data lake per memorizzare dati "just-in-case" con casi d'uso non ancora definiti. Poiché l'object storage è relativamente economica e scalabile, le organizzazioni non devono preoccuparsi di spendere troppo per i dati di cui non hanno ancora bisogno.

Backup e archiviazione dei dati

L'elevata capacità di storage e i costi di storage relativamente bassi rendono i data lake una componente comune delle strategie di backup e disaster recovery per i dati critici. I data lake vengono spesso utilizzati anche per archiviare dati freddi o inattivi a costi più bassi. Questo approccio è utile per archiviare dati storici e mantenere registrazioni ai fini degli audit di conformità, delle verifiche normative o dei futuri casi d’uso analitici.

Ad esempio, il settore bancario e finanziario genera dati di transazioni ad alta velocità provenienti da mercati azionari, carte di credito e altre attività finanziarie. Deve inoltre conservare documenti legali e altri registri per soddisfare i requisiti normativi e di audit. Le architetture data lake sono particolarmente adatte per memorizzare questi formati di dati misti e preservare dati storici e legacy per facilitare le interrogazioni.

Analytics e AI avanzati

Secondo lo Studio CEO del 2025 di IBM, il 61% dei CEO di alto livello concorda sul fatto che disporre degli strumenti di AI generativa più avanzati dia all'organizzazione un vantaggio competitivo. I data lake svolgono un ruolo importante nei workload di AI, ML e big data analytics, inclusa la costruzione di modelli predittivi e l'addestramento di sistemi di AI generativa.

Questi progetti richiedono l'accesso a grandi e diversificati set di dati strutturati, non strutturati e semi-strutturati. L'architettura dei data lake fornisce capacità di storage e integrazione economicamente scalabili con i framework di elaborazione per supportare queste esigenze.

Integrazione dei dati

Secondo dati di benchmarking dell'IBM Institute for Business Value, il 64% delle organizzazioni riferisce che abbattere le barriere organizzative alla condivisione dei dati è una delle loro maggiori sfide legate alle persone. Le organizzazioni non possono trarre pieno beneficio dai loro dati se questi sono isolati e di difficile accesso.

I data lake possono aiutare a supportare le iniziative di integrazione dei dati fornendo un repository centralizzato per i dati provenienti da più fonti. Consolidando dati diversi in un unico ambiente, creano una solida base per l'armonizzazione e la trasformazione a valle.

Le sfide dei data lake

Sebbene i data lake offrano scalabilità, flessibilità e vantaggi di costo, ci sono tre sfide principali che le organizzazioni dovrebbero considerare.

  • Qualità dei dati: Poiché i data lake non applicano uno schema rigido e accettano molti tipi di dati diversi da molte fonti, possono avere difficoltà con la governance dei dati e la qualità dei dati. Senza una gestione adeguata, i data lake possono facilmente trasformarsi in paludi di dati.

  • Sicurezza dei dati: i data lake memorizzano grandi volumi di dati diversi provenienti da numerose fonti diverse. Può essere difficile assicurarsi che tutti questi dati non vengano consultati, utilizzati o modificati senza autorizzazione e che siano pienamente conformi alle normative sulla privacy dei dati.

  • Prestazioni: i data lake non dispongono di strumenti di elaborazione e query integrati come fanno molti warehouse e lakehouse. Le prestazioni delle query e dell'analytics possono calare man mano che il volume di dati inseriti in un data lake aumenta, specialmente se i dati non sono ottimizzati per il recupero.
Techsplainers | Podcast | Cos'è un data lake?

Ascolta: "Cos'è un data lake?"

Segui Techsplainers: Spotify, Apple Podcast e Casted.

Domande frequenti sui data lake

Come posso prevenire un data swamp?

Per evitare i data swamp è necessario adottare pratiche solide di governance, qualità e sicurezza dei dati fin dal primo giorno. Definire e far rispettare gli standard dei dati, la gestione e la documentazione dei metadati e i controlli di accesso aiuterà a garantire che i data lake rimangano organizzati, utili e sicuri.

Dinesh Nirmal, Senior Vice President di IBM Software, sottolinea che questi principi sono particolarmente critici nella preparazione di data lake per supportare l'AI generativa:

"Anche se i dati sono non strutturati, è importante applicare la stessa governance e le stesse misure di sicurezza utilizzate per i dati strutturati. C’è un’enorme opportunità: l’AI generativa può avere successo solo se forniamo ai modelli dati regolamentati e affidabili".

Mi serve davvero un data lake?

Potrebbe non essere necessario un data lake a meno che non si gestiscano grandi volumi di dati semi-strutturati e di dati non strutturati per AI, machine learning o data science. I data lake offrono storage cloud conveniente e scalabile, con capacità di calcolo separate. In alternativa, un data lakehouse abbina questa scalabilità alle funzionalità di analytics integrate di un data warehouse.

I data lake sono sicuri?

I data lake non sono sicuri per impostazione predefinita e possono essere gli obiettivi principali delle minacce alla sicurezza perché sono repository centralizzati di grandi volumi di dati (alcuni dei quali informazioni sensibili). I data lake sicuri utilizzano crittografia dei dati, controlli di accesso e protezioni di rete per proteggere i set di dati da accessi non autorizzati.

Si può eseguire il machine learning direttamente su un data lake?

Sì, i data lake sono adatti per il machine learning perché memorizzano gli enormi volumi di dati grezzi e diversificati necessari per l'addestramento, la convalida, l ottimizzazione e la distribuzione dei modelli ML. Utilizzando motori di elaborazione dei dati e analytics (come Apache Spark), i team di data science possono accedere e preparare set di dati grezzi direttamente all'interno del data lake per costruire e perfezionare i loro modelli.

Autori

Alexandra Jonker

Staff Editor

IBM Think

Matthew Kosinski

Staff Editor

IBM Think

Soluzioni correlate
IBM watsonx.data

Ottieni il massimo valore dai tuoi dati, ovunque si trovino, con il data lakehouse ibrido e aperto per AI e analytics.

Scopri watsonx.data
Soluzioni di data lake

Risolvi le attuali sfide legate ai dati con un'architettura lakehouse. Connettiti ai dati in pochi minuti, ottieni rapidamente insight affidabili e riduci i costi del data warehouse.

Esplora le soluzioni data lake di IBM
Servizi di consulenza per dati e analytics

Sblocca il valore dei dati aziendali con IBM Consulting e crea un'organizzazione basata su insight in grado di generare vantaggi aziendali.

Esplora i servizi di analytics
Fasi successive

Per prosperare, le aziende devono utilizzare i dati per fidelizzare i clienti, automatizzare i processi aziendali e innovare con soluzioni basate sull'AI.

  1. Esplora le soluzioni di analytics
  2. Esplora i servizi di analytics
Note a piè di pagina

1 Data lakes, Global Industry Analysts, 1° ottobre 2025.

2 2025 CEO Study: 5 mindshifts to supercharge business growth: Move from productivity to performance with agentic AI, IBM Institute for Business Value, maggio 2025.

3 The 2025 CDO Study: The AI multiplier effect, IBM Institute for Business Value, 12 novembre 2025.