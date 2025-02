Per molto tempo, le organizzazioni si sono affidate ai database relazionali (sviluppati negli anni '70) e ai data warehouse (sviluppati negli anni '80) per gestire i propri dati. Queste soluzioni sono ancora parti importanti degli ecosistemi IT di molte organizzazioni, ma sono state progettate principalmente per set di dati strutturati.

Con la crescita di Internet, e in particolare con l'arrivo dei social media e dei media in streaming, le organizzazioni si sono trovate a gestire molti più dati non strutturati, come testi e immagini in formato libero. A causa dei loro schemi rigorosi e dei costi di storage relativamente elevati, i data warehouse e i database relazionali erano poco adatti per gestire questo flusso di dati.

Nel 2011 James Dixon, allora Chief Technology Officer di Pentaho, coniò il termine "data lake". Dixon vedeva il lake come un'alternativa al data warehouse. Mentre i data warehouse forniscono dati preelaborati per casi d'uso aziendali mirati, Dixon ha immaginato un data lake come un grande insieme di dati conservati nel loro formato naturale. Gli utenti possono estrarre i dati di cui hanno bisogno da questo data lake e utilizzarli a loro piacimento.

Molti dei primi data lake sono stati costruiti su Apache Hadoop, un framework software open source per l'elaborazione distribuita di set di dati di grandi dimensioni. Questi primi data lake erano ospitati on-premise, ma questo è diventato rapidamente un problema via via che il volume dei dati continuava ad aumentare.

Il cloud computing ha offerto una soluzione: spostare i data lake verso servizi di cloud object storage più scalabili.

I data lake sono ancora in evoluzione oggi. Molte soluzioni di data lake offrono attualmente caratteristiche che vanno oltre lo storage economico e scalabile, come strumenti di sicurezza e governance dei dati, cataloghi di dati e gestione dei metadati

I data lake sono anche componenti fondamentali dei data lakehouse, una soluzione di gestione dei dati relativamente nuova che combina lo storage a basso costo di un data lake e le funzionalità di analytics ad alte prestazioni di un data warehouse. (Per maggiori informazioni, vedere "Data lake e data lakehouse a confronto").