Il primo livello in molte piattaforme dati è quello di data storage. Il tipo di storage dati utilizzato dipende dalle esigenze dell'organizzazione e può includere sia l'archiviazione on-premise che quella sul cloud. I comuni storage dei dati includono:

Data warehouse

Un data warehouse—o enterprise data warehouse (EDW)—aggrega i dati provenienti da diverse origini in un unico storage dei dati centrale e coerente per supportare l'analisi dei dati, il data mining, l'intelligenza artificiale (AI) e l'apprendimento automatico. I data warehouse vengono solitamente utilizzati per gestire dati strutturati con casi d'uso analitici definiti in modo chiaro.

Data lake

Un data lake è un ambiente di storage a basso costo, che in genere contiene petabyte di dati non elaborati. Un data lake può memorizzare dati strutturati e non strutturati in vari formati, consentendo ai ricercatori di lavorare più facilmente con un'ampia gamma di dati.

I data lake erano spesso originariamente creati nell'ecosistema Hadoop, un progetto open source basato su NoSQL. A partire dal 2015 circa, molti data lake hanno iniziato a spostarsi sul cloud. Una tipica architettura di data lake ora potrebbe memorizzare i dati su una piattaforma di object storage, come Amazon S3 di Amazon Web Services (AWS) e utilizzare uno strumento come Spark per elaborare i dati.

Data lakehouse

Un data lakehouse combina le capacità dei data warehouse e dei data lake in una singola soluzione di gestione dei dati.

Sebbene i data warehouse offrano migliori prestazioni rispetto ai data lake, spesso sono più costosi e la loro abilità di scalare è limitata. I data lake ottimizzano i costi di storage ma non dispongono della struttura necessaria per analisi utili.

Un data lakehouse è progettato per affrontare queste sfide utilizzando il cloud object storage per archiviare una gamma più ampia di tipi di dati, ovvero dati strutturati, dati non strutturati e dati semi strutturati. Un'architettura data lakehouse combina questo storage con strumenti per supportare sforzi di analytics avanzati, come business intelligence e machine learning.