Un data warehouse aggrega i dati provenienti da varie fonti in un data store ottimizzato per le query e l'analytics. In genere utilizza i processi di estrazione, trasformazione e caricamento (ETL) o estrazione, caricamento e trasformazione (ELT) per pulire, preparare e organizzare i dati per la business intelligence (BI) e per altri casi d'uso di analisi dei dati.
I sistemi di data warehousing possono integrare grandi quantità di dati da un'ampia gamma di sistemi sorgente, tra cui database operativi, sistemi transazionali e piattaforme di customer relationship management (CRM). Gli strumenti di analytics self-service consentono agli utenti aziendali di esplorare e analizzare questi dati per ottenere insight preziosi.
Il concetto di data warehouse è emerso negli anni '80 per integrare dati disparati in un formato uniforme ai fini dell'analisi. Con l'aumento del numero di nuove fonti di dati, come il World Wide Web, i social media e l'Internet of Things (IoT), è aumentata la domanda di maggiore capacità di storage e analisi più rapide.
I data warehouse sono configurati e ottimizzati per l'analisi quasi in tempo reale, il che significa che in genere non sono ideali per memorizzare enormi quantità di big data grezzi e non strutturati. Con l'aumento della quantità di dati in un warehouse, aumentano anche i costi e la complessità dello storage. Possono sorgere anche problemi di latenza e prestazioni.
In risposta, si sono evolute alternative più flessibili, tra cui data warehouse e data lakehouse cloud-native. Per ulteriori informazioni, consultare la sezione "data warehouse e data lakehouse".