Cos'è un data warehouse?

By Jim Holdsworth , Matthew Kosinski , Alexandra Jonker

Cos'è un data warehouse?

Un data warehouse aggrega i dati provenienti da varie fonti in un data store ottimizzato per le query e l'analytics. In genere utilizza i processi di estrazione, trasformazione e caricamento (ETL) o estrazione, caricamento e trasformazione (ELT) per pulire, preparare e organizzare i dati per la business intelligence (BI) e per altri casi d'uso di analisi dei dati.

I sistemi di data warehousing possono integrare grandi quantità di dati da un'ampia gamma di sistemi sorgente, tra cui database operativi, sistemi transazionali e piattaforme di customer relationship management (CRM). Gli strumenti di analytics self-service consentono agli utenti aziendali di esplorare e analizzare questi dati per ottenere insight preziosi.

Il concetto di data warehouse è emerso negli anni '80 per integrare dati disparati in un formato uniforme ai fini dell'analisi. Con l'aumento del numero di nuove fonti di dati, come il World Wide Web, i social media e l'Internet of Things (IoT), è aumentata la domanda di maggiore capacità di storage e analisi più rapide.

I data warehouse sono configurati e ottimizzati per l'analisi quasi in tempo reale, il che significa che in genere non sono ideali per memorizzare enormi quantità di big data grezzi e non strutturati. Con l'aumento della quantità di dati in un warehouse, aumentano anche i costi e la complessità dello storage. Possono sorgere anche problemi di latenza e prestazioni.

In risposta, si sono evolute alternative più flessibili, tra cui data warehouse e data lakehouse cloud-native. Per ulteriori informazioni, consultare la sezione "data warehouse e data lakehouse".

Come funziona il data warehousing?

I data warehouse utilizzano spesso un'architettura a tre livelli, progettata per trasformare i dati per l'analytics:

Livello inferiore
Livello intermedio
Livello superiore

Livello inferiore

I dati fluiscono da più sistemi di origine in un server di data warehouse, dove vengono memorizzati. Tradizionalmente, i dati attraversano un processo di integrazione dei dati di estrazione, trasformazione, caricamento (ETL), che utilizza l'automazione per pulire e organizzare i dati prima di caricarli nel data warehouse.

Poiché i data warehouse conservano principalmente dati strutturati, la trasformazione dei dati avviene prima del caricamento dei dati. Alcuni data warehouse moderni utilizzano invece processi di estrazione, caricamento, trasformazione (ELT) che caricano i dati nel data warehouse prima di trasformarli. Questo metodo è comunemente usato nei data lake, che possono memorizzare dati non strutturati e semistrutturati senza richiedere formati standardizzati.

Livello intermedio

Questo livello contiene l'analytics engine, spesso alimentato da un sistema di elaborazione analitica online (OLAP). Sebbene i database relazionali tradizionali, inclusi molti data warehouse, possano memorizzare dati multidimensionali (ad esempio, i dati di vendita possono avere diverse dimensioni come luogo, tempo e prodotto), non sono ottimizzati per le query multidimensionali.

I sistemi OLAP sono progettati per query complesse ad alta velocità e analisi multidimensionali su grandi volumi di dati. Utilizzano i "cubi" (strutture di dati multidimensionali basate su array) per consentire analisi più rapide e flessibili su più dimensioni. I casi d'uso più comuni includono data mining, analisi finanziaria, budget e pianificazione delle previsioni.

Diagramma che mostra la struttura di un cubo OLAP

Un cubo OLAP con dimensioni per prodotti, regioni di vendita e trimestri

OLAP e OLTP: i sistemi di elaborazione delle transazioni online (OLTP) acquisiscono e aggiornano grandi volumi di transazioni in tempo reale da parte di molti utenti. Al contrario, i sistemi OLAP analizzano i dati che sono già stati acquisiti.

Esistono tre tipi di OLAP che è possibile utilizzare in un data warehouse:

Elaborazione analitica multidimensionale online (MOLAP): funziona direttamente con un cubo OLAP multidimensionale ed è in genere il tipo di analisi multidimensionale dei dati più veloce e pratico.
Elaborazione analitica relazionale online (ROLAP): esegue un'analisi multidimensionale dei dati che opera direttamente sui dati nelle tabelle relazionali, senza prima riorganizzarli in un cubo.
Elaborazione analitica ibrida online (HOLAP): funzioni per creare la divisione ottimale del lavoro tra database relazionali e multidimensionali all'interno di un'unica architettura OLAP.

Livello superiore

L'ultimo livello di un data warehouse fornisce un'interfaccia utente front-end per report, dashboard e analisi ad hoc dei dati aziendali. Questi strumenti di business intelligence self-service consentono agli utenti di generare report basati su dati storici, visualizzare le tendenze e identificare i colli di bottiglia del workflow senza che siano necessarie competenze tecniche di ingegneria dei dati.

Le ultime notizie nel campo della tecnologia, supportate dalle analisi degli esperti

Resta al passo con le tendenze più importanti e interessanti del settore relative ad AI, automazione, dati e oltre con la newsletter Think. Leggi l' Informativa sulla privacy IBM.

Modelli di implementazione dei data warehouse: on-premise, cloud e ibrido

I data warehouse si sono evoluti in modo significativo, passando da sistemi esclusivamente on-premise a modelli cloud e ibridi flessibili.

Data warehouse tradizionali

Storicamente, i data warehouse venivano ospitati on-premise utilizzando hardware di largo consumo. Questi sistemi erano organizzati in architetture Massively Parallel Processing (MPP) o Symmetric Multiprocessing (SMP). Venivano forniti anche come dispositivi autonomi. Queste implementazioni richiedono investimenti significativi. Tuttavia, potrebbero rappresentare una scelta valida per le organizzazioni che operano in settori con rigidi standard a livello di conformità, sicurezza dei dati o privacy dei dati.

Data warehouse su cloud

Molti data warehouse sono attualmente progettati per funzionare nel cloud. Offrono i benefici del cloud computing, come il data storage su scala petabyte, elaborazioni e storage altamente scalabili e tariffe pay-as-you-go. I data warehouse basati su cloud vengono generalmente forniti come soluzione Software as a Service (SaaS) completamente gestita, eliminando la necessità di investimenti iniziali in componenti hardware o software.

Questo tipo di servizio riduce anche le risorse necessarie per la gestione dell'infrastruttura affinché le organizzazioni possano concentrarsi sull'analytics e gli insight. I data warehouse basati su cloud sono diventati sempre più popolari poiché le organizzazioni cercano l'agilità necessaria per scalare e ridurre l'impronta dei data center on-premise e la spesa per le infrastrutture legacy.

Cinque falsi miti sui data warehouse nel cloud

Approcci ibridi

Alcune organizzazioni potrebbero adottare un modello ibrido, che combina il meglio dei data warehouse on-premise e cloud. Questo approccio consente loro di utilizzare al meglio la scalabilità e la flessibilità del cloud mantenendo il controllo dei workload sensibili che devono rimanere on-premise.

Quali sono i tre schemi in un data warehouse?

In un data warehouse, gli schemi definiscono come sono organizzati i dati. Esistono tre strutture di schemi comuni: lo schema a stella, lo schema a fiocco di neve e lo schema a galassia (chiamato anche schema delle costellazioni dei fatti).

Questi schemi sono tutti modelli di dati dimensionali, progettati per ottimizzare la velocità di recupero dei dati nei sistemi OLAP. I modelli dimensionali possono aumentare la ridondanza, facilitando l'individuazione delle informazioni per la segnalazione e il recupero e migliorando le prestazioni delle query.

Questi schemi contengono tabelle dei fatti e tabelle delle dimensioni, definite di seguito:

Tabelle dei fatti: memorizzano dati quantitativi come i prodotti venduti o gli importi dei ricavi
Tabelle delle dimensioni: memorizzano informazioni contestuali e descrittive per i fatti, come le date di vendita e le categorie di prodotto

Schema a stella

Gli schemi a stella sono costituiti da un'unica tabella informativa centrale circondata da tabelle delle dimensioni. In un diagramma, la tabella dei fatti appare al centro di un motivo a stella. Lo schema a stella è considerato il tipo di schema più semplice e comune, in quanto offre agli utenti velocità di query più elevate.

Esempio di uno schema a stella

Schema a fiocco di neve

Uno schema snowflake pone una tabella centrale dei fatti al centro, con numerose tabelle delle dimensioni normalizzate che si irradiano verso l'esterno e quelle dimensioni si estendono ulteriormente ad altre tabelle delle dimensioni attraverso relazioni molti-a-uno. Questo modello più complesso e ramificato può assomigliare a un fiocco di neve. Gli schemi snowflake hanno bassi livelli di ridondanza dei dati, ma ciò comporta un rallentamento delle prestazioni delle query.

Esempio di uno schema a fiocco di neve

Schema a galassia

Proprio come la nostra galassia contiene molte stelle, uno schema a galassia contiene molti schemi a stella che condividono tabelle delle dimensioni normalizzate per evitare la ridondanza. Lo schema a galassia è più adatto per i data warehouse altamente complessi, tuttavia gli utenti potrebbero ottenere prestazioni inferiori.

Esempio di schema a galassia

Componenti dell'architettura del data warehouse

Una tipica architettura di data warehouse ha diversi componenti che interagiscono per memorizzare, gestire, elaborare e fornire dati per l'analytics.

Strumenti ETL/ELT
Livello di API
Livello dati (database centrale)
Metadati
Sandbox
Strumenti di accesso

Strumenti ETL/ELT

Gli strumenti ETL estraggono i dati dai sistemi di origine, li trasformano in un'area di staging e li caricano nel data warehouse. Nell'approccio ELT, i dati vengono trasformati dopo essere stati caricati nel data warehouse. Uno strumento di framework per l'elaborazione dei dati, come Apache Spark, può aiutare a gestire la trasformazione dei dati.

ELT ed ETL: qual è la differenza?

Livello di API

Un livello di connettività per le application programming interface (API) può aiutare il data warehouse a estrarre dati e a integrarli con i sistemi operativi. Le API possono anche fornire l'accesso a strumenti di visualizzazione e analytics avanzati.

Livello dati (o database centrale)

Il livello dati (o database centrale) è il cuore del data warehouse. Qui il sistema integra e memorizza dati provenienti da varie fonti, come applicazioni, elenchi di e-mail, siti web o altri database. Le pipeline di dati ETL o ELT supportano questo livello e un sistema di gestione di database relazionali (RDBMS) o una piattaforma di data warehouse nel cloud lo alimenta. Le funzionalità di sicurezza e governance dei dati possono partizionare i dati in modo che gli utenti accedano solo a ciò di cui hanno bisogno.

I metadati sono dati sui dati, che descrivono i dati memorizzati in un sistema per renderli ricercabili e utilizzabili ai fini dell'analytics. Includono metadati tecnici (come la struttura della tabella e il tipo di dati) e metadati descrittivi (come l'autore, la data di creazione o la dimensione del file). I metadati sono fondamentali per un'efficace governance e gestione dei dati.

Sandbox

Alcuni data warehouse forniscono una sandbox, che è un ambiente di test protetto contenente una copia dei dati di produzione e gli strumenti di analisi pertinenti. Gli analisti dei dati e i data scientist possono testare nuove tecniche di analytics nella sandbox senza influire sulle operazioni del data warehouse.

Strumenti di accesso

Gli strumenti di accesso si collegano ai data warehouse e forniscono un front-end accessibile. Gli utenti business e gli analisti di dati possono utilizzare dashboard, app e strumenti di visualizzazione dei dati per interagire con i dati ed estrarre insight. Esempi di questi strumenti includono Tableau, Looker e Qlik.

AI Academy

È la gestione dei dati il segreto dell’AI generativa?

Scopri perché i dati di alta qualità sono fondamentali per un uso efficace dell'AI generativa.

Vai all'episodio

Tipi di data warehouse

Esistono tre tipi principali di data warehouse:

Data warehouse enterprise (EDW)
Data store operativi (ODS)
data mart

Data warehouse enterprise (EDW)

Un data warehouse enterprise (EDW) è un data warehouse che serve l'intera azienda. Funge da repository centralizzato dei dati storici per tutti i team e tutte le aree tematiche. Un ambiente di data warehousing enterprise può anche includere un data store operativo (ODS) e data mart specifici per ogni reparto.

Data store operativo (ODS)

Un data store operativo (ODS) contiene lo snapshot più recente dei dati operativi. Un ODS viene aggiornato frequentemente e consente il rapido accesso ai dati quasi in tempo reale. Le organizzazioni spesso utilizzano un ODS per prendere decisioni operative quotidiane e per effettuare analisi in tempo reale. Può anche essere una fonte di dati per un EDW o per altri sistemi di dati.

Data mart

Un data mart è un sottoinsieme di un data warehouse esistente (o di altre fonti di dati) e contiene dati personalizzati per una linea di business o un reparto specifico anziché per l'intera azienda. Ad esempio, un'azienda può avere un data mart che si allinea con il reparto marketing. Questi utenti possono accedere a insight più mirati per la segmentazione dei clienti e le prestazioni delle campagne, senza navigare nel più ampio set di dati aziendali.

Data warehouse e altri tipi di data warehouse

I termini data warehouse, database, data lake e data lakehouse vengono talvolta utilizzati in modo intercambiabile, tuttavia esistono differenze importanti.

Data warehouse, data lake e data lakehouse

Data warehouse e database

Un database è come uno schedario costruito principalmente per l'acquisizione automatica dei dati e l'elaborazione rapida delle transazioni. Solitamente funge da storage dei dati per un'applicazione specifica. I data warehouse memorizzano i dati provenienti da un numero qualsiasi di applicazioni in un'organizzazione e sono ottimizzati per l'analytics predittiva e altre analisi avanzate.

Data warehouse e data lake

Un data lake è una soluzione di storage a basso costo per enormi quantità di dati non elaborati che utilizza un approccio basato su schema in lettura anziché uno schema predefinito. I data lake memorizzano spesso dati non strutturati e dati semistrutturati come documenti, video, log IoT e post sui social.

Possono essere costruiti su piattaforme di big data come Apache Hadoop o servizi di cloud object storage come Amazon Simple storage Service (Amazon S3). In genere non puliscono, convalidano o normalizzano i dati per l'analytics, come invece fa un data warehouse.

Data lakehouse e data warehouse

Un data lakehouse combina i punti di forza dei data warehouse e dei data lake, offrendo la flessibilità a basso costo di un lake insieme alle elevate prestazioni di un warehouse. Combinando le caratteristiche chiave di laghi e magazzini in un'unica piattaforma di dati, i lakehouse possono accelerare l'elaborazione di grandi volumi di dati strutturati, non strutturati e in tempo reale.

Supportano inoltre in modo più efficiente i workload di machine learning, data science e intelligenza artificiale (AI). I data lakehouse potrebbero anche aggiungere caratteristiche come metadati condivisi e motori structured query language (SQL) distribuiti.

I benefici del data warehouse

I data warehouse rendono disponibili insight e informazioni agli utenti di un'organizzazione, offrendo molti benefici come:

Qualità dei dati migliorata
Supporto per l'AI e il machine learning
Supporto decisionale migliorato

Qualità dei dati migliorata

Tramite i processi ELT o ETL, i data warehouse preparano i dati in entrata prima che vengano memorizzati nel data warehouse. Questa preparazione include metodi di qualità dei dati come pulizia dei dati, standardizzazione e deduplicazione. Solide politiche e pratiche di governance dei dati possono anche aiutare a garantire l'accuratezza e l'integrità dei dati per tutti gli utenti.

Integrando dati di alta qualità in un unico data store, le organizzazioni creano una singola fonte affidabile e completa che aiuta a eliminare i silos di dati. Questo repository centrale consente agli utenti aziendali di accedere con sicurezza a tutti i dati pertinenti dell'organizzazione e di utilizzarli per il processo decisionale. Un data warehouse di livello aziendale potrebbe includere anche il supporto per formati open source come Apache Iceberg, Parquet e CSV, consentendo un ulteriore accesso ai dati e la condivisione dei dati in tutta l'azienda.

Supporto per AI e machine learning

I moderni data warehouse possono supportare diversi workflow di AI e machine learning, fornendo dati puliti e affidabili. I data scientist Possono utilizzare data warehouse puliti e convalidati per costruire modelli di AI generativa proprietari o mettere a punto i modelli esistenti per soddisfare meglio le specifiche esigenze aziendali.

Un data warehouse pronto per l'AI dovrebbe essere in grado di raccogliere, pulire, organizzare e strutturare i dati e facilitare il flusso di dati verso le piattaforme di AI e machine learning. Tuttavia, non tutti i data warehouse moderni sono ottimizzati per i workload dell'AI. I data lakehouse stanno diventando sempre più le piattaforme dati preferite per le infrastrutture di AI.

Supporto decisionale migliorato

Un data warehouse centralizza e pulisce i dati provenienti da diverse fonti per creare una singola fonte affidabile, offrendo alle organizzazioni una visione completa e affidabile dei dati aziendali. Gli strumenti di BI self-service consentono agli utenti di tutta l'azienda di accedere ed eseguire query analitiche su questi dati aggregati.

In questo modo, i data warehouse consentono agli utenti business con qualsiasi livello di competenza tecnica di scoprire e riferire su temi, tendenze e aggregazioni. I leader aziendali possono utilizzare questi insight per prendere decisioni e previsioni più informate, basate su prove concrete, praticamente in ogni area dell'organizzazione, dai processi aziendali alla gestione finanziaria e dell'inventario.

Casi d'uso dei data warehouse specifici di settore

I data warehouse possono essere utilizzati per scopi specifici del settore, ad esempio:

Pubblica amministrazione

Le funzionalità analitiche di un data warehouse possono aiutare i governi a comprendere meglio fenomeni complessi come la criminalità, le tendenze demografiche e i modelli di traffico.

Settore sanitario

La capacità di centralizzare e analizzare dati disparati, come codici di fatturazione e diagnostica, dati demografici dei pazienti, farmaci e risultati di test, può offrire agli operatori sanitari una visione più approfondita. Questi insight li aiutano a comprendere i risultati dei pazienti, migliorare l'efficienza operativa e altro ancora.

Turismo e ospitalità

Le organizzazioni possono utilizzare i dati storici relativi alle scelte di viaggio e alloggio per indirizzare con maggiore precisione pubblicità e promozioni ai propri clienti.

Produzione industriale

Le grandi aziende manifatturiere che generano enormi volumi di dati possono utilizzare soluzioni di data warehouse per creare data mart su misura per le esigenze di ogni reparto.

Domande frequenti sui data warehouse

Ho bisogno di un data warehouse?

Un data warehouse può essere una scelta intelligente se la tua organizzazione aggrega grandi quantità di dati provenienti da più sistemi operativi, come applicazioni aziendali (BI), siti web e altri database. È particolarmente utile quando si prevede di eseguire analisi storiche complesse con strumenti BI o dashboard.

Come posso ottimizzare i costi del data warehouse?

Per ottimizzare i costi, è consigliabile optare per architetture che separino le risorse dati dalle risorse di calcolo, consentendo di scalare le risorse in modo indipendente. Puoi anche utilizzare un conveniente cloud di object storage e una gestione dei workload basata sull'AI per la distribuzione automatizzata delle risorse. I formati open data rendono più facile condividere dati tra magazzini e lakehouse, riducendo i costi di storage e la complessità.

Come si gestiscono i problemi di qualità dei dati in un data warehouse?

Processi ETL/ELT robusti per la pulizia e standardizzazione dei dati, robuste politiche di governance e osservabilità dei dati per rilevare i problemi man mano che emergono possono aiutare con problemi di qualità dei dati. Un approccio "shift left" può anche aiutare a rilevare e risolvere i problemi di qualità dei dati più vicino alla causa principale, piuttosto che a valle.

In cosa un data warehouse si differenzia da un database?

Un database è costruito principalmente per l'elaborazione rapida delle transazioni e in genere serve come data storage per un'applicazione specifica. Un data warehouse aggrega grandi volumi di dati provenienti da varie fonti, poi li ripulisce e prepara per business intelligence, query di analytics e altre analisi avanzate dei dati.

Chi dovrebbe possedere un data warehouse?

I data engineer costruiscono e mantengono l'infrastruttura, mentre un chief data officer stabilisce la strategia dei dati e supervisiona le funzioni di gestione dei dati. I team di business intelligence gestiscono i dashboard e i governance dei dati team aiutano a garantire la qualità dei dati e la sicurezza.

Autori

Alexandra Jonker

Staff Editor

IBM Think

Jim Holdsworth

Staff Writer

IBM Think

Matthew Kosinski

Staff Editor

IBM Think

IBM watsonx.data - L'unico data lakehouse ibrido e aperto

Migliorare la precisione dell'AI con dati AI-ready strutturati e non strutturati.

Cos'è un data warehouse?