Cos'è un data warehouse?
Esplora la soluzione di data warehouse di IBM Abbonati per ricevere gli aggiornamenti sull'AI
Illustrazione con collage di pittogrammi di cloud, grafici a torta, pittogrammi grafici su quanto segue
Cos'è un data warehouse?

Un data warehouse, o enterprise data warehouse (EDW), è un sistema che aggrega i dati provenienti da diverse origini in un unico storage di dati centrale e coerente per supportare l'analisi dei dati, il data mining, l' intelligenza artificiale (AI) e il machine learning.

 

Un sistema di data warehouse consente a un'organizzazione di eseguire potenti analisi su grandi quantità di dati (nell'ordine dei petabyte) in modi che un database standard non è in grado di eguagliare.

I sistemi di data warehousing fanno parte delle soluzioni di business intelligence (BI) da oltre trent'anni, ma di recente si sono evoluti con l'emergere di nuovi tipi di dati e nuovi metodi di hosting dei dati. In passato, un data warehouse era ospitato on-premise, spesso su un computer mainframe, e la sua funzionalità era incentrata sull'estrazione di dati da altre origini, sulla pulizia e sulla preparazione dei dati e sul caricamento e la conservazione dei dati in un database relazionale. Oggi, un data warehouse può essere ospitato su un dispositivo dedicato o nel cloud, e la maggior parte dei data warehouse dispongono di funzionalità di analytics e strumenti di visualizzazione e presentazione dei dati aggiuntivi.

Crea flussi di lavoro AI responsabili con la governance AI

Scopri gli elementi costitutivi e le best practice per aiutare i tuoi team ad accelerare l'AI responsabile.

Contenuti correlati

Registrati per ricevere l'ebook su Presto

Architettura del data warehouse

In generale, i data warehouse hanno un’architettura a tre livelli, che consiste in:
 

  • Livello inferiore: il livello inferiore è costituito da un server di data warehouse, solitamente un sistema di database relazionale, che raccoglie, pulisce e trasforma i dati provenienti da più origini dati attraverso un processo denominato ETL (Extract, Transform and Load) o un processo denominato ELT (Extract, Load and Transform). Per la maggior parte delle organizzazioni che utilizzano l'ETL, il processo si basa sull'automazione ed è efficiente, ben definito, continuo e basato su batch.
     

  • Livello intermedio: Il livello intermedio è costituito da un server OLAP (online analytical processing) che consente velocità di query elevate. In questo livello si possono utilizzare tre tipi di modelli OLAP, noti come ROLAP, MOLAP e HOLAP. Il tipo di modello OLAP utilizzato dipende dal tipo di sistema di database esistente.
     

  • Livello superiore: il livello superiore è rappresentato da una sorta di interfaccia utente front-end o strumento di reporting, che consente agli utenti finali di condurre analisi dei dati ad hoc sui propri dati aziendali.

Breve storia dell'architettura del data warehouse

La maggior parte dei data warehouse sono costruiti attorno a un sistema di database relazionale, on-premise o nel cloud, dove i dati vengono archiviati ed elaborati. Altri componenti includono un sistema di gestione dei metadati e un livello di connettività API che consente al warehouse di estrarre i dati da origini dell'organizzazione e di fornire accesso a strumenti di analytics e visualizzazione.

Un data warehouse tipico ha quattro componenti principali: un database centrale, strumenti ETL, metadati e strumenti di accesso. Tutti questi componenti sono progettati per la velocità in modo da poter ottenere risultati in poco tempo e analizzare i dati rapidamente.

Il data warehouse esiste da decenni. Nato negli anni '80, rispondeva all'esigenza di ottimizzare l'analisi dei dati. Quando le applicazioni aziendali delle organizzazioni hanno iniziato a crescere e a generare/archiviare un maggior numero di dati, hanno avuto bisogno di data warehouse in grado di gestire i dati e analizzarli. A un livello elevato, gli amministratori di database potevano estrarre i dati dai propri sistemi operativi e aggiungervi uno schema tramite trasformazione prima di caricarli nel proprio data warehouse.

Man mano che l'architettura del data warehouse si è evoluta ed è cresciuta in popolarità, sempre più persone all'interno delle aziende hanno iniziato a utilizzarla per accedere ai dati e il data warehouse ha semplificato l'utilizzo dei dati strutturati. È in questo momento che i metadati sono diventati importanti. Il reporting e il dashboarding sono diventati un caso d'uso chiave e SQL (structured query language) è diventato il modo standard di interagire con i dati.

Componenti dell'architettura del data warehouse

Vediamo più da vicino ogni componente.

etl

Quando gli analisti di database desiderano spostare i dati da un'origine dati al proprio data warehouse, utilizzano questo processo. In breve, l'ETL converte i dati in un formato utilizzabile, in modo che, una volta inseriti nel data warehouse, possano essere analizzati/interrogati/ecc. 

Metadati

I metadati sono dati sui dati. Fondamentalmente, descrivono tutti i dati archiviati in un sistema per renderli ricercabili. Alcuni esempi di metadati includono autori, date o posizioni di un articolo, data di creazione di un file, dimensioni di un file, ecc. Possono essere considerati come i titoli di una colonna in un foglio di calcolo. I metadati consentono di organizzare i dati per renderli utilizzabili, in modo da poterli analizzare per creare dashboard e report.

Elaborazione di query SQL

SQL è di fatto il linguaggio standard per l'esecuzione di query sui dati. È il linguaggio utilizzato dagli analisti per estrarre insight dai dati archiviati nel data warehouse. In genere, i data warehouse dispongono di tecnologie proprietarie di elaborazione delle query SQL strettamente collegate al calcolo. Questo consente di ottenere prestazioni molto elevate in termini di analytics. Una cosa da notare, tuttavia, è che il costo di un data warehouse può diventare tanto più elevato quanto maggiore è il numero di dati e di risorse di calcolo SQL.

Livello dati

Il livello dati è il livello di accesso che consente agli utenti di accedere effettivamente ai dati. In genere, qui si trova un data mart. Questo livello partiziona i segmenti dei dati a seconda dell'utente a cui si desidera concedere l'accesso, in modo da poter ottenere un accesso molto granulare all'interno dell'organizzazione. Ad esempio, potresti non voler concedere al tuo team di vendita l'accesso ai dati del tuo team delle risorse umane e viceversa.

Governance e sicurezza

Queste sono correlate al livello dati, in quanto è necessario essere in grado di fornire criteri di accesso e sicurezza granulari per tutti i dati dell'organizzazione. In genere, i data warehouse dispongono di ottime funzionalità integrate di governance e sicurezza dei dati, quindi non è necessario eseguire un grande lavoro di data engineering personalizzato per includerle. È importante pianificare la governance e la sicurezza man mano che si aggiungono più dati al proprio warehouse e man mano che la propria azienda cresce.

+ Strumenti di accesso al data warehouse

Sebbene gli strumenti di accesso siano esterni al data warehouse, possono essere visti come un front end intuitivo per l'utente business. Ne fanno parte gli strumenti di reporting e visualizzazione, utilizzati dagli analisti di dati e dagli utenti business per interagire con i dati, estrarre insight e creare visualizzazioni che il resto dell'azienda può utilizzare. Esempi di questi strumenti includono Tableau, Looker e Qlik.

Informazioni su OLAP e OLTP nei data warehouse

OLAP (online analytical processing) è un software per eseguire analisi multidimensionali ad alta velocità su grandi volumi di dati provenienti da uno storage di dati unificato e centralizzato, come un data warehouse. OLTP (online transactional processing) consente l'esecuzione in tempo reale di un numero elevato di transazioni di database da parte di un gran numero di persone, generalmente su internet. La differenza principale tra OLAP e OLTP è nel nome: OLAP è di natura analitica e OLTP è transazionale. 

Gli strumenti OLAP sono progettati per l'analisi multidimensionale dei dati in un data warehouse, che contiene sia dati storici che transazionali. Gli usi comuni di OLAP includono data mining e altre applicazioni di business intelligence, calcoli analitici complessi e scenari predittivi, nonché funzioni di reporting aziendale come analisi finanziaria, definizione del budget e pianificazione del forecasting.

OLTP è progettato per supportare le applicazioni orientate alle transazioni elaborando le transazioni recenti nel modo più rapido e accurato possibile. Gli usi comuni di OLTP includono bancomat, software di e-commerce, trattamento dei dati di pagamento con carta di credito, prenotazioni online, sistemi di prenotazione e strumenti di conservazione di record.

Per un approfondimento delle differenze tra questi approcci, consulta "OLAP vs. OLTP: qual è ladifferenza?" 

Schemi nei data warehouse

Gli schemi rappresentano dei modi in cui i dati sono organizzati all'interno di un database o di un data warehouse. Esistono due tipi principali di strutture di schema, lo schema a stella e lo schema a fiocco di neve, che influiscono sulla progettazione del modello di dati.

Schema a stella: questo schema è costituito da una tabella di fatti che può essere unita a una serie di tabelle di dimensioni denormalizzate. È considerato il tipo di schema più semplice e comune e i suoi utenti beneficiano della sua maggiore velocità durante l'esecuzione delle query.

Schema a fiocco di neve: sebbene non sia molto diffuso, lo schema a fiocco di neve è un'altra struttura organizzativa dei data warehouse. In questo caso, la tabella dei fatti è collegata a una serie di tabelle di dimensioni normalizzate e queste tabelle di dimensioni hanno tabelle figlie. Gli utenti di uno schema a fiocco di neve traggono vantaggio dai bassi livelli di ridondanza dei dati, ma questo va a discapito delle prestazioni delle query. 

Data warehouse vs. database, data lake e data mart

Data warehouse, database, data lake e data mart sono termini che tendono a essere usati in modo intercambiabile. Sebbene siano simili, esistono differenze importanti:

Data warehouse vs. data lake
 

Utilizzando una pipeline di dati, un data warehouse raccoglie i dati non elaborati da più origini in un repository centrale, strutturato utilizzando schemi predefiniti progettati per la data analytics. Un data lake è un data warehouse senza schemi predefiniti. Di conseguenza, consente più tipi di analytics rispetto a un data warehouse. I data lake sono generalmente costruiti su piattaforme di big data come Apache Hadoop.

Data warehouse vs. data mart
 

Un data mart è un sottoinsieme di un data warehouse che contiene dati specifici di una particolare unità o reparto aziendale. Poiché contengono un sottoinsieme più piccolo di dati, i data mart consentono a un reparto o a un'unità di business di scoprire insight più mirati in minor tempo rispetto a quando si lavora con il più ampio set di dati del data warehouse.

Data warehouse vs. database
 

Un database è pensato principalmente per query veloci e per l'elaborazione di transazioni, non per l'analytics. Un database in genere funge da archivio dati mirato per un'applicazione specifica, mentre un data warehouse archivia i dati da un numero qualsiasi (o anche da tutte) le applicazioni nell'organizzazione.

Un database è focalizzato sull'aggiornamento dei dati in tempo reale, mentre un data warehouse ha un ambito più ampio, che include l'acquisizione di dati attuali e storici per l'analitica predittiva, il machine learning e altri tipi di analisi avanzate.

Tipi di data warehouse

Data warehouse sul cloud
 

Un data warehouse sul cloud è un data warehouse creato appositamente per l'esecuzione nel cloud e viene offerto ai clienti come servizio gestito. Negli ultimi cinque o sette anni, i data warehouse basati sul cloud sono diventati più popolari, poiché sempre più aziende utilizzano i servizi di cloud computing e cercano di ridurre l'ingombro dei propri data center on-premise.

Con un data warehouse sul cloud, l'infrastruttura del data warehouse fisico è gestita dal provider del cloud, il che significa che il cliente non deve effettuare un investimento iniziale in hardware o software e non deve gestire o mantenere la soluzione di data warehouse.

Software di data warehouse (on-premise/licenza)
 

Un'azienda può acquistare una licenza di data warehouse e poi implementare un data warehouse sulla propria infrastruttura on-premise. Sebbene sia una soluzione generalmente più costosa di un servizio di data warehouse sul cloud, potrebbe essere la scelta migliore per enti governativi, istituti finanziari o altre organizzazioni che desiderano un maggiore controllo sui propri dati o devono rispettare rigorosi standard o normative sulla sicurezza o sulla privacy dei dati.

Appliance di data warehouse
 

Un'appliance di data warehouse è un pacchetto pre-integrato di hardware e software (CPU, storage, sistema operativo e software di data warehouse) che un'azienda può collegare alla propria rete e iniziare a utilizzare così com'è. Un'appliance di data warehouse si colloca a metà strada tra le implementazioni cloud e on-premise in termini di costi iniziali, velocità di implementazione, facilità di scalabilità e controllo della gestione dei dati.

Vantaggi di un data warehouse

Un data warehouse fornisce una base per:

  • Migliore qualità dei dati: Un data warehouse centralizza i dati provenienti da diverse origini, come i sistemi transazionali, i database operativi e i file flat. Quindi pulisce i dati operativi, elimina i duplicati e li standardizza per creare una singola fonte affidabile.

  • Insight aziendali più rapidi: i dati provenienti da fonti eterogenee limitano la capacità dei decisori di definire con sicurezza le strategie aziendali. I data warehouse consentono l'integrazione dei dati, permettendo agli utenti business di utilizzare al meglio tutti i dati di un'azienda per ogni decisione aziendale. I dati del data warehouse consentono di creare report su temi, tendenze, aggregazioni e altre relazioni tra i dati raccolti da un'app di engineering lifecycle management (ELM).

  • Processi decisionali più intelligenti:  un data warehouse supporta funzioni di BI su larga scala come il data mining (individuazione di pattern e relazioni non visibili nei dati), intelligenza artificiale e machine learning: strumenti che i professionisti dei dati e i leader aziendali possono utilizzare per ottenere prove concrete e prendere decisioni più intelligenti in quasi tutte le aree dell'organizzazione, dai processi aziendali alla gestione finanziaria fino all'inventario.

  • Ottenere e far crescere il vantaggio competitivo: tutto questo si combina per aiutare un'organizzazione a trovare maggiori opportunità nei dati, più rapidamente di quanto sia possibile da storage di dati eterogenei.
Le sfide dell'architettura del data warehouse

Man mano che le aziende iniziano a ospitare più dati e necessitano di analisi più avanzate e di un’ampia gamma di dati, il data warehouse inizia a diventare costoso e non così flessibile. Se desideri analizzare dati non strutturati o semistrutturati, con il data warehouse non sarà possibile. Sempre più aziende scelgono di passare a un'architettura data lakehouse, che aiuta a risolvere il problema. L'open data lakehouse consente di eseguire i workload del warehouse su tutti i tipi di dati in un'architettura aperta e flessibile. Questi dati possono essere utilizzati anche da data scientist e ingegneri che studiano i dati per ottenere insight aziendali. Al contrario di un sistema strettamente accoppiato, il data lakehouse è molto più flessibile e può anche gestire dati non strutturati e semistrutturati come foto, video, dati IoT e altro ancora.

Il data lakehouse può anche supportare i workload di data science, ML e AI, oltre ai workload di reporting e dashboarding. Se stai pensando di aggiornare l'architettura del data warehouse, passare a un open data lakehouse è la scelta migliore.

Soluzioni correlate
Soluzioni di data warehouse

Le soluzioni di data warehouse IBM offrono prestazioni e flessibilità per supportare dati strutturati e non strutturati per workload di analytics, tra cui il machine learning.

Esplora le soluzioni di data warehouse
Db2 Warehouse on Cloud

Esplora le funzionalità di un data warehouse sul cloud elastico e completamente gestito, creato per l'analytics e l'AI ad alte prestazioni.

Esplora Db2 Warehouse on Cloud
IBM Cloud Pak for Data

IBM® Cloud Pak for Data è un set modulare di componenti software integrati per l'analisi, l'organizzazione e la gestione dei dati tra silos aziendali, on-premise e nei cloud.

Scopri IBM Cloud Pak for Data
Risorse Trovare il giusto data warehouse aziendale per affrontare la sfida dei dati e dell'AI

L'intelligenza artificiale può presentare una serie di sfide che i data warehouse e i data mart aziendali possono aiutare a superare. Scopri come calcolare il valore totale che una soluzione di questo tipo può fornire.

Come scegliere il giusto data warehouse per l'AI

Per scegliere un data warehouse aziendale, le aziende devono considerare l'impatto dell'AI, i fattori distintivi dei warehouse e la varietà dei modelli di implementazione. Questo ebook aiuta proprio in questo senso.

The Data Differentiator

Una guida alla creazione di un'organizzazione basata sui dati per ottenere vantaggi a livello aziendale.

Fai il passo successivo

Scala i workload AI per tutti i tuoi dati, ovunque, con IBM watsonx.data, uno storage dei dati adatto allo scopo costruito su un'architettura open data lakehouse.

Esplora watsonx.data Prenota una demo live