Data warehouse
sfondo nero e blu
Data warehouse

Un componente fondamentale della business intelligence, un data warehouse mette insieme i dati da molte origini differenti in un singolo repository di dati per un'analytics e un supporto decisionale sofisticati.

Prodotti in evidenza

Db2 Warehouse on Cloud

Netezza Performance Server


Cos'è un data warehouse?

Un data warehouse, o EDW (enterprise data warehouse), è un sistema che aggrega i dati da diverse origini in un unico archivio dati centrale e coerente che supporta l'analisi dei dati, il data mining, l'AI (artificial intelligence) e il machine learning. Un sistema di data warehouse consente a un'organizzazione di eseguire una potente analytics su enormi volumi (nell'ordine dei petabyte) di dati cronologici in modi non possibili a un database standard.

I sistemi di data warehousing sono parte delle soluzioni di BI (business intelligence) da più di tre decenni, ma hanno conosciuto un'evoluzione di recente con l'emergere di nuovi tipi di dati e di metodi di hosting dei dati. Tradizionalmente, un data warehouse era ospitato on-premise - spesso su un computer mainframe - e la sua funzionalità era concentrata sull'estrazione di dati da altre origini, la ripulitura e la preparazione dei dati e il caricamento e la gestione dei dati in un database relazionale. Più di recente, un data warehouse poteva essere ospitato su un'appliance dedicata oppure nel cloud e la maggior parte dei data warehouse aveva delle funzionalità di analytics e degli strumenti di visualizzazione e presentazione dei dati aggiunti.

Scopri di più sulle soluzioni di data warehouse offerte da IBM.

Link correlati

Soluzioni di data warehouse IBM


Architettura dei data warehouse

In linea generale, i data warehouse hanno un'architettura a tre livelli, che consiste in un:

  • Livello inferiore: il livello inferiore consiste in un server data warehouse, di norma un sistema di database relazionale, che raccoglie, ripulisce e trasforma i dati da più origini dati tramite un processo noto come ETL (Extract, Transform, and Load) o uno noto come ELT (Extract, Load, and Transform).
  • Livello medio: il livello medio consiste in un server OLAP (Online Analytical Processing) che consente tempi di esecuzione rapidi per le query. In questo livello possono essere utilizzati tre tipi di modelli OLAP, noti come ROLAP, MOLAP e HOLAP. Il tipo di modello OLAP dipende dal tipo di sistema di database esistente.
  • Livello superiore: il livello superiore è rappresentato da qualche tipo di strumento di reportistica o di interfaccia utente front-end che consente agli utenti finali di eseguire analisi dei dati ad hoc sui loro dati di business.

Comprensione di OLAP e OLTP nei data warehouse

OLAP (acronimo di online analytical processing) è un software per eseguire analisi multidimensionali a elevate velocità su ampi volumi di dati da un archivio dati unificato e centralizzato, come un data warehouse. OLTP (acronimo di online transactional processing) consente l'esecuzione in tempo reale di elevati numeri di transazioni di database da elevati numeri di persone, di norma su internet. La differenza principale tra OLAP e OLTP si evince dal nome: OLAP ha una natura analitica, mentre OLTP è transazionale. 

Gli strumenti OLAP sono progettati per l'analisi multidimensionale dei dati in un data warehouse, che contiene dati sia cronologici che transazionali. Gli usi comuni di OLAP includono il data mining e altre applicazioni di BI (business intelligence), complessi calcoli analitici e scenari predittivi, nonché funzioni di reportistica di business come l'analisi finanziaria e la pianificazione previsionale e di determinazione del budget.

OLTP è progettato per supportare le applicazioni orientate alle transazioni elaborando le transazioni recenti nel modo più rapido e preciso possibile. Gli usi comuni di OLTP includono bancomat, software di e-commerce, elaborazione dei pagamenti con carta di credito, prenotazioni online, sistemi di prenotazione e strumenti di conservazione della documentazione.

Per un'analisi approfondita delle differenze tra questi approcci, consulta "Confronto tra OLAP e OLTP: qual è la differenza?"


Schemi nei data warehouse

Gli schemi sono i modi in cui i dati sono organizzati all'interno di un database o di un data warehouse. Esistono due tipi principali di strutture di schema, lo schema a stella e lo schema a fiocco di neve, che avranno un impatto sulla progettazione del tuo modello di dati.

Schema a stella: questo schema consiste in una tabella dei fatti che può essere unita a diverse tabelle delle dimensioni denormalizzate. È considerato il tipo di schema più semplice e comune e i suoi utenti beneficiano delle sue velocità più elevate durante l'esecuzione di query.

Schema a fiocco di neve: pur non essendo così ampiamente adottato, lo schema a fiocco di neve è un'altra struttura organizzativa nei data warehouse. In questo caso, la tabella dei fatti è connessa a diverse tabelle delle dimensioni normalizzate e tali tabelle delle dimensioni hanno delle tabelle secondarie. Gli utenti di uno schema a fiocco di neve beneficiano dei sui bassi livelli di ridondanza dei dati, ma le prestazioni delle query ne risentono negativamente. 


Confronto tra data warehouse e database, data lake e data mart

Data warehouse, database, data lake e data mart sono tutti termini che tendono a essere utilizzati in modo intercambiabile. Sebbene i termini siano simili, esistono delle importanti differenze:

Confronto tra data warehouse e data lake
 

Un data warehouse raccoglie dati non elaborati da più origini in un repository centrale, strutturato utilizzando schemi predefiniti progettati per l'analytics dei dati. Un data lake è un data warehouse senza gli schemi predefiniti. Di conseguenza, consente più tipi di analytics di un data warehouse. I data lake sono comunemente creati su piattaforme di big data come Apache Hadoop.

Guarda il seguente video per saperne di più sui data lake:

Confronto tra data warehouse e data mart
 

Un data mart è un sottoinsieme di un data warehouse che contiene i dati specifici per una determinata linea di business o un determinato reparto. Poiché contengono un sottoinsieme di dati più piccolo, i data mart consentono a un reparto o a una linea di business di scoprire degli insight più mirati più rapidamente di quanto sia possibile quando si lavora con il più ampio dataset del data warehouse.

Confronto tra data warehouse e database
 

Un database viene creato principalmente per un'elaborazione rapida di query e transazioni, non per l'analytics. Un database di norma funge da archivio dati mirato per una specifica applicazione, mentre un data warehouse archivia i dati da qualsiasi numero di applicazioni (o anche tutte) nella tua organizzazione.

Un database si concentra sull'aggiornamento dei dati in tempo reale mentre un data warehouse ha un ambito più vasto, acquisendo i dati attuali e cronologici per l'analytics predittiva, il machine learning e altri tipi avanzati di analisi.


Tipi di data warehouse

Data warehouse su cloud
 

Un data warehouse su cloud è un data warehouse di norma creato specificamente per l'esecuzione nel cloud e viene offerto ai clienti come un servizio gestito. I data warehouse basati sul cloud sono diventati più popolari nel corso degli ultimi cinque-sette anni, con il crescere del numero di aziende che utilizzano i servizi cloud e cercano di ridurre lo spazio occupato dai data center on-premise.

Con un data warehouse su cloud, l'infrastruttura di data warehouse fisica è gestita dall'azienda cloud, il che vuol dire che il cliente non deve sostenere un investimento iniziale in hardware o software e non deve occuparsi della gestione e della manutenzione della soluzione di data warehouse.

Software di data warehouse (on-premise/licenza)
 

Un'azienda può acquistare una licenza di data warehouse e quindi implementare un data warehouse nella sua infrastruttura on-premise. Sebbene ciò sia di norma più costoso di un servizio di data warehouse su cloud, potrebbe essere una scelta migliore per gli enti governativi, le istituzioni finanziarie o altre organizzazioni che desiderano un maggiore controllo sui loro dati o che devono conformarsi a rigidi standard o severe normative in materia di sicurezza e riservatezza dei dati.

Appliance di data warehouse
 

Un'appliance di data warehouse è un insieme di hardware e software preintegrato - CPU, storage, sistema operativo e software di data warehouse - che un azienda può connettere alla sua rete e iniziare a usare così com'è. Un'appliance di data warehouse si colloca in una posizione intermedia tra le implementazioni cloud e quelle on-premise in termini di costo iniziale, velocità di implementazione, facilità di scalabilità e controllo della gestione.


Vantaggi di un data warehouse

Un data warehouse fornisce una base per:

  • Una migliore qualità dei dati: un data warehouse centralizza i dati da una varietà di origini dati, quali i sistemi transazionali, i database operativi e i file flat. Procede quindi a ripulirli, elimina i duplicati e li standardizza per creare un'unica fonte attendibile.
  • Degli insight di business più rapidi: i dati da origini eterogenee limitano la capacità dei responsabili delle decisioni di impostare delle strategie di business con fiducia. I data warehouse consentono l'integrazione dei dati, permettendo agli utenti di business di sfruttare tutti i dati di un'azienda in ogni decisione di business.
  • Un processo decisionale più intelligente:  un data warehouse supporta funzioni BI su larga scala, come ad esempio il data mining (ricerca di modelli e relazioni non rilevati nei dati), l'AI (artificial intelligence) e il machine learning, strumenti che i professionisti dei dati e i leader di business possono utilizzare per ottenere prove concrete per prendere decisioni più intelligenti virtualmente in ogni area dell'organizzazione, dai processi di business alla gestione finanziaria e a quella dell'inventario
  • L'ottenimento e l'accrescimento di un vantaggio competitivo: tutto quanto sopra indicato si combina per aiutare un'organizzazione a trovare più opportunità nei dati, più velocemente di quanto sia possibile da archivi dati eterogenei.

Data warehouse e IBM Cloud

IBM offre soluzioni di data warehouseon-premise, su cloud e come appliance integrata - tutte create su una base di analytics dei dati e AI ottimizzata per gli insight predittivi e un processo decisionale basato sui dati. Tutte e tre fanno parte della famiglia di prodotti IBM Db2, offrendo un motore SQL comune per semplificare le query e funzionalità di machine learning che migliorano le prestazioni della gestione dei dati.

IBM Db2 Warehouse on Cloud è un data warehouse su cloud elastico e completamente gestito che offre una scalabilità indipendente di storage e calcolo e fornisce un archivio dati a colonna altamente ottimizzato, una compressione utilizzabile e un'elaborazione in-memory per potenziare i tuoi carichi di lavoro di analytics e machine learning. Data mart e spin up più piccoli possono aggiungere Flex One, un data warehouse elastico creato per un'analytics a elevate prestazioni, implementabile su più provider cloud, a partire da 40 GB di storage.

Netezza Performance Server, la prossima evoluzione dell'appliance IBM Netezza, si basa sull'architettura iperconvergente di IBM Cloud Pak for Data System per fornire un sistema di supporto decisionale nativo del cloud per l'analytics più complessa della tua azienda.

IBM InfoSphere DataStage è uno strumento di data warehouse che offre un ETL aziendale avanzato e fornisce una piattaforma multicloud che integra i dati su più sistemi aziendali.

IBM Watson Studio, un'offerta di data science e machine learning, consente alle organizzazioni di sfruttare gli asset di dati e inserire previsioni nei processi di business e nelle applicazioni moderne.

Per ulteriori informazioni sui data warehouse, registrati per un IBMid e crea il tuo account IBM Cloud.


Soluzioni correlate

Soluzioni di data warehouse

Le soluzioni di data warehouse IBM offrono prestazioni e flessibilità per supportare i dati strutturati e non strutturati per i carichi di lavoro di analytics, incluso il machine learning.


Db2 Warehouse on Cloud

Esplora le funzionalità di un data warehouse su cloud completamente gestito ed elastico, progettato per AI e analytics ad alte prestazioni.


Netezza Performance Server

Esplora una soluzione avanzata di data warehouse e analytics con una potente analytics in-database, disponibile sia on-premise che sul cloud.


IBM Cloud Pak for Data System

IBM Cloud Pak for Data System è una piattaforma di cloud ibrido completa che fornisce un ambiente on-premise preconfigurato, gestito e dotato di misure di sicurezza complete.


IBM Watson Studio

Sviluppa, esegui e gestisci i modelli AI. Prepara i dati e crea modelli su qualsiasi cloud utilizzando la modellazione visiva o il codice open source. Prevedi e ottimizza i risultati.


IBM DataStage

Esplora IBM DataStage, una piattaforma ETL potente e scalabile che fornisce un'integrazione in tempo quasi reale di tutti i tipi di dati in ambienti on-premises e cloud.