Un data mart (o serie specifica di dati) è un sottoinsieme di un data warehouse focalizzato su una particolare linea di business, reparto o area tematica. I data mart mettono a disposizione dei dati specifici per un gruppo definito di utenti, il che gli consente di accedere rapidamente ad insight critici senza dover perdere tempo a cercare in un intero data warehouse. Ad esempio, molte aziende possono avere data mart relativi a reparti specifici nell'azienda, come, ad esempio, quello finanziario, delle vendite o del marketing.
Soluzioni di data warehouse di IBM
Soluzioni IBM Data Lake
Data mart, data warehouse e data lake sono repository di dati centrali cruciali, ma soddisfano esigenze diverse all'interno di un'organizzazione.
Un data warehouse è un sistema che aggrega i dati da più fonti in un unico archivio dati centrale e coerente per supportare il data mining, l'AI e il machine learning, che, in definitiva, possono migliorare analisi sofisticate e business intelligence. Attraverso questo processo di raccolta strategica, le soluzioni di data warehouse consolidano i dati provenienti da diverse fonti per renderli disponibili in una forma unificata.
Un data mart (come illustrato in precedenza) è una versione mirata di un data warehouse che contiene un sottoinsieme più piccolo di dati importanti e necessari per un singolo team o un gruppo selezionato di utenti all'interno di un'organizzazione. Un data mart è creato da un data warehouse esistente (o altre fonti di dati) attraverso una procedura complessa che coinvolge più tecnologie e strumenti per progettare e costruire un database fisico, popolarlo con dati e impostare intricati protocolli di accesso e gestione.
Nonostante sia un processo impegnativo, consente a una linea di business di scoprire insight di maggiore interesse più rapidamente che lavorando con il set di dati più ampio di un data warehouse. Per esempio, i team di marketing possono beneficiare della creazione di un data mart da un magazzino esistente, dato che le sue attività sono di solito eseguite indipendentemente dal resto del business. Pertanto il team non ha bisogno di accedere a tutti i dati aziendali.
Anche un data lake è un repository di dati. Un data lake fornisce uno storage massiccio di dati non strutturati o grezzi alimentati da più fonti, ma le informazioni non sono ancora state elaborate o preparate per l'analisi. Essendo in grado di memorizzare i dati in un formato grezzo, i data lake sono più accessibili e convenienti dei data warehouse. Non c'è bisogno di pulire ed elaborare i dati prima dell'ingestione.
Ad esempio, i governi possono usare la tecnologia per tracciare i dati sul comportamento del traffico, sull'uso dell'energia e sui corsi d'acqua, e memorizzarli in un data lake finché non riescono a capire come utilizzare le informazioni per creare "città più intelligenti" con servizi più efficienti.
I data mart sono progettati per soddisfare le esigenze di gruppi specifici in quanto hanno un ambito di dati relativamente ristretto. E pur potendo contenere milioni di record, un data mart ha l'obiettivo di fornire agli utenti aziendali i dati più rilevanti nel minor tempo possibile.
Con la sua progettazione più piccola e mirata, il data mart offre agli utenti diversi vantaggi, tra cui:
Sono disponibili tre tipi di data mart, che differiscono in base alla loro relazione con il data warehouse e le rispettive origini dati di ogni sistema.
Un data mart è un database relazionale orientato agli oggetti che memorizza i dati transazionali in righe e colonne, rendendone facile l'accesso, l'organizzazione e la comprensione. Dal momento che contiene dati storici, questa struttura rende più facile per un analista determinare le tendenze dei dati. I campi di dati tipici includono ordine numerico, valore temporale e riferimenti a uno o più oggetti.
Le aziende organizzano i data mart in uno schema multidimensionale come un modello per soddisfare le esigenze delle persone che usano i database per svolgere compiti analitici. I tre tipi di schemi principali sono a stella, a fiocco di neve e a volta.
Lo schema a stella è una formazione logica di tabelle in un database multidimensionale che ricorda la forma di una stella. In questo modello, una tabella dei fatti - un insieme di metriche che si riferisce a un evento o processo aziendale specifico - risiede al centro della stella, circondata da diverse tabelle di dimensioni associate.
Non esiste alcuna dipendenza tra le tabelle di dimensione, quindi uno schema a stella richiede un numero inferiore di join quando si scrivono le query. Questa struttura rende più facile la creazione di query, quindi gli schemi a stella sono altamente efficienti per gli analisti che desiderano accedere e navigare in grandi insiemi di dati.
Uno schema a fiocco di neve è un'estensione logica di uno schema a stella, ampliando la struttura con ulteriori tabelle delle dimensioni. Le tabelle delle dimensioni sono normalizzate per proteggere l'integrità dei dati e ridurne al minimo la ridondanza.
Anche se questo metodo richiede meno spazio per memorizzare le tabelle delle dimensioni, si tratta di una struttura complessa che può essere difficile da gestire. Il vantaggio principale derivante dall'utilizzo dello schema a fiocco di neve è la ridotta richiesta di spazio su disco, ma lo svantaggio è un possibile impatto negativo sulle prestazioni a causa delle tabelle aggiuntive.
Il data vault è una moderna tecnica di modellazione di database che permette ai professionisti IT di progettare dei data warehouse aziendali agili. Questo approccio implementa una struttura a livelli ed è stato sviluppato specificamente per combattere i problemi di agilità, flessibilità e scalabilità che sorgono quando si usano gli altri modelli di schemi.
Il data vault elimina la necessità di pulizia dello schema a stella e semplifica l'aggiunta di nuove origini dati senza interrompere lo schema esistente.
I data mart sono alla base di importanti decisioni aziendali a livello di reparto. Ad esempio, un team di marketing potrebbe usare i data mart per analizzare i comportamenti dei consumatori, mentre il personale di vendita potrebbe usarli per compilare i rapporti trimestrali sulle vendite. Poiché queste attività vengono svolte all'interno dei rispettivi reparti, i team non hanno bisogno di accedere a tutti i dati aziendali.
In genere, un data mart viene creato e gestito dal reparto aziendale specifico che intende usarlo. Il processo per la progettazione di un data mart comprende solitamente i seguenti passaggi:
Una volta completato il lavoro di preparazione, è possibile ottenere il massimo valore da un data mart utilizzando strumenti di business intelligence specializzati, come Qlik o SiSense. Queste soluzioni includono un dashboard e delle visualizzazioni che semplificano la distinzione tra insight e dati, consentendo di prendere decisioni più intelligenti che portano vantaggio all'azienda
.Sebbene i data mart offrano alle aziende i vantaggi di una maggiore efficienza e flessibilità, la crescita inarrestabile dei dati pone un problema per le aziende che continuano a utilizzare soluzioni on-premises.
Man mano che i data warehouse si spostano verso il cloud, i data mart li seguiranno. Consolidando le risorse di dati in un unico repository che contiene tutti i data mart, le aziende possono ridurre i costi e garantire che tutti i reparti abbiano accesso illimitato e in tempo reale ai dati di cui hanno bisogno.
Le piattaforme basate sul cloud consentono di creare, condividere e archiviare facilmente grandi insiemi di dati, aprendo la strada a un accesso e un'analisi dei dati più efficienti ed efficaci. I sistemi cloud sono creati per una crescita sostenibile del business, con molti provider di soluzioni Software-as-a Service (SaaS) moderne che separano il data storage dal computing per migliorare la scalabilità durante l'interrogazione dei dati.
IBM Db2 Warehouse on Cloud è un data warehouse elastico su cloud che offre una scalabilità indipendente di storage e calcolo. I data mart più piccoli possono usare la funzione Flex One , un data warehouse elastico costruito per analisi ad alte prestazioni. Questo sistema può essere implementato su più provider di cloud, a partire da 40 GB di storage.
Un'altra opzione che vale la pena considerare è IBM InfoSphere® Master Data Management (MDM). Questo sistema personalizzabile gestisce tutti gli aspetti dei tuoi dati aziendali critici, dando agli utenti la possibilità di accedere ad una visione unica e affidabile. Attraverso questo dashboard semplificato, gli utenti sono in grado di condurre analisi dettagliate, acquisire insight operativi e garantire la totale conformità alla governance e alle politiche dei dati in tutta l'azienda.
Registrati per ottenere un IBMid e crea il tuo account IBM Cloud.
Esplora le funzionalità di un data warehouse su cloud completamente gestito ed elastico, progettato per AI e analytics ad alte prestazioni.
Scopri come IBM InfoSphere Master Data Management può consentire agli utenti di business e IT di collaborare e realizzare l'innovazione con dati master attendibili in tutta l'azienda.