Cloud Data Lake, Data Warehouse e Data Mart

Scie di luce astratte che scorrono

Questo post esamina i tre diversi tipi di archivi di cloud storage esistenti, esplorando le differenze e quale soluzione è la migliore per il tuo caso d'uso.

Lo storage dei dati basato sul cloud, in particolare quello dei big data, è oggi una priorità assoluta, sia che si faccia affidamento su di esso per svolgere le attività quotidiane sia per portare a termine attività specifiche.

I dati sono alla base di molte funzioni aziendali: dalla creazione di programmi mirati per clienti attuali e potenziali all'ottimizzazione delle operazioni e dei processi di produzione, fino a sviluppo, test, distribuzione e monitoraggio dei test del virus e delle vaccinazioni. Le aziende moderne fanno affidamento sulla disponibilità dei dati di cui hanno bisogno, quando ne hanno bisogno. Tuttavia, trovare l'opzione migliore per soddisfare le sue esigenze non è un compito facile e può comportare diversi tipi di archivi per diverse categorie di dati.

Cominciamo con le nozioni di base e approfondiamo alcuni esempi di come uno o più tipi di archivi di dati possano essere necessari per soddisfare le esigenze della tua azienda.

 

Tre tipi di archivi di cloud storage

Oggi esistono tre tipi distinti di archivi di cloud storage, ognuno dei quali serve uno scopo diverso per rispondere a un'esigenza specifica:

Data lake

Un data lake è un grande archivio di dati non elaborati, sia  non strutturati che semi-strutturati. Questi dati vengono aggregati da varie fonti e memorizzati. Non vengono modificati per soddisfare uno scopo specifico o per adattarsi a un formato particolare. La preparazione dei dati per l'analisi è un lungo processo di pulizia e riformattazione per renderli uniforme. I data lake sono ottime risorse per le organizzazioni che memorizzano informazioni relative a interruzioni, traffico, criminalità o dati demografici. I dati possono essere utilizzati in un secondo momento per aggiornare i budget e le risorse del DPW o dei servizi di emergenza.

Data warehouse

Un data warehouse è un'aggregazione di dati provenienti da diverse fonti in un unico archivio centralizzato che unifica le qualità e il formato dei dati, cosa che lo rende utile per i data scientist nel data mining, nell'intelligenza artificiale (AI), nel machine learning e, in ultima analisi, nell'analytics aziendale e nella business intelligence. Il data warehousing può essere utilizzato da una grande città per aggregare le transazioni elettroniche di vari dipartimenti, tra cui le multe per eccesso di velocità, le licenze per i cani, i pagamenti delle accise e altre transazioni. Questi dati strutturati verranno analizzati dal comune per emettere fatture di follow-up e aggiornare i dati del censimento e i registri della polizia, o verranno utilizzati dagli sviluppatori per aggregare terabyte di dati generati dai sensori sulle automobili per aiutare nel processo decisionale e trovare una soluzione di guida autonoma.

data mart

Un data mart è un sottoinsieme di un data warehouse che beneficia un gruppo specifico di utenti all'interno dell'azienda o dell'unità di business. Un data mart può essere utilizzato dal reparto marketing di un'azienda manifatturiera per determinare il target demografico o personale ideale, per aiutare lo sviluppo dei piani di marketing. Può anche essere utilizzato da un reparto di produzione per analizzare le prestazioni e i tassi di errore e consentire un miglioramento continuo. I set di dati all'interno di un data mart vengono spesso utilizzati in tempo reale, per analisi attuali e risultati attuabili.

Data lake, data warehouse e data mart: differenze principali

Sebbene tutti e tre i tipi di archivi di dati cloud contengano dati, le differenze tra loro sono molto marcate. Ad esempio, un data warehouse e un data lake sono entrambi grandi aggregazioni di dati, ma un data lake è in genere più conveniente da implementare e mantenere perché è in gran parte non strutturato. 

Negli ultimi anni, l'architettura del data lake si è evoluta per supportare volumi maggiori di dati e cloud computing. Grandi quantità di dati vengono ricevute da diverse fonti di dati verso una posizione centrale. 

Un data warehouse può essere strutturato in tre modi:

  1. Come servizio gestito offerto dai provider di cloud.
  2. Come soluzione software che fornisce controlli interni e protocolli di sicurezza rigorosi, che possono essere utili quando si tratta della conformità normativa.
  3. Come appliance, che di solito è una soluzione software e hardware plug-and-play in pacchetto.

I dati all'interno di un data warehouse possono essere utilizzati più facilmente per vari scopi rispetto a quelli all'interno di un data lake, perché un data warehouse è strutturato e può essere estratto o analizzato più facilmente.

Un data mart, invece, contiene una quantità minore di dati sia rispetto a un data lake che a un data warehouse, e i dati sono classificati per un uso o per un'unità di business specifici. Un data mart può esistere in molti formati diversi (star, snowflake o vault) definiti dalla struttura logica dei dati, con una struttura vault più agile, flessibile e scalabile rispetto agli altri formati.

Esistono tre tipi di data mart:

  1. Un data mart dipendente, costituito da partizioni di data warehouse aziendali. Si tratta di un sottoinsieme di dati primari in un warehouse.
  2. Un data mart indipendente, che è un sistema autonomo, isolato per una parte specifica dell'azienda.
  3. Un data mart ibrido, costituito da dati provenienti da un warehouse e da fonti indipendenti. Questo tipo in genere fornisce un accesso ai dati più rapido e un'interfaccia intuitiva.

Il tipo di repository di dati che scegli e la sua struttura dipendono fortemente dalle esigenze e dalle richieste della tua azienda. Se per la tua attività ha senso, utilizza al meglio i vantaggi dello storage basato su hybrid cloud per flessibilità, scalabilità e un approccio più ampio e informato alla risoluzione dei problemi e al processo decisionale.

Casi d'uso nel settore delle soluzioni di archiviazione dati basate su cloud

Produzione industriale

Una grande multinazionale manifatturiera genera grandi volumi di dati per vari usi. Alcuni dati sono importanti, mentre altri possono avere o meno uno scopo in futuro. L'azienda utilizza un data warehouse basato su cloud per lo storage di dati di massa, che è meno costoso rispetto ad altre opzioni di data storage. Tuttavia, l'azienda dispone anche di data mart per aree specifiche dell'attività che forniscono valore agli utenti business in reparti come finanza, produzione e marketing. Ognuno di questi mercati contiene dati destinati a un uso specifico, formattati per facilitarne l'analisi. Ad esempio:

  • Il dipartimento finanziario utilizza il suo data mart per preparare gli estratti conto dei clienti e gestire i bilanci.
  • Il reparto di produzione utilizza il suo data mart per analizzare l'efficienza della linea di assemblaggio, elaborare i dati per l'input nelle soluzioni AI e mantenere i database di procurement.
  • Il reparto di marketing utilizza il suo data mart per determinare l'efficacia delle campagne e della comunicazione mentre analizza e raccoglie le risposte ai sondaggi.

Grande comune

Un grande comune ha bisogno di una soluzione conveniente che fornisca dati in modo conveniente e utilizzabile. Il comune utilizza un data lake nel cloud per gestire i dati sul traffico. Al momento non può permettersi di analizzare e agire su quei dati, ma sarà pronto a farlo quando arriveranno i finanziamenti. Utilizza anche un data warehouse on-premise per tenere traccia dello stato delle fatture fiscali. Inoltre, il comune utilizza un data mart per tracciare la diffusione di un virus tra i residenti, aggregando i dati di vari ospedali e servizi sanitari cittadini in un unico archivio che sarà analizzato e utilizzato dal reparto sanitario.

Idee sbagliate frequenti sullo storage di dati basato su cloud

Esistono molti equivoci riguardo agli archivi di dati basati su cloud. Alcune delle idee sbagliate più comuni includono quanto segue:

  • Taglia unica: questo non è assolutamente il caso quando si considerano le soluzioni di data storage nel cloud. Ogni azienda ha vincoli di budget, obiettivi, allocazioni di risorse e preferenze diversi. È importante valutare le esigenze e il budget della tua azienda e lasciare che siano questi elementi a determinare la soluzione che ti aiuterà a raggiungere i tuoi obiettivi.
  • Le isole di dati lasciano i dati bloccati in un repository: falso. La natura stessa dello storage basato su cloud è che consente l'accesso ai dati da qualsiasi luogo, con le autorizzazioni appropriate.
  • Le soluzioni cloud sono meno sicure: in realtà, i provider di cloud possono offrire una maggiore sicurezza, fornendo aggiornamenti regolari e i protocolli più recenti disponibili. Spesso dispongono di team di esperti di sicurezza con le certificazioni più recenti, dedicati a garantire che la soluzione di sicurezza più rigorosa protegga i dati. Molti fornitori dispongono inoltre di team che collaborano con gli enti preposti alla conformità normativa per ottimizzare le proprie soluzioni. Tuttavia, in alcuni settori (come l'assistenza sanitaria e la finanza), la conformità normativa può richiedere la capacità di accedere ai dati senza una connessione internet, per la quale è richiesta attrezzatura on-premise.
  • Gli archivi di dati basati su cloud sono costosi: il cloud storage può essere meno costoso delle soluzioni on-premise perché non sono necessari ingenti investimenti iniziali nell'infrastruttura, costi di raffreddamento o di spazio, costi di manutenzione o team di esperti interni. I costi mensili variano a seconda del fornitore o del provider di cloud.

 

Come determinare quale soluzione di storage cloud è la migliore per la sua azienda

La tua attività è unica, con risorse, obiettivi e sfide specifici. Valuta attentamente le tue opzioni per determinare quale soluzione soddisferà al meglio le tue esigenze. Considera quanto segue:

  • I tuoi obiettivi aziendali e di tecnologia
  • Il tuo budget
  • Il volume di dati che hanno bisogno di storage
  • Con quale frequenza dovrai accedervi
  • Se hai esigenze specifiche oggi o a breve termine

Queste considerazioni ti aiuteranno a scegliere quale soluzione, o combinazione di soluzioni, ti aiuterà a raggiungere i tuoi obiettivi.

Archivi di dati IBM nel cloud: soluzioni e gestione

IBM offre diverse soluzioni per soddisfare le tue esigenze di cloud storage e data science.

  • IBM Db2 Warehouse on Cloud è un data warehouse cloud elastico che offre scalabilità indipendente di storage ed elaborazione. I data mart più piccoli possono utilizzare la funzionalità Flex One, ovvero un data warehouse elastico progettato per analytics ad alte prestazioni. Questo sistema è implementabile su più provider di cloud, a partire da 40 GB di storage.
  • Un'altra opzione da prendere in considerazione è IBM® InfoSphere Master Data Management (MDM). Questo sistema personalizzabile gestisce tutti gli aspetti dei tuoi dati aziendali critici, offrendo agli utenti l'accesso in un'unica vista affidabile. Attraverso questo dashboard, gli utenti hanno la possibilità di condurre analisi dettagliate, ottenere insight fruibili e garantire la totale conformità alla governance dei dati in tutta l'azienda.
  • Netezza Performance Server, la prossima evoluzione dell'appliance IBM® Netezza, si basa sull'architettura iperconvergente di IBM® Cloud Pak for Data System per fornire un sistema di supporto decisionale cloud-native per le analisi più complesse della sua azienda. Ora è disponibile anche su AWS e Azure.
  • IBM® Watson Studio, un'offerta di data science e machine learning, consente alle organizzazioni di attingere agli asset di dati e inserire previsioni nei processi aziendali e nelle applicazioni moderne.

    Autore

    Tanmay Sinha

    Program Director, Db2 Portfolio