Lo storage dei dati basato sul cloud, in particolare quello dei big data, è oggi una priorità assoluta, sia che si faccia affidamento su di esso per svolgere le attività quotidiane sia per portare a termine attività specifiche.
I dati sono alla base di molte funzioni aziendali: dalla creazione di programmi mirati per clienti attuali e potenziali all'ottimizzazione delle operazioni e dei processi di produzione, fino a sviluppo, test, distribuzione e monitoraggio dei test del virus e delle vaccinazioni. Le aziende moderne fanno affidamento sulla disponibilità dei dati di cui hanno bisogno, quando ne hanno bisogno. Tuttavia, trovare l'opzione migliore per soddisfare le sue esigenze non è un compito facile e può comportare diversi tipi di archivi per diverse categorie di dati.
Cominciamo con le nozioni di base e approfondiamo alcuni esempi di come uno o più tipi di archivi di dati possano essere necessari per soddisfare le esigenze della tua azienda.
Oggi esistono tre tipi distinti di archivi di cloud storage, ognuno dei quali serve uno scopo diverso per rispondere a un'esigenza specifica:
Un data lake è un grande archivio di dati non elaborati, sia non strutturati che semi-strutturati. Questi dati vengono aggregati da varie fonti e memorizzati. Non vengono modificati per soddisfare uno scopo specifico o per adattarsi a un formato particolare. La preparazione dei dati per l'analisi è un lungo processo di pulizia e riformattazione per renderli uniforme. I data lake sono ottime risorse per le organizzazioni che memorizzano informazioni relative a interruzioni, traffico, criminalità o dati demografici. I dati possono essere utilizzati in un secondo momento per aggiornare i budget e le risorse del DPW o dei servizi di emergenza.
Un data warehouse è un'aggregazione di dati provenienti da diverse fonti in un unico archivio centralizzato che unifica le qualità e il formato dei dati, cosa che lo rende utile per i data scientist nel data mining, nell'intelligenza artificiale (AI), nel machine learning e, in ultima analisi, nell'analytics aziendale e nella business intelligence. Il data warehousing può essere utilizzato da una grande città per aggregare le transazioni elettroniche di vari dipartimenti, tra cui le multe per eccesso di velocità, le licenze per i cani, i pagamenti delle accise e altre transazioni. Questi dati strutturati verranno analizzati dal comune per emettere fatture di follow-up e aggiornare i dati del censimento e i registri della polizia, o verranno utilizzati dagli sviluppatori per aggregare terabyte di dati generati dai sensori sulle automobili per aiutare nel processo decisionale e trovare una soluzione di guida autonoma.
Un data mart è un sottoinsieme di un data warehouse che beneficia un gruppo specifico di utenti all'interno dell'azienda o dell'unità di business. Un data mart può essere utilizzato dal reparto marketing di un'azienda manifatturiera per determinare il target demografico o personale ideale, per aiutare lo sviluppo dei piani di marketing. Può anche essere utilizzato da un reparto di produzione per analizzare le prestazioni e i tassi di errore e consentire un miglioramento continuo. I set di dati all'interno di un data mart vengono spesso utilizzati in tempo reale, per analisi attuali e risultati attuabili.
Sebbene tutti e tre i tipi di archivi di dati cloud contengano dati, le differenze tra loro sono molto marcate. Ad esempio, un data warehouse e un data lake sono entrambi grandi aggregazioni di dati, ma un data lake è in genere più conveniente da implementare e mantenere perché è in gran parte non strutturato.
Negli ultimi anni, l'architettura del data lake si è evoluta per supportare volumi maggiori di dati e cloud computing. Grandi quantità di dati vengono ricevute da diverse fonti di dati verso una posizione centrale.
Un data warehouse può essere strutturato in tre modi:
I dati all'interno di un data warehouse possono essere utilizzati più facilmente per vari scopi rispetto a quelli all'interno di un data lake, perché un data warehouse è strutturato e può essere estratto o analizzato più facilmente.
Un data mart, invece, contiene una quantità minore di dati sia rispetto a un data lake che a un data warehouse, e i dati sono classificati per un uso o per un'unità di business specifici. Un data mart può esistere in molti formati diversi (star, snowflake o vault) definiti dalla struttura logica dei dati, con una struttura vault più agile, flessibile e scalabile rispetto agli altri formati.
Esistono tre tipi di data mart:
Il tipo di repository di dati che scegli e la sua struttura dipendono fortemente dalle esigenze e dalle richieste della tua azienda. Se per la tua attività ha senso, utilizza al meglio i vantaggi dello storage basato su hybrid cloud per flessibilità, scalabilità e un approccio più ampio e informato alla risoluzione dei problemi e al processo decisionale.
Una grande multinazionale manifatturiera genera grandi volumi di dati per vari usi. Alcuni dati sono importanti, mentre altri possono avere o meno uno scopo in futuro. L'azienda utilizza un data warehouse basato su cloud per lo storage di dati di massa, che è meno costoso rispetto ad altre opzioni di data storage. Tuttavia, l'azienda dispone anche di data mart per aree specifiche dell'attività che forniscono valore agli utenti business in reparti come finanza, produzione e marketing. Ognuno di questi mercati contiene dati destinati a un uso specifico, formattati per facilitarne l'analisi. Ad esempio:
Un grande comune ha bisogno di una soluzione conveniente che fornisca dati in modo conveniente e utilizzabile. Il comune utilizza un data lake nel cloud per gestire i dati sul traffico. Al momento non può permettersi di analizzare e agire su quei dati, ma sarà pronto a farlo quando arriveranno i finanziamenti. Utilizza anche un data warehouse on-premise per tenere traccia dello stato delle fatture fiscali. Inoltre, il comune utilizza un data mart per tracciare la diffusione di un virus tra i residenti, aggregando i dati di vari ospedali e servizi sanitari cittadini in un unico archivio che sarà analizzato e utilizzato dal reparto sanitario.
Esistono molti equivoci riguardo agli archivi di dati basati su cloud. Alcune delle idee sbagliate più comuni includono quanto segue:
La tua attività è unica, con risorse, obiettivi e sfide specifici. Valuta attentamente le tue opzioni per determinare quale soluzione soddisferà al meglio le tue esigenze. Considera quanto segue:
Queste considerazioni ti aiuteranno a scegliere quale soluzione, o combinazione di soluzioni, ti aiuterà a raggiungere i tuoi obiettivi.
IBM offre diverse soluzioni per soddisfare le tue esigenze di cloud storage e data science.