Una piattaforma dati moderna è una suite di prodotti software cloud-first, cloud-native che consentono la raccolta, la pulizia, la trasformazione e l'analisi dei dati di un'organizzazione per migliorare il processo decisionale.
Le pipeline di dati odierne sono diventate sempre più complesse e importanti per l'analytics dei dati e per prendere decisioni basate sui dati. Una piattaforma dati moderna genera fiducia in questi dati acquisendoli, memorizzandoli, elaborandoli e trasformandoli in modo da garantire informazioni accurate e tempestive, ridurre i silo di dati, abilitare il self-service e migliorare la qualità dei dati.
Una piattaforma di dati moderna, nota anche come moderno stack di dati, è composta da cinque livelli di fondazione critici: data storage ed elaborazione dati, data ingestion, trasformazione dei dati, business intelligence (BI) e analytics e osservabilità dei dati.
I due principi fondamentali che regolano le piattaforme dati moderne sono:
Scopri in che modo l'osservabilità proattiva dei dati può aiutarti a rilevare prima gli incidenti che riguardano i dati e a risolverli più rapidamente.
Iscriviti alla newsletter IBM
Una piattaforma dati moderna è supportata non solo dalla tecnologia, ma anche dai DevOps, dai DataOps e dalle filosofie agili. Sebbene DevOps e DataOps abbiano scopi completamente diversi, ciascuno di essi è simile alla filosofia agile, che è progettata per accelerare i cicli di lavoro dei progetti.
DevOps si concentra sullo sviluppo del prodotto, mentre DataOps si concentra sulla creazione e sulla manutenzione di un sistema di architettura dei dati distribuito che fornisce valore aziendale dai dati.
Agile è una filosofia per lo sviluppo software che promuove velocità ed efficienza, ma senza eliminare il fattore "umano". Pone l'accento sulle conversazioni di persona come modo per massimizzare le comunicazioni, sottolineando anche l'automazione come mezzo per ridurre al minimo gli errori.
Il primo livello di fondazione di una piattaforma dati moderna è costituito da storage ed elaborazione.
I data storage moderni si concentrano sull'utilizzo efficiente dei dati, che include posizione di memorizzazione e modalità di elaborazione. I due formati di storage più diffusi sono i data warehouse e i data lake, sebbene i data lakehouse e i data mesh stiano acquisendo popolarità.
Il data warehouse
I data warehouse sono progettati per gestire dati strutturati con casi d'uso chiari e definiti.
L'uso dei data warehouse può essere fatto risalire agli anni '90, quando i database venivano utilizzati per archiviare i dati. Questi data warehouse erano locali e avevano una capacità di archiviazione molto limitata.
Intorno al 2013, i data warehouse hanno iniziato a spostarsi nel cloud, dove la scalabilità è diventata improvvisamente possibile. I data warehouse basati sul cloud sono rimasti il sistema di archiviazione dati preferito perché ottimizzano la potenza di calcolo e le velocità di elaborazione.
Affinché un data warehouse funzioni correttamente, i dati devono essere raccolti, riformattati, puliti e caricati nel warehouse. Tutti i dati che non possono essere riformattati potrebbero andare persi.
Il data lake
Nel gennaio del 2008, Yahoo ha rilasciato Hadoop (basato su NoSQL) come progetto open source per Apache Software Foundation. I data lake erano originariamente basati su Hadoop, erano scalabili e progettati per l'uso on-premise. Purtroppo, l'ecosistema Hadoop è estremamente complesso e difficile da usare. I data lake hanno iniziato a spostarsi sul cloud intorno al 2015 e questo li ha resi molto meno costosi e più facili da usare.
I data lake sono stati originariamente progettati per raccogliere dati grezzi e non strutturati senza imporre schemi (formati) in modo che i ricercatori potessero ottenere maggiori insight da un'ampia gamma di dati. A causa di problemi con l'analisi di informazioni vecchie, imprecise o inutili, i data lake possono diventare "paludi di dati" meno efficaci.
Un'architettura tipica del data lake potrebbe avere dati memorizzati in un Object Storage come Amazon S3 di AWS, in abbinamento a uno strumento come Spark per elaborarli.
Il data lakehouse
I data lakehouse uniscono la flessibilità, l'efficienza dei costi e le capacità di scalabilità dei data lake con le transazioni ACID (atomicità, coerenza, isolamento e durabilità) e le funzioni di gestione dei dati dei data warehouse. (ACID è un acronimo della serie di 4 proprietà chiave che definiscono una transazione: atomicità, coerenza, isolamento e durabilità).
I data lakehouse supportano la BI e il machine learning, mentre un punto di forza dei data lakehouse è l'utilizzo di livelli di metadati. I data lakehouse utilizzano anche un nuovo motore di query, progettato per ricerche SQL ad alte prestazioni.
Rete di dati
A differenza dei data warehouse, dei data lake e dei data lakehouse, il data mesh decentralizza la proprietà dei dati. Con questo modello architetturale, un dominio specifico (ad esempio, un business partner o un reparto) non possiede i propri dati, ma li condivide liberamente con altri domini. Ciò significa che tutti i dati all'interno del sistema di data mesh devono mantenere un formato uniforme.
I sistemi data mesh possono essere utili per le aziende che supportano più domini di dati. All'interno della progettazione della rete di dati, sono presenti un livello di governance dei dati e un livello di osservabilità. Esiste anche un livello di interoperabilità universale.
La mesh di dati può essere utile per le organizzazioni in rapida espansione e che necessitano di scalabilità per l'archiviazione dei dati.
Il processo di inserimento dei dati in un sistema di storage per un utilizzo futuro è definito data ingestion, il secondo livello di una moderna piattaforma dati.
In termini semplici, l’inserimento dei dati significa spostare i dati da varie fonti in una posizione centrale. Da lì, i dati possono essere utilizzati per scopi di tenuta dei registri o per ulteriori elaborazioni e analisi, che si basano entrambe su dati accessibili, coerenti e accurati.
Le organizzazioni prendono decisioni aziendali utilizzando i dati della loro infrastruttura di analisi. Il valore di questi dati dipende dal modo in cui vengono inseriti e integrati. Se si verificano problemi durante il processo di acquisizione, come set di dati mancanti o obsoleti, ogni fase del processo di analisi ne risentirà. Ciò è particolarmente vero quando si tratta di big data.
Modelli di elaborazione dati
L'inserimento dei dati può essere effettuato in diversi modi e il modo in cui è progettato un particolare livello di data ingestion può essere basato su diversi modelli di elaborazione. I dati possono provenire da una serie di fonti diverse, tra cui piattaforme SaaS, dispositivi internet delle cose (IoT) e dispositivi mobili. Un buon modello di trattamento dei dati funge da base per una strategia di dati efficiente, pertanto le organizzazioni devono determinare il modello più adatto ai loro casi specifici.
Il livello successivo, la trasformazione dei dati, si occupa della modifica dei valori, della struttura e del formato dei dati, spesso necessari per i progetti di analytics dei dati. I dati possono essere trasformati prima o dopo l'arrivo alla destinazione di storage quando si utilizza una pipeline di dati.
Fino a poco tempo fa, i moderni modelli di data ingestion utilizzavano una procedura ETL (estrazione, trasformazione, caricamento), per prelevare i dati dall'origine, riformattarli e trasportarli a destinazione. Ciò aveva senso quando le aziende dovevano utilizzare costosi sistemi di analytics interni. Effettuare il lavoro di preparazione prima della consegna, comprese le trasformazioni, ha contribuito a ridurre i costi. Le organizzazioni che utilizzano ancora data warehouse on-premise utilizzeranno normalmente un processo ETL.
Molte organizzazioni oggi preferiscono i data warehouse basati sul cloud (IBM, Snowflake, Google BigQuery, Microsoft Azure e altri) perché possono scalare le risorse di calcolo e archiviazione in base alle esigenze. La scalabilità del cloud consente di bypassare le trasformazioni dei pre-carichi, in modo che i dati grezzi possano essere inviati al data warehouse più rapidamente. I dati vengono quindi trasformati dopo l'arrivo utilizzando un modello ELT (estrazione, caricamento, trasformazione), in genere quando si risponde a una query.
A questo punto i dati possono essere tradotti in un formato SQL ed eseguiti all'interno del data warehouse durante la ricerca.
La trasformazione dei dati presenta diversi vantaggi:
Il quarto livello della piattaforma dati moderna è costituito dagli strumenti di business intelligence (BI) e di analisi.
Nel 1865, Richard Millar Devens presentò la frase "business intelligence" nella "Cyclopædia of Commercial and Business Anecdotes". Usò il termine per descrivere come il banchiere Sir Henry Furnese traeva profitto dalle informazioni raccogliendole e utilizzandole prima della concorrenza.
Attualmente, una grande quantità di informazioni aziendali viene raccolta dall'analisi aziendale e dall'analisi dei dati. Gli strumenti di BI e analisi possono essere utilizzati per accedere, analizzare e trasformare i dati in visualizzazioni che offrono insight comprensibili. Fornire a ricercatori e data scientist informazioni dettagliate può aiutarli a prendere decisioni aziendali tattiche e strategiche.
L'ultimo dei cinque livelli fondamentali di una moderna piattaforma dati è l'osservabilità dei dati.
L'osservabilità dei dati descrive la possibilità di guardare e osservare lo stato dei dati e la relativa salute. Copre una serie di attività e tecnologie che, se combinate, consentono all'utente di identificare e risolvere le difficoltà relative ai dati quasi in tempo reale.
L'osservabilità consente ai team di data engineering di rispondere a domande specifiche su ciò che avviene dietro le quinte in sistemi estremamente distribuiti. Può mostrare dove i dati si muovono lentamente e cosa non funziona.
I manager, i team che si occupano dei dati e vari altri stakeholder possono ricevere avvisi su potenziali problemi, in modo da poterli risolvere in modo proattivo. Sebbene la funzionalità di prevedibilità possa essere utile, non garantisce che rileverà tutti i problemi.
Per rendere utile l'osservabilità dei dati, è necessario includere queste funzioni:
Per molte organizzazioni, l'osservabilità è isolata e questo significa che solo alcuni dipartimenti possono accedere ai dati. Filosoficamente, un sistema di data mesh risolve questo problema richiedendo la condivisione dei dati, fatto generalmente scoraggiato nei tradizionali sistemi di storage ed elaborazione.
Oltre ai cinque livelli di fondazione di cui abbiamo parlato sopra, gli altri livelli comuni in uno stack di dati moderno includono:
I dati inaccessibili sono dati essenzialmente inutili. La data discovery aiuta a garantire che non rimangano inutilizzati. Si tratta di raccogliere, valutare ed esplorare i dati provenienti da diverse fonti per aiutare i leader aziendali a comprendere le tendenze e i modelli individuati nei dati. Può pulire e preparare i dati e talvolta è associata alla BI perché può riunire dati in silo per l'analisi.
Le piattaforme dati moderne enfatizzano la governance e la sicurezza dei dati per proteggere le informazioni sensibili, garantire la conformità normativa e gestire la qualità dei dati. Gli strumenti che supportano questo livello includono controllo dell'accesso ai dati, crittografia, auditing e tracciamento della derivazione dei dati.
La catalogazione dei dati e la gestione dei metadati sono fondamentali per scoprire e comprendere gli asset dati disponibili. Questo aiuta gli utenti a trovare i dati giusti per le loro analisi.
Alcune moderne piattaforme dati integrano funzionalità di machine learning e AI per l'analytics predittiva, il rilevamento delle anomalie e il processo decisionale automatizzato.
IBM® Databand® è un software di osservabilità per pipeline di dati e warehouse che raccoglie automaticamente i metadati per creare linee di base cronologiche, rilevare anomalie e valutare gli avvisi per correggere i problemi di qualità dei dati.
Supportando i modelli ETL ed ELT, IBM® DataStage® offre un'integrazione dati flessibile e quasi in tempo reale, sia on-premise che nel cloud.
Catalogo intelligente di dati per l'era dell'AI, IBM® Knowledge Catalog ti consente di accedere, rendere accurati, categorizzare e condividere i dati, gli asset di conoscenza e le loro relazioni, ovunque si trovino.
Esaminalo dettagliatamente, per capire che cos'è l'osservabilità dei dati, perché è importante, come si è evoluta con i moderni sistemi di dati e le best practice per implementare un framework di osservabilità dei dati.
Scopri che cos'è l'ELT, come funziona il processo, in che modo è diverso dall'ETL, le sue sfide e i suoi limiti e le best practice per l'implementazione delle pipeline ELT.
Per anni, le supply chain aziendali hanno poggiato su fondamenta traballanti di dati scollegati, non verificabili e non tempestivi. Dati puliti e connessi costituiscono il fondamento delle operazioni della supply chain di prossima generazione.
Scopri come la data science è in grado di sbloccare gli insight aziendali, accelerare la trasformazione digitale e promuovere un processo decisionale basato sui dati.