Che cos'è una piattaforma dati moderna?
Esplora Databand
Fotografia di un display digitale dall'aspetto moderno
Che cos'è una piattaforma dati moderna?

Una piattaforma dati moderna è una suite di prodotti software cloud-first, cloud-native che consentono la raccolta, la pulizia, la trasformazione e l'analisi dei dati di un'organizzazione per migliorare il processo decisionale.

Le pipeline di dati odierne sono diventate sempre più complesse e importanti per l'analytics dei dati e per prendere decisioni basate sui dati. Una piattaforma dati moderna genera fiducia in questi dati acquisendoli, memorizzandoli, elaborandoli e trasformandoli in modo da garantire informazioni accurate e tempestive, ridurre i silo di dati, abilitare il self-service e migliorare la qualità dei dati.

Una piattaforma di dati moderna, nota anche come moderno stack di dati, è composta da cinque livelli di fondazione critici: data storage ed elaborazione dati, data ingestion, trasformazione dei dati, business intelligence (BI) e analytics e osservabilità dei dati.

I due principi fondamentali che regolano le piattaforme dati moderne sono:

  • Disponibilità: i dati sono immediatamente disponibili in un data lake o data warehouse, che separano storage e calcolo. La suddivisione di queste funzioni consente di archiviare grandi quantità di dati a costi relativamente bassi.

  • Elasticità: le funzioni di calcolo sono basate sul cloud, che consente scalabilità automatica. Ad esempio, se la maggior parte dei dati e delle analytics viene utilizzata in un certo giorno e a una certa ora, l'elaborazione può essere aumentata automaticamente per migliorare l'esperienza del cliente e ridimensionata quando le esigenze di workload diminuiscono.
Prenota subito una demo di IBM Databand

Scopri in che modo l'osservabilità proattiva dei dati può aiutarti a rilevare prima gli incidenti che riguardano i dati e a risolverli più rapidamente.

Contenuti correlati

Iscriviti alla newsletter IBM

Filosofie delle piattaforme dati moderne

Una piattaforma dati moderna è supportata non solo dalla tecnologia, ma anche dai DevOps, dai DataOps e dalle filosofie agili. Sebbene DevOps e DataOps abbiano scopi completamente diversi, ciascuno di essi è simile alla filosofia agile, che è progettata per accelerare i cicli di lavoro dei progetti.

DevOps si concentra sullo sviluppo del prodotto, mentre DataOps si concentra sulla creazione e sulla manutenzione di un sistema di architettura dei dati distribuito che fornisce valore aziendale dai dati.

Agile è una filosofia per lo sviluppo software che promuove velocità ed efficienza, ma senza eliminare il fattore "umano". Pone l'accento sulle conversazioni di persona come modo per massimizzare le comunicazioni, sottolineando anche l'automazione come mezzo per ridurre al minimo gli errori.

Data storage ed elaborazione dei dati

Il primo livello di fondazione di una piattaforma dati moderna è costituito da storage ed elaborazione.

I data storage moderni si concentrano sull'utilizzo efficiente dei dati, che include posizione di memorizzazione e modalità di elaborazione. I due formati di storage più diffusi sono i data warehouse e i data lake, sebbene i data lakehouse e i data mesh stiano acquisendo popolarità.

Il data warehouse

I data warehouse sono progettati per gestire dati strutturati con casi d'uso chiari e definiti.

L'uso dei data warehouse può essere fatto risalire agli anni '90, quando i database venivano utilizzati per archiviare i dati. Questi data warehouse erano locali e avevano una capacità di archiviazione molto limitata.

Intorno al 2013, i data warehouse hanno iniziato a spostarsi nel cloud, dove la scalabilità è diventata improvvisamente possibile. I data warehouse basati sul cloud sono rimasti il sistema di archiviazione dati preferito perché ottimizzano la potenza di calcolo e le velocità di elaborazione.

Affinché un data warehouse funzioni correttamente, i dati devono essere raccolti, riformattati, puliti e caricati nel warehouse. Tutti i dati che non possono essere riformattati potrebbero andare persi.

Il data lake

Nel gennaio del 2008, Yahoo ha rilasciato Hadoop (basato su NoSQL) come progetto open source per Apache Software Foundation. I data lake erano originariamente basati su Hadoop, erano scalabili e progettati per l'uso on-premise. Purtroppo, l'ecosistema Hadoop è estremamente complesso e difficile da usare. I data lake hanno iniziato a spostarsi sul cloud intorno al 2015 e questo li ha resi molto meno costosi e più facili da usare.

I data lake sono stati originariamente progettati per raccogliere dati grezzi e non strutturati senza imporre schemi (formati) in modo che i ricercatori potessero ottenere maggiori insight da un'ampia gamma di dati. A causa di problemi con l'analisi di informazioni vecchie, imprecise o inutili, i data lake possono diventare "paludi di dati" meno efficaci.

Un'architettura tipica del data lake potrebbe avere dati memorizzati in un Object Storage come Amazon S3 di AWS, in abbinamento a uno strumento come Spark per elaborarli.

Il data lakehouse

I data lakehouse uniscono la flessibilità, l'efficienza dei costi e le capacità di scalabilità dei data lake con le transazioni ACID (atomicità, coerenza, isolamento e durabilità) e le funzioni di gestione dei dati dei data warehouse. (ACID è un acronimo della serie di 4 proprietà chiave che definiscono una transazione: atomicità, coerenza, isolamento e durabilità).

I data lakehouse supportano la BI e il machine learning, mentre un punto di forza dei data lakehouse è l'utilizzo di livelli di metadati. I data lakehouse utilizzano anche un nuovo motore di query, progettato per ricerche SQL ad alte prestazioni.

Rete di dati

A differenza dei data warehouse, dei data lake e dei data lakehouse, il data mesh decentralizza la proprietà dei dati. Con questo modello architetturale, un dominio specifico (ad esempio, un business partner o un reparto) non possiede i propri dati, ma li condivide liberamente con altri domini. Ciò significa che tutti i dati all'interno del sistema di data mesh devono mantenere un formato uniforme.

I sistemi data mesh possono essere utili per le aziende che supportano più domini di dati. All'interno della progettazione della rete di dati, sono presenti un livello di governance dei dati e un livello di osservabilità. Esiste anche un livello di interoperabilità universale.

La mesh di dati può essere utile per le organizzazioni in rapida espansione e che necessitano di scalabilità per l'archiviazione dei dati.

Ingestione di dati

Il processo di inserimento dei dati in un sistema di storage per un utilizzo futuro è definito data ingestion, il secondo livello di una moderna piattaforma dati.

In termini semplici, l’inserimento dei dati significa spostare i dati da varie fonti in una posizione centrale. Da lì, i dati possono essere utilizzati per scopi di tenuta dei registri o per ulteriori elaborazioni e analisi, che si basano entrambe su dati accessibili, coerenti e accurati.

Le organizzazioni prendono decisioni aziendali utilizzando i dati della loro infrastruttura di analisi. Il valore di questi dati dipende dal modo in cui vengono inseriti e integrati. Se si verificano problemi durante il processo di acquisizione, come set di dati mancanti o obsoleti, ogni fase del processo di analisi ne risentirà. Ciò è particolarmente vero quando si tratta di big data.

Modelli di elaborazione dati

L'inserimento dei dati può essere effettuato in diversi modi e il modo in cui è progettato un particolare livello di data ingestion può essere basato su diversi modelli di elaborazione. I dati possono provenire da una serie di fonti diverse, tra cui piattaforme SaaS, dispositivi internet delle cose (IoT) e dispositivi mobili. Un buon modello di trattamento dei dati funge da base per una strategia di dati efficiente, pertanto le organizzazioni devono determinare il modello più adatto ai loro casi specifici.

  • L'elaborazione batch è la forma più comune di inserimento dati, sebbene non sia progettata per l'elaborazione in tempo reale. Invece, raccoglie e raggruppa i dati di origine in batch, che vengono inviati alla destinazione. L'elaborazione batch può essere avviata utilizzando una semplice pianificazione o attivata quando esistono determinate condizioni predeterminate. Viene in genere utilizzato quando i dati in tempo reale non sono necessari, perché richiede meno lavoro ed è meno costoso dell'elaborazione in tempo reale.
     
  • L'elaborazione in tempo reale (detta anche elaborazione streaming o stream) non raggruppa i dati. I dati vengono invece ottenuti, trasformati e caricati non appena vengono riconosciuti. L'elaborazione in tempo reale è più dispendiosa, perché richiede un monitoraggio costante delle origini dati e accetta automaticamente nuove informazioni.
Trasformazione dei dati

Il livello successivo, la trasformazione dei dati, si occupa della modifica dei valori, della struttura e del formato dei dati, spesso necessari per i progetti di analytics dei dati. I dati possono essere trasformati prima o dopo l'arrivo alla destinazione di storage quando si utilizza una pipeline di dati.

Fino a poco tempo fa, i moderni modelli di data ingestion utilizzavano una procedura ETL (estrazione, trasformazione, caricamento), per prelevare i dati dall'origine, riformattarli e trasportarli a destinazione. Ciò aveva senso quando le aziende dovevano utilizzare costosi sistemi di analytics interni. Effettuare il lavoro di preparazione prima della consegna, comprese le trasformazioni, ha contribuito a ridurre i costi. Le organizzazioni che utilizzano ancora data warehouse on-premise utilizzeranno normalmente un processo ETL.

Molte organizzazioni oggi preferiscono i data warehouse basati sul cloud (IBM, Snowflake, Google BigQuery, Microsoft Azure e altri) perché possono scalare le risorse di calcolo e archiviazione in base alle esigenze. La scalabilità del cloud consente di bypassare le trasformazioni dei pre-carichi, in modo che i dati grezzi possano essere inviati al data warehouse più rapidamente. I dati vengono quindi trasformati dopo l'arrivo utilizzando un modello ELT (estrazione, caricamento, trasformazione), in genere quando si risponde a una query.

A questo punto i dati possono essere tradotti in un formato SQL ed eseguiti all'interno del data warehouse durante la ricerca.

La trasformazione dei dati presenta diversi vantaggi:

  • Usabilità: standardizzare i dati e inserirli nella giusta struttura consente al team di ingegneria dei dati di generare valore aziendale da dati altrimenti inutilizzabili e non analizzati.
  • Qualità dei dati: la trasformazione dei dati non elaborati aiuta a individuare e correggere gli errori, le incongruenze e i valori mancanti, ottenendo dati più puliti e accurati.

  • Migliore organizzazione: i dati trasformati sono più facili da elaborare sia per le persone che per i computer.
Business intelligence e analytics

Il quarto livello della piattaforma dati moderna è costituito dagli strumenti di business intelligence (BI) e di analisi.

Nel 1865, Richard Millar Devens presentò la frase "business intelligence" nella "Cyclopædia of Commercial and Business Anecdotes". Usò il termine per descrivere come il banchiere Sir Henry Furnese traeva profitto dalle informazioni raccogliendole e utilizzandole prima della concorrenza.

Attualmente, una grande quantità di informazioni aziendali viene raccolta dall'analisi aziendale e dall'analisi dei dati. Gli strumenti di BI e analisi possono essere utilizzati per accedere, analizzare e trasformare i dati in visualizzazioni che offrono insight comprensibili. Fornire a ricercatori e data scientist informazioni dettagliate può aiutarli a prendere decisioni aziendali tattiche e strategiche.

Osservabilità dei dati

L'ultimo dei cinque livelli fondamentali di una moderna piattaforma dati è l'osservabilità dei dati.

L'osservabilità dei dati descrive la possibilità di guardare e osservare lo stato dei dati e la relativa salute. Copre una serie di attività e tecnologie che, se combinate, consentono all'utente di identificare e risolvere le difficoltà relative ai dati quasi in tempo reale.

L'osservabilità consente ai team di data engineering di rispondere a domande specifiche su ciò che avviene dietro le quinte in sistemi estremamente distribuiti. Può mostrare dove i dati si muovono lentamente e cosa non funziona.

I manager, i team che si occupano dei dati e vari altri stakeholder possono ricevere avvisi su potenziali problemi, in modo da poterli risolvere in modo proattivo. Sebbene la funzionalità di prevedibilità possa essere utile, non garantisce che rileverà tutti i problemi.

Per rendere utile l'osservabilità dei dati, è necessario includere queste funzioni:

  • Tracciamento SLA: misura i metadati della pipeline e la qualità dei dati rispetto agli standard predefiniti.
  • Monitoraggio: una dashboard dettagliata che mostra le metriche operative di un sistema o di una pipeline.
  • Registrazione: Le registrazioni storiche (tracciamento, confronti, analisi) degli eventi vengono conservate per il confronto con le anomalie appena scoperte.
  • Avviso: gli avvisi vengono inviati sia per le anomalie che per gli eventi previsti.
  • Analisi: processo di rilevamento automatico che si adatta al sistema.
  • Monitoraggio: offre la possibilità di monitorare metriche ed eventi specifici.
  • Confronti: fornisce uno sfondo storico e avvisi di anomalia.

Per molte organizzazioni, l'osservabilità è isolata e questo significa che solo alcuni dipartimenti possono accedere ai dati. Filosoficamente, un sistema di data mesh risolve questo problema richiedendo la condivisione dei dati, fatto generalmente scoraggiato nei tradizionali sistemi di storage ed elaborazione.

Altri livelli della moderna piattaforma dati

Oltre ai cinque livelli di fondazione di cui abbiamo parlato sopra, gli altri livelli comuni in uno stack di dati moderno includono:

Rilevamento dati

I dati inaccessibili sono dati essenzialmente inutili. La data discovery aiuta a garantire che non rimangano inutilizzati. Si tratta di raccogliere, valutare ed esplorare i dati provenienti da diverse fonti per aiutare i leader aziendali a comprendere le tendenze e i modelli individuati nei dati. Può pulire e preparare i dati e talvolta è associata alla BI perché può riunire dati in silo per l'analisi.

Governance dei dati

Le piattaforme dati moderne enfatizzano la governance e la sicurezza dei dati per proteggere le informazioni sensibili, garantire la conformità normativa e gestire la qualità dei dati. Gli strumenti che supportano questo livello includono controllo dell'accesso ai dati, crittografia, auditing e tracciamento della derivazione dei dati.

Catalogo dati e gestione dei metadati

La catalogazione dei dati e la gestione dei metadati sono fondamentali per scoprire e comprendere gli asset dati disponibili. Questo aiuta gli utenti a trovare i dati giusti per le loro analisi.

Machine learning e AI

Alcune moderne piattaforme dati integrano funzionalità di machine learning e AI per l'analytics predittiva, il rilevamento delle anomalie e il processo decisionale automatizzato.

Prodotti correlati
IBM Databand

IBM® Databand® è un software di osservabilità per pipeline di dati e warehouse che raccoglie automaticamente i metadati per creare linee di base cronologiche, rilevare anomalie e valutare gli avvisi per correggere i problemi di qualità dei dati.

Esplora Databand

IBM DataStage

Supportando i modelli ETL ed ELT, IBM® DataStage® offre un'integrazione dati flessibile e quasi in tempo reale, sia on-premise che nel cloud.

Esplora DataStage

IBM Knowledge Catalog

Catalogo intelligente di dati per l'era dell'AI, IBM® Knowledge Catalog ti consente di accedere, rendere accurati, categorizzare e condividere i dati, gli asset di conoscenza e le loro relazioni, ovunque si trovino.

Esplora il catalogo conoscenze
risorse Cos'è l'osservabilità dei dati?

Esaminalo dettagliatamente, per capire che cos'è l'osservabilità dei dati, perché è importante, come si è evoluta con i moderni sistemi di dati e le best practice per implementare un framework di osservabilità dei dati.

Che cos'è ELT (Estrai, Carica, Trasforma)? Guida per principianti

Scopri che cos'è l'ELT, come funziona il processo, in che modo è diverso dall'ETL, le sue sfide e i suoi limiti e le best practice per l'implementazione delle pipeline ELT.

Una moderna piattaforma dati cloud è alla base di tutte le supply chain intelligenti

Per anni, le supply chain aziendali hanno poggiato su fondamenta traballanti di dati scollegati, non verificabili e non tempestivi. Dati puliti e connessi costituiscono il fondamento delle operazioni della supply chain di prossima generazione.

Cos'è la data science?

Scopri come la data science è in grado di sbloccare gli insight aziendali, accelerare la trasformazione digitale e promuovere un processo decisionale basato sui dati.

Fasi successive

Implementa oggi stesso l'osservabilità proattiva dei dati con IBM Databand, in modo da individuare un problema di integrità dei dati prima che lo facciano i tuoi utenti.

Esplora Databand