Cos'è il Modern Data Stack?

Varie pile di libri orientati orizzontalmente e verticalmente

Autori

Tom Krantz

Staff Writer

IBM Think

Alexandra Jonker

Staff Editor

IBM Think

Cos'è il Modern Data Stack?

Il Modern Data Stack (MDS) si riferisce a strumenti e tecnologie integrati e basati sul cloud consentono la raccolta,l'inserimento, lo storage, la pulizia, la trasformazione, l'analisi e la governance dei dati. Come suggerisce il nome, uno stack di dati, o "piattaforma dati", stratifica gli strumenti necessari alle organizzazioni per mantenere la qualità dei dati e sbloccare il valore delle proprie informazioni.

I tradizionali stack di dati legacy (LDS) si basano su un'infrastruttura rigida e on-premise che può avere problemi di scalabilità, flessibilità ed elaborazione in tempo reale. Al contrario, una soluzione MDS è cloud-native, modulare e progettata per semplificare l'automazione, ottimizzare i costi e accelerare gli insight. In particolare, l'MDS potenzia l'analytics self-service e le applicazioni di intelligenza artificiale (AI) a cui molte aziende si affidano attualmente.

Le piattaforme di dati sono la spina dorsale dello sviluppo software moderno e offrono una rete di strumenti e framework per creare e gestire le applicazioni in modo efficiente. L'MDS è come la catena di assemblaggio delle operazioni digitali, dove ogni componente ha un ruolo nel trasferimento ottimale dei dati, dall'acquisizione all'analisi. Automatizzando e scalando i workflow, l'MDS garantisce che le organizzazioni possano elaborare, memorizzare e utilizzare i dati con precisione, migliorando il processo decisionale e l'innovazione.

Le funzioni principali dell'MDS comprendono:

Design 3D di palline che rotolano su una pista

Le ultime notizie e insight sull'AI


Scopri notizie e insight selezionati da esperti in materia di AI, cloud e molto altro nella newsletter settimanale Think. 

Perché il Modern Data Stack è importante?

Tra il 2012 e il 2016, un importante cambiamento nei workflow dei dati ha rimodellato il modo in cui le organizzazioni memorizzano ed elaborano i dati. Le piattaforme basate su cloud come Snowflake, Google BigQuery e Amazon Redshift hanno reso popolari i data warehouse cloud, offrendo scalabilità, potenza di calcolo ed efficienza senza precedenti.

Allo stesso tempo, le organizzazioni sono passate dai tradizionali workflow di estrazione, trasformazione, caricamento (ETL), in cui i dati venivano trasformati prima dello storage, all'estrazione, caricamento, trasformazione (ELT), in cui i dati vengono prima memorizzati, quindi elaborati successivamente. Questo approccio ha aumentato la flessibilità e ha reso più accessibili gli insight in tempo reale, utilizzando connettori, o estensioni, per semplificare lo spostamento dei dati.

Durante questo periodo, strumenti come Fivetran e Airflow hanno automatizzato l'ingestione dei dati, mentre piattaforme come Tableau, Power BI e Looker hanno rivoluzionato la BI. Reverse ETL ha migliorato il flusso di dati, trasferendo gli insight dai data warehouse ai sistemi operativi, come i sistemi di gestione della relazione con il cliente (CRM), migliorando automazione, processo-decisionale e personalizzazione. Queste innovazioni hanno gettato le basi per l'MDS, rendendo i workflow dei dati più scalabili, automatizzati e flessibili. Semplificando lo spostamento e l'integrazione dei dati, le organizzazioni hanno ottenuto una maggiore agilità operativa.

Stack di dati legacy vs. stack di dati moderno

Per comprendere l'importanza dell'MDS, è utile confrontarlo con l'LDS:

Le differenze principali in breve

  • Infrastruttura: l'LDS si basa su server fisici, mentre l'MDS è cloud-native.
  • Scalabilità: l'LDS richiede un ridimensionamento manuale, mentre l'MDS si adatta dinamicamente in base alla domanda.
  • Integrazione: l'LDS si basa su workflow personalizzati, mentre l'MDS automatizza la data ingestion.
  • Flessibilità: l'LDS è monolitico, mentre l'MDS è modulare e consente la perfetta integrazione degli strumenti.
  • Analytics: l'LDS supporta la reportistica in batch, mentre l'MDS offre insight in tempo reale e dashboard interattive.
  • Costi: l'LDS comporta un notevole investimento iniziale, mentre l'MDS utilizza modelli pay-as-you-go.

Gli LDS tradizionali sono basati su infrastrutture on-premise e richiedono investimenti significativi a livello di hardware, manutenzione e ridimensionamento manuale. Si basano su workflow ETL, il che significa che i dati devono essere puliti e strutturati prima dello storage. Sebbene siano efficaci per i report statici, gli LDS hanno difficoltà con l'elaborazione in tempo reale, la scalabilità e la gestione di dati non strutturati come log dei sensori, immagini o audio.

L'MDS elimina questi problemi attraverso un approccio modulare e cloud-native, consentendo alle organizzazioni di memorizzare, elaborare e analizzare grandi quantità di dati strutturati e non strutturati in modo più efficiente. I workflow ELT offrono una maggiore flessibilità, spesso utilizzando script basati su Python per l'automazione e l'elaborazione dei dati.

A differenza dell'LDS, che richiede costose espansioni dell'infrastruttura, l'MDS offre scalabilità on-demand e, grazie alla sua natura modulare, consente alle aziende di integrare strumenti di stack dei dati senza vincolarsi a un particolare fornitore. Infine, l'MDS offre insight in tempo reale e funzionalità di analisi e automazione basate sull'AI, rendendo i dati più accessibili e utilizzabili in tutta l'organizzazione.

Mixture of Experts | 12 dicembre, episodio 85

Decoding AI: Weekly News Roundup

Unisciti al nostro gruppo di livello mondiale di ingegneri, ricercatori, leader di prodotto e molti altri mentre si fanno strada nell'enorme quantità di informazioni sull'AI per darti le ultime notizie e gli ultimi insight sull'argomento.

Componenti fondamentali del Modern Data Stack

L'MDS è caratterizzato da diversi componenti di base, tra cui:

  • Data storage
  • Ingestione di dati
  • Trasformazione dei dati
  • BI e analytics
  • Osservabilità dei dati

Data storage

Il livello di data storage funge da base per l'MDS e offre un ambiente centralizzato per la gestione dei dati strutturati e non. Le organizzazioni possono scegliere tra soluzioni di storage di fornitori come IBM, AWS o Microsoft in base a fattori quali costi, prestazioni ed esigenze di scalabilità.

Tipi di data storage:

  • Data warehouse: i dati  strutturati provenienti da più fonti si aggregano in un unico data store centrale, ottimizzato per analytics, AI e ML. Tra i fornitori figurano Snowflake, GoogleBigQuery e Amazon Redshift.
  • Data lake: i data lake contengono dati grezzi, strutturati e non strutturati in vari formati. Consentono alle organizzazioni di memorizzare grandi quantità di dati, spesso raggiungendo dimensioni pari a petabyte e oltre, per applicazioni di AI, ML e ricerca. Molti data lake sono stati inizialmente creati su Hadoop, ma la maggior parte delle architetture moderne utilizza attualmente soluzioni di cloud object storage come AWS S3 e IBM Cloud Object Storage (COS).
  • Data lakehouse: un approccio ibrido che abbina la scalabilità dei data lake alle funzionalità di query strutturate dei data warehouse. In altre parole, un archivio apparentemente illimitato con un indice incredibilmente preciso. I data lakehouse memorizzano dati strutturati, semistrutturati e non strutturati supportando workload di BI, analytics e ML.

Ingestione di dati

La data ingestion è il processo di raccolta e spostamento dei dati da varie fonti in un sistema di storage centralizzato per l'elaborazione e l'analisi. L'efficacia di una pipeline di dati dipende da quanto bene i big data vengono assimilati e integrati. I data engineer svolgono un ruolo cruciale, in quanto gli errori in questa fase possono causare problemi a valle nell'analytics e nei modelli AI.

Tipi di data ingestion:

  • Elaborazione in batch: il metodo di inserimento più comune. L'elaborazione in batch raccoglie i dati in gruppi (o batch) e li invia allo storage a intervalli programmati. Questo approccio è economico e ideale quando non sono necessari aggiornamenti in tempo reale.
  • Elaborazione in tempo reale: chiamato anche "elaborazione in streaming", questo metodo inserisce ed elabora continuamente i dati via via che vengono generati. È fondamentale nelle applicazioni di AI, rilevamento delle frodi e analytics in tempo reale. Richiede tuttavia maggiori risorse di calcolo.

Strumenti di inserimento automatizzato come Apache Airflow, Stitch e Fivetran aiutano le organizzazioni a spostare i dati tra i sistemi senza interruzioni, riducendo le attività manuali e migliorando l'efficienza dell'integrazione dei dati.

Trasformazione dei dati

I dati non elaborati sono spesso incoerenti o non strutturati quando vengono inseriti, il che ne rende difficile l'analisi nel loro formato nativo. Il livello di trasformazione dei dati assicura che i dati siano puliti, strutturati e ottimizzati per attività come analytics, reporting e ML.

Attività comuni di trasformazione dei dati:

  • Pulizia dei dati: rimozione di errori, valori nulli e duplicati.
  • Normalizzazione: standardizzare i formati dei dati per garantire l'uniformità.
  • Aggregazione: riepilogo di grandi set di dati ai fini della reportistica.
  • Unione: combinazione di dati provenienti da più fonti in un set di dati unificato.

Storicamente, la trasformazione dei dati seguiva il workflow ETL. Tuttavia, con l'ascesa delle soluzioni di storage basate sul cloud, la maggior parte delle organizzazioni utilizza ora i processi ELT. Gli strumenti di trasformazione dei dati come dbt e Dataform automatizzano i workflow e aiutano a garantire che i dati siano accurati, coerenti e pronti per l'analytics.

BI e analytics

Il livello di BI e analytics converte i dati non elaborati in insight fruibili attraverso l'analisi dei dati, la visualizzazione, l'analisi delle tendenze, lo structured query language (SQL) e l'automazione basata sull'AI. Strumenti come Tableau, Power BI e Looker forniscono dashboard interattive e analisi dei dati in tempo reale, aiutando le organizzazioni a monitorare le prestazioni e a perfezionare le strategie.

Oltre alla visualizzazione dei dati, l'analytics basata su AI e la data science migliorano il processo decisionale rilevando anomalie, prevedendo tendenze e automatizzando i workflow, tutti processi che dipendono da solide pratiche di gestione dei dati. Indipendentemente dal fatto che siano utilizzati per l'analisi del comportamento dei clienti, il forecasting finanziario o l'ottimizzazione della supply chain, gli strumenti di BI assicurano che le aziende possano utilizzare i dati sia per ambienti strategici che operativi.

Osservabilità dei dati 

L'osservabilità dei dati ne garantisce la qualità, la disponibilità e l'affidabilità monitorando continuamente lo stato di salute dei dati. Questo livello aiuta i team responsabili dei dati a rilevare pipeline interrotte, record mancanti o elaborazioni lente prima che abbiano un'impatto sull'analytics.

Gli strumenti di osservabilità come Monte Carlo e Datadog forniscono insight sui flussi di dati, consentendo agli ingegneri di diagnosticare e migliorare i workflow in tempo reale. Risolvendo i problemi in modo proattivo, le organizzazioni possono mantenere l'integrità dei dati e migliorare il processo decisionale basato sui dati. Solide pratiche di osservabilità supportano un modello di dati ben strutturato e garantiscono che gli stakeholder possano fidarsi degli insight durante l'intero ciclo di vita dei dati.

Ulteriori livelli del Modern Data Stack

Oltre ai cinque livelli fondamentali, gli MDS spesso includono altri componenti per migliorare l'accessibilità e le funzionalità. Questi componenti includono: 

  • Data discovery: il data discovery aiuta un'organizzazione a individuare e valutare fonti di dati nascoste o isolate, garantendo che i team di dati possano estrarre informazioni preziose e utilizzarle in modo efficace.
  • Governance dei dati: stabilire politiche e protezioni può contribuire a garantire la sicurezza, la conformità normativa e l'uniformità dei dati. Grazie alla gestione dei flussi di dati e all'applicazione di un modello di dati strutturato, la governance supporta workflow efficienti e aiuta ad assicurare il monitoraggio della conformità in tempo reale.
  • Catalogazione dei dati: i team possono utilizzare i metadati per creare un inventario strutturato degli asset presenti nei data warehouse, nei data lake e in altri ambienti di storage. Un catalogo ben gestito supporta l'intero ciclo di vita dei dati e consente agli stakeholder di accedere e utilizzare rapidamente le informazioni essenziali.
  • ML e AI: alcune piattaforme di dati integrano ML e AI per perfezionare l'elaborazione dei dati, migliorare la modellazione predittiva, automatizzare gli insight e migliorare il rilevamento delle anomalie. I modelli di machine learning (ML) ottimizzano anche i workflow identificando le inefficienze e suggerendo miglioramenti in tempo reale per i team di dati.

Casi d'uso del Modern Data Stack

Le aziende possono implementare i propri MDS per migliorare la personalizzazione basata su AI, le informazioni sui clienti, la logistica e il rilevamento delle frodi.

Personalizzazione basata su AI

L'MDS consente alle aziende di fornire una personalizzazione dell'AI basata sui dati. Questa personalizzazione può aiutare a ottimizzare le esperienze degli utenti in aree come e-commerce, piattaforme di streaming e  applicazioni software-as-a-service (SaaS). Utilizzando Apache Spark per l'elaborazione in tempo reale e Databricks per l'analytics scalabile, i data scientist possono analizzare le preferenze e il coinvolgimento dei clienti al fine di migliorare i motori di raccomandazione e le reti di distribuzione dei contenuti.

Insight sui clienti e ottimizzazione delle vendite

Le aziende utilizzano strumenti di analytics e SaaS per monitorare il comportamento dei clienti e perfezionare le strategie di marketing. Piattaforme cloud come Snowflake e Looker generano dashboard in tempo reale per categorie come i modelli di acquisto e l'ottimizzazione dei prezzi, il che può aiutare le aziende ad aumentare i tassi di conversione e la fidelizzazione.

Ottimizzazione della logistica e della supply chain

Integrando Fivetran per la data ingestion e il dbt per la trasformazione, le aziende possono monitorare l'inventario in tempo reale e prevedere le interruzioni. Questa integrazione può portare a una più rapida evasione degli ordini, a una riduzione dei costi e a una migliore pianificazione della domanda nei settori retail, produzione e trasporti.

Rilevamento delle frodi e gestione del rischio

Gli istituti finanziari e le piattaforme di e-commerce utilizzano l'MDS per rilevare le frodi e prevenire le violazioni dei dati. Utilizzando modelli di ML, application programming interface (API) e servizi come Amazon Redshift, le organizzazioni possono identificare le transazioni sospette e automatizzare il rilevamento delle frodi.

Quali aziende necessitano di un Modern Data Stack?

Le aziende che si affidano al processo decisionale in tempo reale, all'automazione e agli insight basati sull'AI utilizzano l'MDS per migliorare l'accessibilità dei dati e semplificare le operazioni. Settori come tecnologia, finanza, sanità, e-commerce e logistica utilizzano spesso gli MDS per integrare fonti di dati su larga scala, migliorare le funzionalità di analytics e supportare un processo decisionale e un'orchestrazione più efficienti.

Tuttavia, in un mondo in cui i dati informano quasi ogni aspetto delle operazioni, la vera domanda non è quali industrie traggono beneficio dagli MDS, ma come possono aiutare le organizzazioni a migliorare l'efficienza e l'adattabilità. Con la continua evoluzione dell'adozione dell'AI, degli strumenti open source e dell'elaborazione dei dati in tempo reale, l'MDS sta diventando un approccio sempre più comune per le organizzazioni che intendono modernizzare la propria architettura dei dati.

Soluzioni correlate
IBM StreamSets

Crea e gestisci pipeline di dati intelligenti in streaming attraverso un'interfaccia grafica intuitiva, che facilita la perfetta integrazione dei dati in ambienti ibridi e multicloud.

Esplora StreamSets
Soluzioni Data Fabric

Progetta un'architettura dei dati in grado di accelerarne la preparazione per l'AI generativa e sblocca una produttività senza precedenti per i team di dati.

Esplora le soluzioni Data Fabric
Servizi di consulenza per dati e analytics

Sblocca il valore dei dati aziendali con IBM Consulting e crea un'organizzazione basata su insight in grado di generare vantaggi aziendali.

Esplora i servizi di analytics
Fai il passo successivo

Scopri IBM DataStage, uno strumento ETL (Extract, Transform, Load) che offre un'interfaccia visiva per progettare, sviluppare e distribuire pipeline di dati. È disponibile come SaaS gestito su IBM Cloud, per il self-hosting e come componente aggiuntivo di IBM Cloud Pak for Data.

Esplora DataStage Esplora i servizi di analytics