Cos'è un data mesh?

Scopri cos'è un data mesh, come si correla a un data fabric e come utilizza la decentralizzazione per democratizzare i dati in un'intera organizzazione di grandi dimensioni

Persone che camminano in un cortile
Cos'è un data mesh?

Un data mesh è un'architettura di dati decentralizzata che organizza i dati in base a uno specifico dominio di business - ad esempio marketing, vendite, servizio clienti e altro ancora - fornendo maggiore proprietà ai produttori di un determinato dataset. La comprensione dei dati di dominio da parte dei produttori li mette nella posizione di impostare politiche di governance dei dati incentrate su documentazione, qualità e accesso. Ciò, a sua volta, consente un utilizzo dei servizi self-service in un'intera organizzazione. Sebbene questo approccio federato elimini molti colli di bottiglia operativi associati a sistemi monolitici e centralizzati, non significa necessariamente che non sia possibile utilizzare i sistemi di storage tradizionali, come i data lake o i data warehouse. Significa solo che il loro utilizzo è passato da un'unica piattaforma di dati centralizzata a più repository di dati decentralizzati.

Vale la pena notare che il data mesh promuove l'adozione di tecnologie native del cloud e di piattaforma cloud per eseguire la scalabilità e raggiungere gli obiettivi di gestione dei dati. Questo concetto viene comunemente paragonato ai microservizi per aiutare il pubblico a comprenderne l'utilizzo all'interno di questo panorama. Poiché questa architettura distribuita è particolarmente utile per eseguire la scalabilità delle esigenze di dati in un'intera organizzazione, si può dedurre che un data mesh potrebbe non essere adatto a tutti i tipi di aziende; in altre parole, le aziende più piccole potrebbero non ottenere i benefici di un data mesh poiché i loro dati aziendali potrebbero non essere complessi quanto quelli di un'organizzazione più grande.  

A Zhamak Dehghani, un direttore di tecnologia per la società di consulenza IT ThoughtWorks, viene riconosciuto il merito di aver promosso il concetto di data mesh come soluzione alle sfide intrinseche delle strutture di dati centralizzate e monolitiche, come l'accessibilità ai dati e la loro organizzazione. La sua adozione è stata ulteriormente stimolata dalla pandemia di COVID-19 nel tentativo di promuovere un cambiamento culturale e ridurre la complessità organizzativa relativa ai dati.


Come funziona un data mesh?

Un data mesh implica un cambiamento culturale nel modo in cui le aziende pensano ai loro dati. Invece di fungere da sottoprodotto di un processo, i dati diventano il prodotto, in cui i produttori di dati fungono da proprietari dei prodotti di dati. Tradizionalmente, un team di infrastruttura centralizzata manterrebbe la proprietà dei dati tra i domini, ma l'accento posto sul modo di pensare al prodotto in un modello di data mesh sposta questa proprietà sui produttori poiché sono gli esperti in materia. La loro comprensione degli utilizzatori di dati principali e come si avvalgono dei dati operativi e analitici del dominio consente loro di progettare delle API concepite nel loro migliore interesse. Sebbene questa progettazione basata sul dominio renda anche i produttori di dati responsabili della documentazione delle definizioni semantiche, della catalogazione dei metadati e dell'impostazione delle politiche per le autorizzazioni e l'utilizzo, esiste ancora un team di governance dei dati centralizzata per applicare questi standard e queste procedure sui dati. Inoltre, il fatto che i team di dominio diventino responsabili delle loro pipeline di dati ETL in un'architettura data mesh non elimina la necessità di un team di ingegneria dei dati centralizzata. Tuttavia, la loro responsabilità si concentra maggiormente sulla determinazione delle migliori soluzioni di infrastruttura di dati per i prodotti di dati archiviati.

In modo analogo a quello in cui l'architettura dei microservizi associa tra loro servizi leggeri per fornire funzionalità a un'applicazione visualizzabile dall'azienda o dal cliente, un data mesh utilizza i domini funzionali come un modo per impostare i parametri relativi ai dati, consentendone il trattamento come un prodotto a cui gli utenti possono accedere nell'intera organizzazione. In questo modo, un data mesh consente un'integrazione dei dati e una funzionalità interoperabile più flessibili, in cui i dati da più domini possono essere utilizzati immediatamente dagli utenti per l'analytics di business, le sperimentazioni di data science e altro ancora.


Confronto tra data mesh e data lake

Come precedentemente illustrato, un data mesh è un'architettura di dati distribuita, in cui i dati vengono organizzati in base al loro dominio per renderli più accessibili agli utenti in un'intera organizzazione. Un data lake è un ambiente di storage a basso costo, che in genere ospita petabyte di dati strutturati, semistrutturati e non strutturati per l'analytics di business, il machine learning e altre applicazioni di ampia portata. Un data mesh è un approccio architetturale ai dati, di cui un data lake può fare parte. Tuttavia, un data lake centrale viene più tipicamente utilizzato come una sorta di discarica per i dati poiché viene spesso utilizzato per inserire dati che non hanno ancora uno scopo definito. Di conseguenza, corre il rischio di diventare una "palude di dati", ossia un data lake a cui mancano le prassi di qualità e governance dei dati appropriate per fornire informazioni approfondite.


Confronto tra data mesh e data fabric

Un data fabric è un concetto architetturale e si concentra sull'automazione dell'integrazione dei dati, dell'ingegneria dei dati e della governance in una catena di valore dei dati tra i fornitori di dati e i loro utilizzatori. Un data fabric è basato sulla nozione di "metadati attivi" che utilizza grafi di conoscenza, semantica e tecnologia di AI/ML per scoprire gli schemi in diversi tipi di metadati (ad esempio i log di sistema, i social ecc.) e applicare questo insight per automatizzare e orchestrare la catena di valore dei dati (ad esempio consentire a un utilizzatore di dati di trovare un prodotto di dati e fare in modo che per detto utente venga eseguito automaticamente il provisioning di tale prodotto di dati). Un data fabric non preclude la presenza di un data mesh e anzi lo integra. In effetti, il data fabric migliora il data mesh perché può automatizzare parti fondamentali del data mesh quali la creazione di prodotti di dati in tempi più rapidi e l'applicazione della governance globale, rendendo inoltre più semplice l'orchestrazione della combinazione di più prodotti di dati.


Vantaggi di un data mesh

Democratizzazione dei dati: le architetture data mesh facilitano le applicazioni self-service da più fonti di dati, ampliando l'accesso ai dati oltre le risorse più tecniche, quali i data scientist, gli ingegneri dei dati e gli sviluppatori. Rendendo i dati più individuabili e accessibili tramite questa progettazione basata sul dominio, riduce i silos di dati e i colli di bottiglia operativi, consentendo un processo decisionale più rapido e consentendo agli utenti tecnici di dare la priorità alle attività che utilizzano al meglio le loro competenze.

Efficienza in termini di costi: questa architettura distribuita si allontana dall'elaborazione dei dati in batch e promuove invece l'adozione di piattaforme di dati cloud e di pipeline di streaming per raccogliere i dati in tempo reale. Lo storage sul cloud offre un ulteriore vantaggio in termini di costi consentendo ai team di dati di attivare cluster di grandi dimensioni come necessario, pagando solo per lo spazio di storage specificato. Ciò significa che se hai bisogno di potenza di calcolo aggiuntiva per eseguire un lavoro in poche ore anziché in alcuni giorni, puoi farlo facilmente su una piattaforma di dati cloud acquistando dei nodi di calcolo aggiuntivi. Ciò significa anche che aumenta la trasparenza dei costi di storage, consentendo una migliore allocazione di budget e risorse per i team di progettazione.

Meno debito tecnico: un'infrastruttura dei dati centralizzata causa un maggiore debito tecnico a causa della complessità e della collaborazione necessaria per manutenere il sistema. Man mano che si accumulano all'interno di un repository, i dati iniziano anche a rallentare il sistema nel suo complesso. Distribuendo la pipeline di dati in base alla proprietà del dominio, i team di dati possono soddisfare meglio le esigenze dei loro utilizzatori di dati e ridurre le sollecitazioni tecniche sul sistema di storage. Possono anche fornire maggiore accessibilità ai dati fornendo delle API con cui essi possono interfacciarsi, riducendo il volume complessivo di singole richieste.

Interoperabilità: in un modello di mesh di dati, i proprietari dei dati concordano in anticipo la modalità di standardizzazione di campi di dati indipendenti dal dominio, il che facilita l'interoperabilità. In questo modo, quando struttura il suo dataset, un team di dominio applica le regole pertinenti per consentire il collegamento dei dati tra i domini in modo rapido e facile.  Alcuni campi comunemente standardizzati sono, tra gli altri, il tipo di campo, i metadati e gli indicatori di schema. La coerenza tra i domini consente agli utilizzatori di dati di interfacciarsi con le API più facilmente e di sviluppare applicazioni per soddisfare le loro esigenze di business in modo più appropriato.

Sicurezza e conformità: le architetture data mesh promuovono prassi di governance più solide in quanto aiutano ad applicare gli standard di dati per i dati indipendenti dal dominio e i controlli di accesso per i dati sensibili. Ciò garantisce che le organizzazioni rispettino le normative governative, come le restrizioni HIPPA, e che la struttura di questo ecosistema di dati supporti questa conformità attraverso l'abilitazione di verifiche dei dati. I dati di log e di traccia in un'architettura data mesh integrano l'osservabilità nel sistema, consentendo ai revisori di comprendere quali utenti stanno accedendo a specifici dati e la frequenza di tale accesso.


Casi di utilizzo di un data mesh

Sebbene la loro adozione stia ancora guadagnando terreno, le architetture data mesh distribuite stanno aiutando i team a raggiungere i loro obiettivi di scalabilità per dei casi di utilizzo di big data comuni. Essi includono:

  • Dashboard di business intelligence: man mano che sorgono nuove iniziative, i team hanno bisogno di viste dei dati personalizzate per comprendere le prestazioni di questi progetti. Le architetture di data mesh possono supportare questa esigenza di flessibilità e personalizzazione rendendo i dati più disponibili per gli utilizzatori di dati. 
  • Assistenti virtuali automatizzati: le aziende utilizzano comunemente i chatbot per supportare i call center e i team del servizio clienti. Poiché le domande frequenti possono riguardare vari dataset, un'architettura di dati distribuita può rendere disponibili più asset di dati per questi sistemi di agenti virtuali.
  • Esperienza del cliente: i dati dei clienti consentono alle aziende di comprendere meglio i loro utenti, consentendo loro di fornire esperienze più personalizzate. Ciò è stato osservato in una varietà di settori, dal marketing all'assistenza sanitaria.
  • Progetti di machine learning: standardizzando dei dati indipendenti dal dominio, i data scientist possono integrare tra loro più facilmente dati provenienti da diverse fonti di dati, riducendo il tempo dedicato all'elaborazione dei dati. Questo tempo può contribuire ad accelerare il numero di modelli che si spostano in un ambiente di produzione, consentendo il raggiungimento di obiettivi di automazione.

Soluzioni IBM

IBM Cloud Pak for Data

IBM supporta l'implementazione di un data mesh con IBM Data Fabric on Cloud Pak for Data. IBM Data Fabric è una soluzione unificata che contiene tutte le funzionalità necessarie per creare prodotti di dati e consentire l'accesso governato e orchestrato e l'utilizzo di questi prodotti di dati. IBM Data Fabric consente l'implementazione di un data mesh su qualsiasi piattaforma (ad es. data lake on-premise, data warehouse su cloud, ecc.), consentendo un vero self-service a livello aziendale e il riutilizzo dei prodotti di dati indipendentemente da dove si trovano i dati.



Intraprendi il passo successivo

IBM supporta l'implementazione di un data mesh attraverso le sue soluzioni di data fabric. L'approccio di IBM a un data fabric sta risolvendo quattro punti critici comuni dei clienti: governance dei dati e privacy, integrazione dei dati multicloud, MLOps e AI affidabile e una visione a 360° dei dati dei clienti, il tutto fornito sulla sua piattaforma di cloud ibrido, IBM Cloud Pak for Data.