Che cos'è un data mesh?

Autori

Alexandra Jonker

Staff Editor

IBM Think

Alice Gomstyn

Staff Writer

IBM Think

Che cos'è un data mesh?

Un data mesh è un'architettura di dati decentralizzata che organizza i dati per dominio aziendale, come marketing, vendite o servizio clienti. I produttori di dati di dominio trattano i propri dati come un prodotto, consentendo agli utenti business di trovare, comprendere e utilizzare facilmente i dati provenienti da tutta l'organizzazione.

Questo design guidato dal dominio affronta molti dei colli di bottiglia operativi riscontrati nei sistemi dati centralizzati e monolitici. Tuttavia, adottare una mesh dati non rende obsoleti i sistemi tradizionali di data storage (come i data lake o i data warehouse). Invece, i loro ruoli passano da servire come piattaforme di dati centralizzate e uniche a supportare più repository di dati decentralizzati.

Il concetto di data mesh è stato introdotto e reso popolare da Zhamak Dehghani, direttore delle tecnologie emergenti per la società di consulenza IT ThoughtWorks. Ha proposto questa architettura dati distribuita come soluzione alle sfide intrinseche delle architetture dati centralizzate, come l'accessibilità limitata e i silos organizzativi.

La mesh dei dati viene comunemente paragonata a un'architettura di microservizi, dove un'unica applicazione è composta da molti servizi più piccoli e debolmente accoppiati, perché entrambe enfatizzano la decentralizzazione, l'autonomia e la scalabilità.

Perché usare un data mesh?

Ogni giorno, le organizzazioni creano e raccolgono enormi quantità di dati. Ogni dipartimento o unità di business genera set di dati che spesso vengono archiviati in depositi eterogenei e tipicamente gestiti da un team dati centralizzato.

Questa separazione crea silos di dati, cioè raccolte isolate di dati operativi e analitici che ostacolano la condivisione dei dati, riducono la qualità dei dati e indeboliscono il processo decisionale basato sui dati. I silos dei dati limitano inoltre l'efficacia delle iniziative di big data, machine learning (ML) e intelligenza artificiale (AI).

In effetti, secondo l' IBM Data Differentiator, l'82% delle aziende riferisce che i silos di dati interrompono i workflow critici e che il 68% dei dati aziendali rimane non analizzato.

Le architetture distribuite di mesh di dati affrontano queste sfide decentralizzando la proprietà e la gestione dei dati. Invece di affidarsi a un team dati centralizzato e alle pipeline tradizionali, la proprietà dei dati viene trasferita ai team di dominio. Questi team gestiscono i propri dati e li forniscono come prodotto al resto dell'organizzazione tramite un'infrastruttura dati self-service.

Questo approccio dei dati come prodotto enfatizza accessibilità, governance e utilità. È basato sul principio che i dati, proprio come qualsiasi prodotto di consumo di alta qualità, devono essere gestiti e organizzati per soddisfare le esigenze specifiche dei loro utenti.

Cos'è un prodotto di dati?

Un prodotto di dati è un asset riutilizzabile e autonomo che include dati, metadati, semantica e modelli. È progettato per casi d'uso specifici e per servire un'ampia gamma di utenti in tutta l'azienda, aiutandoli a estrarre un valore aziendale significativo da dati che altrimenti potrebbero essere isolati.

I prodotti di dati sono sviluppati con un approccio orientato al prodotto e applicando i principi tradizionali di sviluppo del prodotto. Questo approccio prevede la comprensione delle esigenze di dati degli utenti, la priorità delle caratteristiche di alto valore e l'iterazione in base al feedback.

I prodotti di dati efficaci devono essere scopribili, comprensibili, interoperabili, condivisibili, sicuri e riutilizzabili.

Come funziona un data mesh?

Il paradigma del data mesh è più di una semplice implementazione tecnica. Implica un cambiamento culturale nel modo in cui le Organizzazioni Think alla proprietà e all'accesso ai dati. Tradizionalmente, le organizzazioni trattano i dati di dominio come un sottoprodotto di un processo o di un sistema. Tuttavia, poiché il data mesh tratta i dati come un prodotto, i team di dominio diventano proprietari dei prodotti di dati.

Secondo Zhamak Dehghani, esistono quattro principi fondamentali della rete di dati: 1

  1. Proprietà e architettura dei dati decentralizzata orientata al dominio
  2. Data as a product
  3. Infrastruttura dati self-service come piattaforma
  4. Governance computazionale federata

Architettura e proprietà dei dati decentralizzate orientate al dominio

Tradizionalmente, un'infrastruttura centralizzata o un team di ingegneria dei dati manterrebbe la proprietà dei dati tra i domini. In un modello di rete di dati, questa proprietà è decentralizzata e passa ai team di dominio, quelli più vicini ai dati e che conoscono meglio il loro utilizzo. Questi proprietari dei dati sono responsabili della produzione di prodotti di dati su misura per questi usi specifici.

I team di dominio gestiscono anche le proprie pipeline di estrazione, trasformazione e caricamento (ETL)/estrazione, caricamento e trasformazione (ELT) all'interno di un'architettura data mesh. Tuttavia, questa responsabilità non elimina la necessità di un team di ingegneria dei dati centralizzato. Invece, il loro ruolo si sposta per fornire e mantenere le migliori soluzioni di infrastruttura dati per l'archiviazione e la distribuzione di prodotti di dati.

I dati come prodotto

Un approccio data-as-a-product (DaaP) tratta i set di dati come prodotti commerciabili che possono essere serviti a vari utenti all'interno e all'esterno di un'organizzazione. I prodotti di dati di dominio sono resi accessibili agli utenti di tutta l'organizzazione attraverso le application programming interface (API) o le piattaforme di condivisione dei dati.

In questo modo, un approccio data mesh consente un'integrazione dei dati più flessibile e prodotti di dati interoperabili. I dati provenienti da più domini possono essere facilmente consumati per analytics dei dati, data science, machine learning e altri casi d'uso.

Infrastruttura dati self-service come piattaforma

Una piattaforma dati self-service offre strumenti che aiutano i team di dominio, con una conoscenza meno specialistica dello sviluppo del prodotto, a creare, gestire e condividere nuovi prodotti dati. Il team della piattaforma dati può fornire servizi dati come data storage scalabile, l'orchestrazione delle pipeline di dati, data lineage e altro ancora.

La piattaforma self-service può anche avere diversi piani, o livelli, per servire diversi utenti. Dehghani elenca tre esempi: un piano di provisioning dell'infrastruttura dati, un piano di esperienza per sviluppatori di prodotti dati e un piano di supervisione mesh dati.

Governance federata e gestione delle pipeline

In un ecosistema di data mesh, i team di dominio sono responsabili della definizione delle politiche di governance dei dati relative alla documentazione, alla qualità e all'accesso. Questo include la manutenzione delle definizioni semantiche, la catalogazione dei metadati e l'impostazione di permessi e politiche d'uso.

Questa standardizzazione supporta l'accesso self-service ai dati in tutta l'organizzazione, mentre un team centralizzato di governance dei dati stabilisce e mantiene gli standard organizzativi.

AI Academy

È la gestione dei dati il segreto dell’AI generativa?

Scopri perché i dati di alta qualità sono fondamentali per un uso efficace dell'AI generativa.

Data mesh e data fabric a confronto

Data fabric e data mesh sono architetture di dati complementari. In effetti, i data fabric spesso migliorano la funzionalità e permettono l'implementazione di una mesh di dati.

Un data fabric utilizza sistemi intelligenti e automatizzati per abbattere silos, gestire gli asset di dati e ottimizzare la gestione dei dati su larga scala. Si concentra sull'automazione dell'ingestione dei dati, l'integrazione dei dati, l'ingegneria dei dati e la governance. Ad esempio, una data fabric può automatizzare parti fondamentali di una data mesh, come la creazione di prodotti dati e la gestione del loro ciclo di vita.

Benefici di un data mesh

Le organizzazioni che adottano architetture data mesh possono avere una serie di vantaggi, tra cui:

  • Democratizzazione e reperibilità dei dati
  • Efficienza dei costi
  • Flessibilità per scalare
  • Debito tecnico ridotto
  • Interoperabilità migliorata
  • Maggiore sicurezza e conformità

Democratizzazione e rilevabilità dei dati

Le architetture di rete dati possono facilitare l'accesso self-service ai dati rendendo i set di dati utilizzabili. Questa democratizzazione amplia l'accesso ai dati oltre i team tecnici, come data scientist, data engineers e sviluppatori. Con una governance adeguata, questo approccio può anche ridurre i silos di dati e i colli di bottiglia operativi, consentendo un processo decisionale più rapido e agile.

Efficienza dei costi

L'architettura distribuita della mesh dati può incoraggiare l'adozione di piattaforme cloud e pipeline per dati in tempo reale e data streaming. Questi strumenti possono migliorare la visibilità dei costi di archiviazione e di elaborazione, consentendo una migliore allocazione del budget e delle risorse per i team di ingegneria.

Flessibilità scalare

Quando le organizzazioni implementano la rete di dati sull'infrastruttura cloud, i team di dati possono scalare lo storage e le risorse di calcolo secondo necessità. Ad esempio, se è necessaria potenza di calcolo aggiuntiva per completare un lavoro in ore invece che in giorni, l'azienda può facilmente fornire nodi di calcolo temporanei e aggiuntivi.

Debito tecnico ridotto

La distribuzione della responsabilità della pipeline di dati per dominio elimina la complessità e la collaborazione necessarie per mantenere un sistema di dati centralizzato. Questo approccio decentralizzato riduce le pressioni tecniche e il debito, e accelera la consegna ai consumatori di dati.

Interoperabilità migliorata

Data mesh incoraggia i team di dominio a concordare campi e formati dati standardizzati e indipendenti dal dominio (come tipo di campo, metadati e flag di schema ). Queste regole condivise facilitano l'integrazione e il riutilizzo rendendo rapido e semplice l'applicazione delle regole rilevanti tra i domini.

Maggiore sicurezza e conformità

Le architetture data mesh aiutano a far rispettare le regole dei dati e i controlli di accesso a livello di dominio attraverso regole standardizzate e observability. Questa solida postura di governance aiuta a garantire che le organizzazioni rispettino le normative relative ai dati sensibili, come lo US Health Insurance Portability and Accountability Act (HIPAA).

Casi d'uso di un data mesh

Attraverso la proprietà del dominio e un ecosistema di dati decentralizzato, le architetture data mesh aiutano le organizzazioni a migliorare l'accessibilità e l'usabilità dei dati in una varietà di casi d'uso, tra cui:

Dashboard di business intelligence (BI)

I set di dati individuabili, di proprietà del dominio e rendere accurato supportano le iniziative di BI. I team possono facilmente aggiungere questi set di dati ai dashboard BI e alle visualizzazioni dei dati senza l'assistenza tecnica di un team centrale di data engineering.

Assistenti virtuali automatizzati

I chatbot e gli agenti virtuali funzionano meglio quando hanno accesso a dati di qualità e pertinenti. Un'architettura data mesh aiuta a rendere disponibili a questi sistemi fonti di dati di alta qualità provenienti da diversi domini.

Esperienza del cliente

Le organizzazioni possono ottenere una visione più unificata dei propri clienti combinando dati standardizzati provenienti da diversi domini. Questa visualizzazione può migliorare l'esperienza del cliente, comprese le iniziative di personalizzazione e targeting.

Progetti di machine learning e AI

I dati standardizzati riducono il tempo che i data scientist devono dedicare a combinare dati di vari ambiti. Questo risparmio di tempo accelera l'elaborazione dei dati e aumenta il numero di modelli che possono essere trasferiti in un ambiente di produzione.

Rendering 3D di una spirale di diverse icone allineate, come una fotocamera, una manopola del volume e una lavagnetta
Soluzioni correlate
IBM StreamSets

Crea e gestisci pipeline di dati intelligenti in streaming attraverso un'interfaccia grafica intuitiva, che facilita la perfetta integrazione dei dati in ambienti ibridi e multicloud.

Esplora StreamSets
IBM watsonx.data™

Watsonx.data ti consente di scalare analytics e AI con tutti i tuoi dati, ovunque risiedano, attraverso uno storage dei dati aperto, ibrido e governato.

Scopri watsonx.data
Servizi di consulenza per dati e analytics

Sblocca il valore dei dati enterprise con IBM Consulting, creando un'organizzazione basata su insight in grado di generare vantaggi aziendali.

Esplora i servizi di analytics
Fai il passo successivo

Progetta una strategia dati che elimini i silo, riduca la complessità e migliori la qualità dei dati per esperienze eccezionali di clienti e dipendenti.

  1. Esplora le soluzioni di gestione dei dati
  2. Scopri watsonx.data
Note a piè di pagina

Data Mesh Principles and Logical Architecture,” Martin Fowler, 3 dicembre 2020.