L'architettura delle piattaforme dati ha una storia interessante. Verso la fine del millennio, le aziende hanno iniziato a rendersi conto che il workload di reportistica e business intelligence richiedeva una nuova soluzione anziché le applicazioni transazionali. Il risultato è stato una piattaforma ottimizzata per la lettura in grado di integrare dati provenienti da più applicazioni. Era Datawarehouse.
Nel giro di un altro decennio, internet e dispositivi mobili hanno iniziato a generare dati di volume, varietà e velocità imprevisti. Era necessaria una soluzione di piattaforma dati diversa. Da qui è nato Data Lake, che gestisce enormi volumi di dati non strutturati e strutturati.
Poi è passato ancora un altro decennio ed è diventato chiaro che data lake e datawarehouse non sono più sufficienti per gestire la complessità aziendale e il nuovo workload delle aziende. Costa troppo. Il valore dei progetti di dati è difficile da realizzare. Le piattaforme di dati sono difficili da modificare. Il tempo richiedeva ancora una volta una nuova soluzione.
Indovina un po'? Questa volta stanno emergendo almeno tre diverse soluzioni di piattaforme dati: Data Lakehouse, Data Fabric e Data Mesh. Sebbene ciò sia incoraggiante, sta anche creando confusione sul mercato. I concetti e i valori si sovrappongono. A volte emergono interpretazioni diverse a seconda dell'interlocutore.
Questo articolo si propone di dissipare queste confusioni. Spiegheremo i concetti e presenteremo un framework che mostrerà come questi tre concetti possono portare l'uno all'altro o essere utilizzati insieme.
Il concetto di lakehouse è stato reso popolare da Databricks, che lo ha definito così: "Un data lakehouse è una nuova architettura di gestione dei dati aperta che combina flessibilità, efficienza dei costi e scala dei data lake con la gestione dei dati e le transazioni ACID dei data warehouse, abilitando business intelligence (BI) e machine learning (ML) su tutti i dati."
Mentre i data warehouse tradizionali utilizzavano un processo Extract-Transform-Load (ETL) per ingerire dati, i data lake si basano invece su un processo Extract-Load-Transform (ELT). I dati estratti da più fonti vengono caricati in uno storage BLOB a buon mercato, poi trasformati e persistiti in un data warehouse, che utilizza un costoso block storage.
Questa architettura di storage è inflessibile e inefficiente. La trasformazione deve essere eseguita in modo continuo per mantenere sincronizzati i BLOB e lo storage del data warehouse, il che aggiunge ulteriori costi. E la trasformazione continua richiede ancora molto tempo. Nel momento in cui i dati sono pronti per l'analisi, gli insight che ne possono derivare saranno obsoleti rispetto allo stato attuale dei sistemi transazionali.
Inoltre, lo storage nei data warehouse non può supportare workload come l'AI o il machine learning (ML), che richiedono enormi quantità di dati per addestrare i modelli. Per questi workload, i fornitori di data lake di solito raccomandano di estrarre i dati in file piatti da utilizzare esclusivamente per scopi di addestramento e test. Questo aggiunge un ulteriore passaggio ETL, rendendo i dati ancora più obsoleti.
Il data lakehouse è stato creato per risolvere questi problemi. Il livello di storage del data warehouse viene rimosso dalle architetture lakehouse. Invece, la trasformazione dei dati viene eseguita all'interno dello storage BLOB. Vengono aggiunte più API affinché diversi tipi di workload possano utilizzare gli stessi storage. Questa architettura è molto adatta al cloud, poiché AWS S3 o Azure DLS2 possono fornire lo storage necessario.
Il data fabric rappresenta una nuova generazione di architettura della piattaforma dati. Può essere definito come: una raccolta debolmente accoppiata di servizi distribuiti che consente di rendere disponibili i dati giusti nella forma giusta, al momento e nel luogo giusto, da fonti eterogenee di natura transazionale e analitica, su qualsiasi piattaforma cloud e on-premise, solitamente tramite self-service, soddisfacendo al contempo requisiti non funzionali tra cui efficacia dei costi, prestazioni, governance, sicurezza e conformità.
Lo scopo del data fabric è rendere i dati disponibili ovunque e quando siano necessari, astraendo le complessità tecnologiche coinvolte nel movimento, nella trasformazione e nell'integrazione dei dati, affinché chiunque possa utilizzare i dati. Alcune caratteristiche chiave del data fabric sono:
Un data fabric è composto da una rete di nodi dati (ad esempio, piattaforme dati e database), tutti che interagiscono tra loro per fornire un valore maggiore. I nodi di dati sono distribuiti nell'ecosistema di computing ibrido e multicloud dell'azienda.
Un data fabric può consistere in più data warehouse, data lake, dispositivi IoT/Edge e database transazionali. Può includere tecnologie che vanno da Oracle, Teradata e Apache Hadoop a Snowflake su Azure, RedShift su AWS o MS SQL nel data center on-premise, solo per citarne alcune.
Il data fabric abbraccia tutte le fasi del ciclo di vita dati-informazioni-insight. Un nodo del fabric può fornire dati non elaborati a un altro che, a sua volta, esegue l'analytics. Queste analytics possono essere esposte come API REST all'interno della struttura, in modo che possano essere utilizzate dai sistemi di registrazione transazionali per il processo decisionale.
Il data fabric è progettato per unire i mondi analitico e quello transazionale. Qui, tutto è un nodo, e i nodi interagiscono tra loro attraverso una varietà di meccanismi. Alcuni di questi richiedono lo spostamento dei dati, mentre altri consentono l'accesso senza spostamento. L'idea di fondo è che i silo (e la differenziazione) alla fine scompariranno in questa architettura.
Le politiche di sicurezza e governance vengono applicate ogni volta che i dati viaggiano o vengono accessibili in tutto il data fabric. Così come Istio applica la governance della sicurezza ai container in Kubernetes, il data fabric applicherà politiche ai dati secondo principi simili, in tempo reale.
Il data fabric promuove la rilevabilità dei dati. Qui, gli asset possono essere pubblicati in categorie, creando un marketplace a livello aziendale. Questo marketplace fornisce un meccanismo di ricerca che utilizza metadati e un knowledge graph per consentire la scoperta degli asset. Ciò consente di accedere ai dati in tutte le fasi del loro ciclo di vita del valore.
L'avvento del data fabric apre nuove opportunità per trasformare culture aziendali e modelli operativi. Poiché i data fabric sono distribuiti ma inclusivi, il loro utilizzo promuove una governance federata ma unificata. Ciò renderà i dati più attendibili e sicuri. Il marketplace renderà più facile per gli stakeholder di tutta l'azienda scoprire e utilizzare i dati per innovare. I team diversificati troveranno più facile collaborare e gestire asset dati condivisi con un senso di scopo comune.
Il data fabric è un'architettura inclusiva, in cui alcune nuove tecnologie (ad esempio, la virtualizzazione dei dati) hanno un ruolo chiave. Ma permette ai database e alle piattaforme di dati esistenti di partecipare a una rete, dove un catalogo di dati o un marketplace può aiutare a scoprire nuovi assets. I metadati sono fondamentali nella scoperta degli asset dati.
Il concetto di data mesh è stato introdotto da Thoughtworks. L'hanno definita come:"...Un'architettura di data analytics e un modello operativo in cui i dati vengono trattati come un prodotto e sono di proprietà dei team che più intimamente li conoscono e li consumano". Il concetto si basa su quattro principi: proprietà del dominio, dati come prodotto, piattaforme dati self-service e governance computazionale federata.
I concetti di data fabric e data mesh si sovrappongono. Ad esempio, entrambi raccomandano un'architettura distribuita, a differenza di piattaforme centralizzate come datawarehouse, data lake e data lakehouse. Entrambi vogliono far emergere l'idea di un prodotto di dati offerto attraverso un marketplace.
Tuttavia, hanno anche delle differenze. Come è chiaro dalla definizione precedente, a differenza del data fabric, il data mesh riguarda i dati di analytics e ha un focus più ristretto rispetto al data fabric. In secondo luogo, enfatizza il modello operativo e la cultura, il che significa che non si tratta solo di un'architettura come il data fabric. La natura del prodotto dati può essere generica nel data fabric, mentre la rete dati prescrive chiaramente la proprietà guidata dal dominio dei prodotti dati.
Chiaramente, questi tre concetti hanno il loro obiettivo e la loro forza. Eppure, la sovrapposizione è evidente.
Il lakehouse si distingue dagli altri due. È una tecnologia nuova, come i suoi predecessori. Può essere codificata. Sul mercato esistono diversi prodotti, tra cui Databricks, Azure Synapse e Amazon Athena.
Il data mesh richiede un nuovo modello operativo e un cambiamento culturale, che a loro volta implicano un cambiamento nella mentalità collettiva dell'azienda. Di conseguenza, il data mesh può essere rivoluzionaria per natura. Può essere costruito da zero in una parte più piccola dell'organizzazione prima di essere diffuso al resto di essa.
Il data fabric non ha prerequisiti come il data mesh. Non prevede un simile cambiamento culturale. Può essere costruito utilizzando gli asset esistenti, che l'impresa ha investito nel corso degli anni. Pertanto, il suo approccio è evolutivo.
Quindi, come può un'impresa abbracciare tutti questi concetti?
Può abbracciare l'adozione di un lakehouse come parte del proprio percorso di evoluzione della piattaforma dati. Ad esempio, implementando un lakehouse una banca può eliminare il suo datawarehouse vecchio di un decennio e fornire tutti i casi d'uso di BI e AI da una singola piattaforma dati.
Se l'organizzazione è complessa e ha più piattaforme di dati, se la data discovery è una sfida, se la distribuzione dei dati in diverse parti dell'organizzazione è difficile, il data fabric può essere una buona architettura da adottare. Oltre ai nodi della piattaforma dati esistenti, possono partecipare anche uno o più nodi lakehouse. Anche i database transazionali possono unirsi alla rete del fabric come nodi per offrire o consumare asset dati.
Per affrontare la complessità aziendale, se l'azienda intraprende un indirizzo culturale verso la proprietà dei dati basata sul dominio, promuove il self-service nella data discovery e adotta una governance federata, si trova in un percorso di data mesh. Se l'architettura di data fabric è già in atto, l'azienda può utilizzarla come fattore chiave nel proprio percorso di data mesh. Ad esempio, il marketplace di data fabric può offrire prodotti data centrati sul dominio, un risultato chiave della rete di dati. La discovery guidata dai metadati, già stabilita come funzionalità tramite data fabric, può essere utile per scoprire i nuovi prodotti dati che emergono dalla mesh.
Ogni azienda può considerare i propri obiettivi aziendali e decidere quale sia il punto di ingresso più adatto. Ma anche se i punti di ingresso o le motivazioni possono essere diversi, un'azienda può facilmente utilizzare tutti e tre i concetti insieme nella sua ricerca della centralità dei dati.
Progetta una strategia dati che elimini i silo, riduca la complessità e migliori la qualità dei dati per esperienze eccezionali di clienti e dipendenti.
Watsonx.data ti consente di scalare l'analytics e l'AI con tutti i tuoi dati, ovunque risiedano, attraverso uno storage dei dati aperto, ibrido e governato.
Sblocca il valore dei dati enterprise con IBM Consulting, creando un'organizzazione basata su insight in grado di generare vantaggi aziendali.