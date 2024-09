Un'architettura dei dati mostra una prospettiva di alto livello di come funzionano insieme i diversi sistemi di gestione dati. Si tratta di una serie di repository di storage dei dati diversi, come data lake, data warehouse, data mart, database, ecc. Tutti insieme questi elementi possono creare architetture dei dati, come data fabric e data mesh, che stanno diventando sempre più diffuse. Queste architetture si concentrano maggiormente sui dati come prodotti, creando una maggiore standardizzazione dei metadati e una maggiore democratizzazione dei dati tra le organizzazioni tramite le API.

Di seguito viene preso in esame ciascuno di questi componenti di storage e tipi di architettura dei dati:

Tipi di sistemi di gestione dei dati

Data warehouse: un data warehouse aggrega i dati provenienti da diverse fonti di dati relazionali di un'azienda in un singolo repository centrale e coerente. Dopo l'estrazione, i dati vengono trasmessi in una pipeline di dati ETL e subiscono varie trasformazioni per soddisfare il modello di dati predefinito. Una volta caricati nel data warehouse, i dati vengono utilizzati per supportare le varie applicazioni di data science e BI (Business intelligence).

un data mart è una versione specifica di un data warehouse che contiene un sottoinsieme più piccolo di dati importanti e necessari per un singolo team o per un gruppo scelto di utenti all'interno di un'organizzazione, come il reparto delle risorse umane. Poiché contengono un sottoinsieme più piccolo di dati, i data mart consentono a un reparto o a una linea di business di individuare gli insight più specifici in tempi più rapidi rispetto a quando si lavora con il più ampio dataset del data warehouse. I data mart sono nati originariamente in risposta alle difficoltà riscontrate dalle organizzazioni nella configurazione dei data warehouse negli anni '90. All'epoca l'integrazione dei dati provenienti da tutta l'organizzazione richiedeva un'intensa attività di codifica manuale e un notevole dispendio di tempo. La portata limitata dei data mart li ha resi più facili e veloci da implementare rispetto ai data warehouse centralizzati. Data lake: mentre i data warehouse conservano i dati elaborati, un data lake ospita i dati non elaborati, generalmente nell'ordine di petabyte. Un data lake può conservare sia i dati strutturati che i dati non strutturati, il che lo rende unico rispetto agli altri repository. Questa flessibilità nei requisiti di storage è particolarmente utile per i data scientist, gli ingegneri dei dati e gli sviluppatori, i quali possono accedere ai dati per esercizi di rilevamento dati e progetti di machine learning. In origine i data lake sono stati creati in risposta all'incapacità del data warehouse di gestire i volumi crescenti, la velocità e l'ampia serie di big data. I data lake, anche se più lenti dei data warehouse, sono altresì più economici poiché la preparazione dei dati prima dell'acquisizione è minima o del tutto assente. Oggi continuano ad evolvere come parte dell'impegno di migrazione dei dati sul cloud. I data lake supportano un'ampia serie di casi d'utilizzo poiché non è necessario definire gli obiettivi di business per i dati al momento della raccolta dei dati. Tuttavia, i due principali casi d'utilizzo comprendono l'esplorazione della data science e le attività di ripristino e backup dei dati. I data scientist possono utilizzare i data lake come prototipi concettuali. Le applicazioni di machine learning traggono vantaggio dalla possibilità di conservare i dati strutturati e non strutturati nella stessa posizione, operazione che non è possibile effettuare utilizzando un sistema di database relazionale. Inoltre, i data lake possono essere utilizzati per sottoporre a test e sviluppare i progetti di analytics dei big data. Nel momento in cui si completa lo sviluppo dell'applicazione e vengono individuati i dati utili, questi ultimi possono essere esportati in un data warehouse per l'uso operativo ed è possibile utilizzare l'automazione per rendere scalabile l'applicazione. Inoltre, i data lake possono essere utilizzati per il backup e il ripristino dei dati, grazie alla loro capacità di adeguare le dimensioni a costi ridotti. Per le stesse ragioni, i data lake rappresentano una valida soluzione per conservare i dati "per ogni eventualità", per cui non sono state ancora definite le esigenze di business. Conservare i dati ora significa renderli disponibili in un secondo momento, quando nasceranno nuove iniziative.

Tipi di architetture dei dati

Data fabric: un data fabric è un'architettura che si concentra sull'automazione dell'integrazione dei dati, dell'ingegneria dei dati e della governance in una catena di valore dei dati tra provider e utilizzatori di dati. Un data fabric si basa sul concetto di "metadati attivi" che utilizza le tecnologie di apprendimento automatico (ML, Machine Learning) estrazione dei dati, semantiche e grafi della conoscenza per individuare i modelli in vari tipi di metadati (ad esempio, log di sistema, social, ecc.). Di conseguenza, applica questo insight per automatizzare e orchestrare la catena di valore dei dati. Ad esempio, può permettere agli utilizzatori di dati di ricercare un prodotto di dati e fornire quel prodotto agli utenti in modo automatico. Il maggiore accesso ai dati tra prodotti di dati e utilizzatori di dati comporta una riduzione dei silos di dati e fornisce un quadro più completo dei dati dell'organizzazione. I data fabric sono una tecnologia emergente con enormi potenzialità e possono essere utilizzati per migliorare la creazione dei profili dei clienti, il rilevamento delle frodi e la manutenzione preventiva. Secondo Gartner, i data fabric riducono i tempi di progettazione dell'integrazione del 30%, i tempi d'implementazione del 30% e la manutenzione del 70%.

Data mesh: un data mesh è una architettura dei dati decentralizzata che organizza i dati in base al dominio di business. L'utilizzo di un data mesh costringe l'organizzazione a smettere di pensare ai dati come un sottoprodotto di un processo e iniziare a considerarli a pieno titolo come un prodotto. I produttori di dati agiscono come proprietari di prodotti di dati. In qualità di esperti in materia, i produttori di dati possono utilizzare le proprie conoscenze dei principali utilizzatori di dati per progettare API appositamente per loro. È possibile accedere a queste API anche da altre parti dell'organizzazione, fornendo un accesso più ampio ai dati gestiti.

I sistemi di storage più tradizionali, come data lake e data warehouse, possono essere utilizzati come repository multipli di dati centralizzati per realizzare un data mesh. Inoltre, un data mesh può funzionare con un data fabric, con l'automazione del data fabric che consente di creare nuovi prodotti di dati più rapidamente o applicare la governance globale.