Cos'è l'architettura dei dati?

Scopri cos'è l'architettura dei dati e i componenti disponibili per implementarla

Disegno isometrico che mostra diversi impiegati di un ufficio che utilizzano IBM Security
Cos'è l'architettura dei dati?

Un'architettura dei dati descrive il modo in cui vengono gestiti i dati: dalla raccolta all'elaborazione, alla distribuzione e all'utilizzo. Configura il progetto dei dati e la modalità con cui tali dati vengono trasmessi nei sistemi di storage dei dati. È fondamentale per le operazioni di elaborazione dati e le applicazioni di AI (Artificial Intelligence).

La progettazione di un'architettura dei dati si deve basare sui requisiti di business che gli architetti dei dati e gli ingegneri dei dati utilizzano per definire il rispettivo modello di dati e le strutture di dati sottostanti che lo supportano. Queste progettazioni in genere vengono incontro alle esigenze di business, come la creazione di report o un'iniziativa di data science.

Poiché con le tecnologie emergenti nascono nuove fonti di dati, tra cui l'IoT (Internet of Things), una valida architettura dei dati garantisce che i dati siano gestibili e utili, supportando la gestione del ciclo di vita. In particolare, può evitare lo storage dei dati ridondante, migliorare la qualità dei dati attraverso la pulizia e la deduplicazione, e consentire nuove applicazioni. Inoltre, le moderne architetture dei dati forniscono sistemi per integrare i dati tra domini, ad esempio tra dipartimenti o aree geografiche, abbattendo i silos di dati senza l'enorme complessità che deriva dall'archiviare tutti i dati in una singola posizione.

Le moderne architetture dei dati utilizzano spesso in modo efficace le piattaforme cloud per gestire ed elaborare i dati. La relativa scalabilità di calcolo, sebbene possa comportare costi più elevati, consente di completare rapidamente le principali attività di elaborazione dati. La scalabilità dello storage consente anche di far fronte all'aumento dei volumi di dati e garantire la disponibilità di tutti i dati rilevanti per migliorare la qualità dell'addestramento delle applicazioni di AI.


Confronto tra modelli di dati concettuali, logici e fisici

La documentazione relativa all'architettura dei dati comprende tre tipi di modelli di dati

  • Modelli di dati concettuali: sono anche noti come modelli di dominio e offrono una quadro completo degli elementi che saranno inclusi nel sistema, di come sarà organizzato e di quali regole di business sono interessate. I modelli concettuali vengono solitamente creati durante il processo di raccolta dei requisiti iniziali del progetto. Generalmente includono le classi di entità (che definiscono i tipi di entità rilevanti per il business da rappresentare nel modello di dati), le loro caratteristiche e vincoli, le relazioni reciproche e i relativi requisiti di sicurezza e integrità dei dati.
  •  Modelli di dati logici: sono meno astratti e forniscono maggiori dettagli sui concetti e le relazioni nel dominio preso in esame. Si segue uno dei diversi sistemi di notazione formale per la creazione dei modelli di dati. Questi indicano gli attributi dei dati, come i tipi di dati e le relative lunghezze, e mostrano le relazioni tra le entità. I modelli di dati logici non specificano alcun requisito tecnico di sistema.
  • Modelli di dati fisici: sono meno astratti e forniscono maggiori dettagli sui concetti e le relazioni nel dominio preso in esame. Si segue uno dei diversi sistemi di notazione formale per la creazione dei modelli di dati. Questi indicano gli attributi dei dati, come i tipi di dati e le relative lunghezze, e mostrano le relazioni tra le entità. I modelli di dati logici non specificano alcun requisito tecnico di sistema.

Framework di architettura dei dati più diffusi

Un'architettura dei dati può attingere dai framework di architettura aziendale più diffusi, tra cui TOGAF, DAMA-DMBOK 2 e Zachman Framework for Enterprise Architecture.

TOGAF (The Open Group Architecture Framework)

Questa metodologia di architettura aziendale è stata sviluppata nel 1995 da The Open Group, di cui IBM è Platinum Member.

L'architettura si basa su quattro pilastri:

  • Architettura di business, che definisce la struttura organizzativa, la strategia di business e i processi dell'azienda.
  • Architettura dei dati, che descrive gli asset di dati concettuali, logici e fisici e il modo in cui vengono conservati e gestiti durante tutto il loro del ciclo di vita.
  • Architettura delle applicazioni, che rappresenta i sistemi applicativi e il modo in cui si relazionano tra loro e con i principali processi di business.
  • Architettura tecnica, che descrive la tecnologia dell'infrastruttura (hardware, software e rete) necessaria per supportare le applicazioni mission-critical.

In tal senso, TOGAF fornisce un framework completo per la progettazione e l'implementazione dell'architettura IT di un'azienda, compresa l'architettura dati.

DAMA-DMBOK 2

DAMA International, fondata in origine come Data Management Association International, è un'organizzazione senza scopo di lucro volta alla promozione della gestione dei dati e delle informazioni. Il suo Data Management Body of Knowledge (DAMA-DMBOK 2) tratta argomenti quali l'architettura dati, nonché la governance e l'etica, la progettazione e la creazione di modelli, lo storage, la sicurezza e l'integrazione.

Zachman Framework for Enterprise Architecture

Sviluppato originariamente da John Zachman presso IBM nel 1987, questo framework utilizza una matrice di sei livelli, da quello contestuale a quello dettagliato, basato su sei domande (perché, come, cosa ecc). Fornisce una soluzione formale per organizzare e analizzare i dati ma non include metodi per farlo.

 


Tipi di architetture dati e componenti sottostanti

Un'architettura dei dati mostra una prospettiva di alto livello di come funzionano insieme i diversi sistemi di gestione dati. Si tratta di una serie di repository di storage dei dati diversi, come data lake, data warehouse, data mart, database, ecc. Tutti insieme questi elementi possono creare architetture dei dati, come data fabric e data mesh, che stanno diventando sempre più diffuse. Queste architetture si concentrano maggiormente sui dati come prodotti, creando una maggiore standardizzazione dei metadati e una maggiore democratizzazione dei dati tra le organizzazioni tramite le API.

Di seguito viene preso in esame ciascuno di questi componenti di storage e tipi di architettura dei dati:

Tipi di sistemi di gestione dei dati

  • Data warehouse: un data warehouse aggrega i dati provenienti da diverse fonti di dati relazionali di un'azienda in un singolo repository centrale e coerente. Dopo l'estrazione, i dati vengono trasmessi in una pipeline di dati ETL e subiscono varie trasformazioni per soddisfare il modello di dati predefinito. Una volta caricati nel data warehouse, i dati vengono utilizzati per supportare le varie applicazioni di data science e BI (Business intelligence).
  • Data mart: un data mart è una versione specifica di un data warehouse che contiene un sottoinsieme più piccolo di dati importanti e necessari per un singolo team o per un gruppo scelto di utenti all'interno di un'organizzazione, come il reparto delle risorse umane. Poiché contengono un sottoinsieme più piccolo di dati, i data mart consentono a un reparto o a una linea di business di individuare gli insight più specifici in tempi più rapidi rispetto a quando si lavora con il più ampio dataset del data warehouse. I data mart sono nati originariamente in risposta alle difficoltà riscontrate dalle organizzazioni nella configurazione dei data warehouse negli anni '90. All'epoca l'integrazione dei dati provenienti da tutta l'organizzazione richiedeva un'intensa attività di codifica manuale e un notevole dispendio di tempo. La portata limitata dei data mart li ha resi più facili e veloci da implementare rispetto ai data warehouse centralizzati.
  • Data lake: mentre i data warehouse conservano i dati elaborati, un data lake ospita i dati non elaborati, generalmente nell'ordine di petabyte. Un data lake può conservare sia i dati strutturati che i dati non strutturati, il che lo rende unico rispetto agli altri repository. Questa flessibilità nei requisiti di storage è particolarmente utile per i data scientist, gli ingegneri dei dati e gli sviluppatori, i quali possono accedere ai dati per esercizi di rilevamento dati e progetti di machine learning. In origine i data lake sono stati creati in risposta all'incapacità del data warehouse di gestire i volumi crescenti, la velocità e l'ampia serie di big data. I data lake, anche se più lenti dei data warehouse, sono altresì più economici poiché la preparazione dei dati prima dell'acquisizione è minima o del tutto assente. Oggi continuano ad evolvere come parte dell'impegno di migrazione dei dati sul cloud. I data lake supportano un'ampia serie di casi d'utilizzo poiché non è necessario definire gli obiettivi di business per i dati al momento della raccolta dei dati. Tuttavia, i due principali casi d'utilizzo comprendono l'esplorazione della data science e le attività di ripristino e backup dei dati. I data scientist possono utilizzare i data lake come prototipi concettuali. Le applicazioni di machine learning traggono vantaggio dalla possibilità di conservare i dati strutturati e non strutturati nella stessa posizione, operazione che non è possibile effettuare utilizzando un sistema di database relazionale. Inoltre, i data lake possono essere utilizzati per sottoporre a test e sviluppare i progetti di analytics dei big data. Nel momento in cui si completa lo sviluppo dell'applicazione e vengono individuati i dati utili, questi ultimi possono essere esportati in un data warehouse per l'uso operativo ed è possibile utilizzare l'automazione per rendere scalabile l'applicazione. Inoltre, i data lake possono essere utilizzati per il backup e il ripristino dei dati, grazie alla loro capacità di adeguare le dimensioni a costi ridotti. Per le stesse ragioni, i data lake rappresentano una valida soluzione per conservare i dati "per ogni eventualità", per cui non sono state ancora definite le esigenze di business. Conservare i dati ora significa renderli disponibili in un secondo momento, quando nasceranno nuove iniziative.

Tipi di architetture dei dati

Data fabric: un data fabric è un'architettura che si concentra sull'automazione dell'integrazione dei dati, dell'ingegneria dei dati e della governance in una catena di valore dei dati tra provider e utilizzatori di dati. Un data fabric si basa sul concetto di "metadati attivi" che utilizza le tecnologie di apprendimento automatico (ML, Machine Learning) estrazione dei dati, semantiche e grafi della conoscenza per individuare i modelli in vari tipi di metadati (ad esempio, log di sistema, social, ecc.). Di conseguenza, applica questo insight per automatizzare e orchestrare la catena di valore dei dati. Ad esempio, può permettere agli utilizzatori di dati di ricercare un prodotto di dati e fornire quel prodotto agli utenti in modo automatico. Il maggiore accesso ai dati tra prodotti di dati e utilizzatori di dati comporta una riduzione dei silos di dati e fornisce un quadro più completo dei dati dell'organizzazione. I data fabric sono una tecnologia emergente con enormi potenzialità e possono essere utilizzati per migliorare la creazione dei profili dei clienti, il rilevamento delle frodi e la manutenzione preventiva.  Secondo Gartner, i data fabric riducono i tempi di progettazione dell'integrazione del 30%, i tempi d'implementazione del 30% e la manutenzione del 70%.

Data mesh: un data mesh è una architettura dei dati decentralizzata che organizza i dati in base al dominio di business. L'utilizzo di un data mesh costringe l'organizzazione a smettere di pensare ai dati come un sottoprodotto di un processo e iniziare a considerarli a pieno titolo come un prodotto. I produttori di dati agiscono come proprietari di prodotti di dati. In qualità di esperti in materia, i produttori di dati possono utilizzare le proprie conoscenze dei principali utilizzatori di dati per progettare API appositamente per loro. È possibile accedere a queste API anche da altre parti dell'organizzazione, fornendo un accesso più ampio ai dati gestiti.

I sistemi di storage più tradizionali, come data lake e data warehouse, possono essere utilizzati come repository multipli di dati centralizzati per realizzare un data mesh. Inoltre, un data mesh può funzionare con un data fabric, con l'automazione del data fabric che consente di creare nuovi prodotti di dati più rapidamente o applicare la governance globale.

 


Vantaggi delle architetture dei dati

Ecco i principali vantaggi che un'architettura dei dati ben progettata può fornire alle aziende:

  • Riduzione della ridondanza: È possibile che si verifichi una sovrapposizione dei campi di dati tra le diverse origini, con il conseguente rischio di incongruenza, inesattezze nei dati e opportunità mancate di integrazione dati. Una valida architettura dei dati può standardizzare il processo con cui vengono conservati i dati e potenzialmente ridurre la duplicazione, migliorando la qualità e le analisi olistiche.
  • Miglioramento della qualità dei dati: le architetture dei dati ben progettate possono risolvere alcune delle sfide relative alla gestione non ottimale dei data lake, nota anche come "data swamp". Un data swamp non dispone di adeguate pratiche di qualità dei dati e governance dei dati per fornire informazioni approfondite. Le architetture dei dati possono contribuire ad applicare gli standard di governance dei dati e sicurezza dei dati, favorendo un'adeguata supervisione della pipeline di dati in modo da svolgere le attività come previsto. Migliorando la governance e la qualità dei dati, le architetture dei dati possono garantire la conservazione dei dati in modo da renderli utili ora e in futuro.
  • Favorire l'integrazione: i dati sono stati spesso suddivisi in silos a causa di limitazioni tecniche nello storage dei dati e di ostacoli organizzativi all'interno dell'azienda. Oggi le architetture dei dati devono porsi l'obiettivo di semplificare l'integrazione dei dati tra i domini in modo che le diverse aree geografiche e funzioni aziendali dispongano dell'accesso ai dati degli altri utenti. Ciò porta a una comprensione migliore e più coerente delle metriche comuni (come le spese, i ricavi e i relativi fattori trainanti). Inoltre, consente una vista più olistica di clienti, prodotti e aree geografiche per migliorare il processo decisionale.
  • Gestione del ciclo di vita dei dati: un'architettura dei dati moderna può far fronte al modo in cui vengono gestiti i dati nel tempo. I dati in genere assumono meno importanza con il passare del tempo e l'accesso a tali dati è sempre meno frequente. Nel corso del tempo i dati possono essere migrati a tipi di storage più economici e lenti, in modo che restino disponibili per i report e le verifiche, ma senza i costi di storage ad alte prestazioni.

Architettura dei dati moderna

Poiché le organizzazioni sviluppano la loro strategia aziendale per le applicazioni del futuro, tra cui i carichi di lavoro IoT (Internet of Things), blockchain e AI, hanno bisogno di un'architettura dei dati moderna in grado di supportare i requisiti di dati.

Ecco le sette caratteristiche principali di un'architettura dei dati moderna:

  • Nativa del cloud e compatibile con il cloud, cosicché l'architettura dei dati possa sfruttare i vantaggi della scalabilità elastica e dell'elevata disponibilità del cloud.
  • Pipeline di dati affidabili, scalabili e mobili che combinano flussi di lavoro intelligenti, cognitive analytics e integrazione in tempo reale in un unico framework.
  • Integrazione dei dati perfetta tramite l'utilizzo di interfacce API standard per connettersi alle applicazioni tradizionali.
  • Abilitazione dei dati in tempo reale, compresa la convalida, la classificazione, la gestione e la governance.
  • Disaccoppiata ed estensibile, cosicché non esista alcuna dipendenza tra servizi e standard aperti per abilitare l'interoperabilità.
  • Basata su microservizi, eventi e domini di dati comuni.
  • Ottimizzata per bilanciare i costi e la semplicità.

Soluzioni IBM

IBM Cloud Pak for Data

IBM Cloud Pak for Data è una piattaforma di dati aperta ed estensibile che fornisce una struttura per rendere tutti i dati disponibili per AI e analytics, su qualsiasi cloud.


IBM Watson® Studio

Sviluppa, esegui e gestisci i modelli AI. Prepara i dati e crea modelli su qualsiasi cloud utilizzando la modellazione visiva o il codice open source. Prevedi e ottimizza i risultati.


IBM® Db2® on Cloud

Scopri Db2 on Cloud, un database cloud SQL completamente gestito e ottimizzato per prestazioni solide.



Passa alla fase successiva

IBM supporta l'implementazione delle architetture dei dati moderne attraverso le soluzioni data fabric. L'approccio di IBM a un data fabric risolve i principali quattro punti critici comuni dei clienti: governance dei dati e privacy, integrazione dei dati multicloud, MLOps, AI affidabile e una visione a 360 gradi dei dati dei clienti; il tutto fornito su IBM Cloud Pak for Data, la piattaforma di cloud ibrido di IBM.