Un'architettura dei dati descrive il modo in cui vengono gestiti i dati: dalla raccolta all'elaborazione, alla distribuzione e all'utilizzo. Configura il progetto dei dati e la modalità con cui tali dati vengono trasmessi nei sistemi di storage dei dati. È fondamentale per le operazioni di elaborazione dati e le applicazioni di AI (Artificial Intelligence).
La progettazione di un'architettura dei dati si deve basare sui requisiti di business che gli architetti dei dati e gli ingegneri dei dati utilizzano per definire il rispettivo modello di dati e le strutture di dati sottostanti che lo supportano. Queste progettazioni in genere vengono incontro alle esigenze di business, come la creazione di report o un'iniziativa di data science.
Poiché con le tecnologie emergenti nascono nuove fonti di dati, tra cui l'IoT (Internet of Things), una valida architettura dei dati garantisce che i dati siano gestibili e utili, supportando la gestione del ciclo di vita. In particolare, può evitare lo storage dei dati ridondante, migliorare la qualità dei dati attraverso la pulizia e la deduplicazione, e consentire nuove applicazioni. Inoltre, le moderne architetture dei dati forniscono sistemi per integrare i dati tra domini, ad esempio tra dipartimenti o aree geografiche, abbattendo i silos di dati senza l'enorme complessità che deriva dall'archiviare tutti i dati in una singola posizione.
Le moderne architetture dei dati utilizzano spesso in modo efficace le piattaforme cloud per gestire ed elaborare i dati. La relativa scalabilità di calcolo, sebbene possa comportare costi più elevati, consente di completare rapidamente le principali attività di elaborazione dati. La scalabilità dello storage consente anche di far fronte all'aumento dei volumi di dati e garantire la disponibilità di tutti i dati rilevanti per migliorare la qualità dell'addestramento delle applicazioni di AI.
La documentazione relativa all'architettura dei dati comprende tre tipi di modelli di dati
Un'architettura dei dati può attingere dai framework di architettura aziendale più diffusi, tra cui TOGAF, DAMA-DMBOK 2 e Zachman Framework for Enterprise Architecture.
TOGAF (The Open Group Architecture Framework)
Questa metodologia di architettura aziendale è stata sviluppata nel 1995 da The Open Group, di cui IBM è Platinum Member.
L'architettura si basa su quattro pilastri:
In tal senso, TOGAF fornisce un framework completo per la progettazione e l'implementazione dell'architettura IT di un'azienda, compresa l'architettura dati.
DAMA-DMBOK 2
DAMA International, fondata in origine come Data Management Association International, è un'organizzazione senza scopo di lucro volta alla promozione della gestione dei dati e delle informazioni. Il suo Data Management Body of Knowledge (DAMA-DMBOK 2) tratta argomenti quali l'architettura dati, nonché la governance e l'etica, la progettazione e la creazione di modelli, lo storage, la sicurezza e l'integrazione.
Zachman Framework for Enterprise Architecture
Sviluppato originariamente da John Zachman presso IBM nel 1987, questo framework utilizza una matrice di sei livelli, da quello contestuale a quello dettagliato, basato su sei domande (perché, come, cosa ecc). Fornisce una soluzione formale per organizzare e analizzare i dati ma non include metodi per farlo.
Un'architettura dei dati mostra una prospettiva di alto livello di come funzionano insieme i diversi sistemi di gestione dati. Si tratta di una serie di repository di storage dei dati diversi, come data lake, data warehouse, data mart, database, ecc. Tutti insieme questi elementi possono creare architetture dei dati, come data fabric e data mesh, che stanno diventando sempre più diffuse. Queste architetture si concentrano maggiormente sui dati come prodotti, creando una maggiore standardizzazione dei metadati e una maggiore democratizzazione dei dati tra le organizzazioni tramite le API.
Di seguito viene preso in esame ciascuno di questi componenti di storage e tipi di architettura dei dati:
Tipi di sistemi di gestione dei dati
Tipi di architetture dei dati
Data fabric: un data fabric è un'architettura che si concentra sull'automazione dell'integrazione dei dati, dell'ingegneria dei dati e della governance in una catena di valore dei dati tra provider e utilizzatori di dati. Un data fabric si basa sul concetto di "metadati attivi" che utilizza le tecnologie di apprendimento automatico (ML, Machine Learning) estrazione dei dati, semantiche e grafi della conoscenza per individuare i modelli in vari tipi di metadati (ad esempio, log di sistema, social, ecc.). Di conseguenza, applica questo insight per automatizzare e orchestrare la catena di valore dei dati. Ad esempio, può permettere agli utilizzatori di dati di ricercare un prodotto di dati e fornire quel prodotto agli utenti in modo automatico. Il maggiore accesso ai dati tra prodotti di dati e utilizzatori di dati comporta una riduzione dei silos di dati e fornisce un quadro più completo dei dati dell'organizzazione. I data fabric sono una tecnologia emergente con enormi potenzialità e possono essere utilizzati per migliorare la creazione dei profili dei clienti, il rilevamento delle frodi e la manutenzione preventiva. Secondo Gartner, i data fabric riducono i tempi di progettazione dell'integrazione del 30%, i tempi d'implementazione del 30% e la manutenzione del 70%.
Data mesh: un data mesh è una architettura dei dati decentralizzata che organizza i dati in base al dominio di business. L'utilizzo di un data mesh costringe l'organizzazione a smettere di pensare ai dati come un sottoprodotto di un processo e iniziare a considerarli a pieno titolo come un prodotto. I produttori di dati agiscono come proprietari di prodotti di dati. In qualità di esperti in materia, i produttori di dati possono utilizzare le proprie conoscenze dei principali utilizzatori di dati per progettare API appositamente per loro. È possibile accedere a queste API anche da altre parti dell'organizzazione, fornendo un accesso più ampio ai dati gestiti.
I sistemi di storage più tradizionali, come data lake e data warehouse, possono essere utilizzati come repository multipli di dati centralizzati per realizzare un data mesh. Inoltre, un data mesh può funzionare con un data fabric, con l'automazione del data fabric che consente di creare nuovi prodotti di dati più rapidamente o applicare la governance globale.
Ecco i principali vantaggi che un'architettura dei dati ben progettata può fornire alle aziende:
Poiché le organizzazioni sviluppano la loro strategia aziendale per le applicazioni del futuro, tra cui i carichi di lavoro IoT (Internet of Things), blockchain e AI, hanno bisogno di un'architettura dei dati moderna in grado di supportare i requisiti di dati.
Ecco le sette caratteristiche principali di un'architettura dei dati moderna:
IBM Cloud Pak for Data è una piattaforma di dati aperta ed estensibile che fornisce una struttura per rendere tutti i dati disponibili per AI e analytics, su qualsiasi cloud.
Sviluppa, esegui e gestisci i modelli AI. Prepara i dati e crea modelli su qualsiasi cloud utilizzando la modellazione visiva o il codice open source. Prevedi e ottimizza i risultati.
Scopri Db2 on Cloud, un database cloud SQL completamente gestito e ottimizzato per prestazioni solide.