Home
topics
Architettura dei dati
Un'architettura dei dati descrive il modo in cui i dati vengono gestiti, dalla raccolta alla trasformazione, fino alla distribuzione e al consumo. Definisce il blueprint de dati e il modo in cui fluiscono attraverso i sistemi di data storage. È fondamentale per le operazioni di elaborazione dei dati e le applicazioni di intelligenza artificiale (AI).
La progettazione di un'architettura dei dati deve essere guidata dai requisiti aziendali, che i data architect e i data engineer utilizzano per definire il rispettivo modello di dati e le strutture di dati sottostanti che lo supportano. Queste progettazioni in genere facilitano un'esigenza aziendale, ad esempio un'iniziativa di reporting o di data science .
Man mano che emergono nuove fonti di dati attraverso le tecnologie emergenti, come l'Internet of Things (IoT), una buona architettura dei dati garantisce che i dati siano gestibili e utili, supportando la gestione del ciclo di vita dei dati. In particolare, può evitare l'archiviazione di dati ridondanti, migliorare la qualità dei dati attraverso la pulizia e la deduplicazione, e consentire la creazione di nuove applicazioni. Le moderne architetture dei dati forniscono anche meccanismi per integrare i dati tra diversi domini, ad esempio tra dipartimenti o aree geografiche, abbattendo i silos di dati senza l'enorme complessità che deriva dall'archiviare tutto in un unico posto.
Le moderne architetture dei dati spesso impiegano le piattaforme cloud per gestire ed elaborare i dati. Sebbene possa essere più costoso, la scalabilità di calcolo consente di completare rapidamente importanti attività di elaborazione dei dati. La scalabilità dello storage aiuta anche a far fronte all'aumento dei volumi di dati e a garantire che tutti i dati pertinenti siano disponibili per migliorare la qualità dell'addestramento delle applicazioni AI.
Scopri gli elementi costitutivi e le best practice per aiutare i tuoi team ad accelerare l’AI responsabile.
La documentazione dell'architettura dei dati include tre tipi di modelli di dati:
Un'architettura dei dati può attingere ai framework di architettura aziendale più diffusi, tra cui TOGAF, DAMA-DMBOK 2 e Zachman Framework for Enterprise Architecture.
The Open Group Architecture Framework (TOGAF)
Questa metodologia di architettura aziendale è stata sviluppata nel 1995 da The Open Group, di cui IBM è membro Platinum.
L'architettura si articola in quattro pilastri:
TOGAF fornisce quindi un framework completo per la progettazione e l'implementazione dell'architettura IT di un'azienda, inclusa l'architettura dei dati.
DAMA-DMBOK 2
DAMA International, originariamente fondata come Data Management Association International, è un'organizzazione senza scopo di lucro dedicata a promuovere la gestione di dati e informazioni. Il suo Data Management Body of Knowledge, DAMA-DMBOK 2, include l'architettura dei dati, nonché la governance e l'etica, la modellazione e la progettazione dei dati, l'archiviazione, la sicurezza e l'integrazione.
Zachman Framework for Enterprise Architecture
Originariamente sviluppato da John Zachman presso IBM nel 1987, questo framework utilizza una matrice di sei livelli, da contestuale a dettagliato, mappato su sei domande quali perché, come e cosa. Fornisce un modo formale per organizzare e analizzare i dati, ma non include i metodi per farlo.
Un'architettura dei dati offre una prospettiva di alto livello di come i diversi sistemi di gestione dei dati lavorano insieme. Questi includono una serie di diversi repository di data storage, come data lake, data warehouse, data mart, database, eccetera. Insieme, possono creare architetture di dati, come data fabric e data mesh, che stanno diventando sempre più popolari. Queste architetture si concentrano maggiormente sui dati come prodotti, creando una maggiore standardizzazione dei metadati e una maggiore democratizzazione dei dati tra le organizzazioni tramite API.
La sezione seguente approfondisce ognuno di questi componenti di storage e i diversi tipi di architettura dei dati:
Tipi di sistemi di gestione dei dati
Tipi di architetture dei dati
Data fabric: un data fabric è un'architettura che si concentra sull'automazione dell'integrazione dei dati, del data engineering e della governance in una catena di valore dei dati tra fornitori e consumatori di dati. Un data fabric si basa sulla nozione di "metadati attivi", che utilizza i grafi di conoscenza, la semantica, il data mining e la tecnologia del machine learning (ML) per individuare schemi in diversi tipi di metadati (ad esempio i log di sistema, i social e altro). Poi, applica queste informazioni per automatizzare e orchestrare la catena del valore dei dati. Ad esempio, può consentire a un consumatore di dati di trovare un prodotto di dati e poi fornirglielo automaticamente. L'aumento dell'accesso ai dati tra i prodotti e i consumatori di dati porta a una riduzione dei silos di dati e fornisce un quadro più completo dei dati dell'organizzazione. I data fabric sono una tecnologia emergente con un enorme potenziale e possono essere utilizzati per migliorare la profilazione dei clienti, il rilevamento delle frodi e la manutenzione preventiva. Secondo Gartner, i data fabric riducono i tempi di progettazione dell'integrazione del 30%, i tempi di implementazione del 30% e la manutenzione del 70%.
Data mesh: un data mesh è un'architettura di dati decentralizzata che organizza i dati per dominio aziendale. Utilizzando un data mesh, un'organizzazione deve smettere di pensare ai dati come a un sottoprodotto di un processo e iniziare a considerarli come un prodotto a sé stante. I produttori di dati agiscono come proprietari dei prodotti di dati. In qualità di esperti in materia, i produttori di dati possono utilizzare la loro conoscenza dei principali consumatori dei dati per progettare API per loro. È possibile accedere a queste API anche da altre parti dell'organizzazione, garantendo un accesso più ampio ai dati gestiti.
I sistemi di storage più tradizionali, come i data lake e i data warehouse, possono essere utilizzati come più repository di dati decentralizzati per realizzare un data mesh. Un data mesh può funzionare anche con un data fabric: l'automazione del data fabric consente di creare nuovi prodotti di dati più rapidamente o di applicare la governance globale.
Un'architettura dei dati ben costruita può offrire alle aziende una serie di vantaggi chiave, tra cui:
Con lo sviluppo di roadmap per le applicazioni del futuro, tra cui workload di AI, blockchain e Internet of Things (IoT), le organizzazioni hanno bisogno di un'architettura dati moderna in grado di supportare i requisiti dei dati.
Le moderne architetture dei dati presentano sette caratteristiche principali:
IBM Cloud Pak for Data è una piattaforma dati aperta ed estensibile che fornisce un data fabric per rendere tutti i dati disponibili per l'AI e gli analytics su qualsiasi cloud.
Crea, esegui e gestisci i modelli AI. Prepara i dati e crea modelli su qualsiasi cloud utilizzando codice open source o modellazione visiva. Prevedi e ottimizza i risultati.
Scopri di più su Db2 on Cloud, un database SQL cloud completamente gestito, configurato e ottimizzato per garantire prestazioni elevate.
Leggi lo smart paper su come creare una solida base di dati per l’AI concentrandoti su tre aree chiave di gestione dei dati: accesso, governance, privacy e conformità.
Il data fabric può aiutare le aziende che investono in AI, machine learning, Internet of Things ed edge computing a ottenere maggiore valore dai propri dati.