Che cos'è l'architettura dei dati?

Cos'è l'architettura dei dati?

Un'architettura dei dati descrive il modo in cui i dati vengono gestiti, dalla raccolta alla trasformazione, fino alla distribuzione e al consumo. Definisce il blueprint de dati e il modo in cui fluiscono attraverso i sistemi di data storage. È fondamentale per le operazioni di elaborazione dei dati e le applicazioni di intelligenza artificiale (AI).

La progettazione di un'architettura dei dati deve essere guidata dai requisiti aziendali, che i data architect e i data engineer utilizzano per definire il rispettivo modello di dati e le strutture di dati sottostanti che lo supportano. Queste progettazioni in genere facilitano un'esigenza aziendale, ad esempio un'iniziativa di reporting o di data science .

Man mano che emergono nuove fonti di dati attraverso le tecnologie emergenti, come l'Internet of Things (IoT), una buona architettura dei dati garantisce che i dati siano gestibili e utili, supportando la gestione del ciclo di vita dei dati. In particolare, può evitare l'archiviazione di dati ridondanti, migliorare la qualità dei dati attraverso la pulizia e la deduplicazione, e consentire la creazione di nuove applicazioni. Le moderne architetture dei dati forniscono anche meccanismi per integrare i dati tra diversi domini, ad esempio tra dipartimenti o aree geografiche, abbattendo i silos di dati senza l'enorme complessità che deriva dall'archiviare tutto in un unico posto.

Le moderne architetture dei dati spesso impiegano le piattaforme cloud per gestire ed elaborare i dati. Sebbene possa essere più costoso, la scalabilità di calcolo consente di completare rapidamente importanti attività di elaborazione dei dati. La scalabilità dello storage aiuta anche a far fronte all'aumento dei volumi di dati e a garantire che tutti i dati pertinenti siano disponibili per migliorare la qualità dell'addestramento delle applicazioni AI.

Crea flussi di lavoro AI responsabili con la governance AI

Scopri gli elementi costitutivi e le best practice per aiutare i tuoi team ad accelerare l’AI responsabile.

Contenuti correlati

Registrati per l'ebook sull'AI generativa

Modelli di dati concettuali vs. logici vs. fisici

La documentazione dell'architettura dei dati include tre tipi di modelli di dati:

Modelli di dati concettuali: vengono anche definiti modelli di dominio e offrono una visione d'insieme di ciò che il sistema conterrà, come sarà organizzato e quali business rules sono coinvolte. I modelli concettuali vengono solitamente creati come parte del processo di raccolta dei requisiti iniziali del progetto. In genere, includono le classi di entità (che definiscono i tipi di elementi che è importante che l'azienda rappresenti nel modello di dati), le loro caratteristiche e vincoli, le relazioni tra esse e i requisiti di sicurezza e integrità dei dati pertinenti.
Modelli di dati logici: sono meno astratti e forniscono maggiori dettagli sui concetti e le relazioni nel dominio in esame. Si segue uno dei diversi sistemi di notazione formale per il data modeling. Questi indicano gli attributi dei dati, come i tipi di dati e le loro lunghezze corrispondenti, e mostrano le relazioni tra le entità. I modelli di dati logici non specificano alcun requisito tecnico di sistema.
Modelli di dati fisici: il modello di dati fisico è il più dettagliato e specifico dei tre. Definisce l'implementazione effettiva del database, comprese le strutture delle tabelle, gli indici, l'archiviazione e le considerazioni sulle prestazioni. Si concentra sugli aspetti tecnici del modo in cui i dati verranno archiviati e consultati e viene utilizzato per la creazione e l'ottimizzazione dello schema del database.

Framework popolari di architettura dei dati

Un'architettura dei dati può attingere ai framework di architettura aziendale più diffusi, tra cui TOGAF, DAMA-DMBOK 2 e Zachman Framework for Enterprise Architecture.

The Open Group Architecture Framework (TOGAF)

Questa metodologia di architettura aziendale è stata sviluppata nel 1995 da The Open Group, di cui IBM è membro Platinum.

L'architettura si articola in quattro pilastri:

Architettura aziendale, che definisce la struttura, la strategia e i processi dell'azienda.
Architettura dei dati, che descrive gli asset di dati concettuali, logici e fisici e il modo in cui vengono archiviati e gestiti durante il loro ciclo di vita.
Architettura delle applicazioni, che rappresenta i sistemi di applicazioni e il modo in cui si relazionano con i processi aziendali chiave e tra loro.
Architettura tecnica, che descrive l'infrastruttura tecnologica (hardware, software e rete) necessaria per supportare applicazioni mission-critical.

TOGAF fornisce quindi un framework completo per la progettazione e l'implementazione dell'architettura IT di un'azienda, inclusa l'architettura dei dati.

DAMA-DMBOK 2

DAMA International, originariamente fondata come Data Management Association International, è un'organizzazione senza scopo di lucro dedicata a promuovere la gestione di dati e informazioni. Il suo Data Management Body of Knowledge, DAMA-DMBOK 2, include l'architettura dei dati, nonché la governance e l'etica, la modellazione e la progettazione dei dati, l'archiviazione, la sicurezza e l'integrazione.

Zachman Framework for Enterprise Architecture

Originariamente sviluppato da John Zachman presso IBM nel 1987, questo framework utilizza una matrice di sei livelli, da contestuale a dettagliato, mappato su sei domande quali perché, come e cosa. Fornisce un modo formale per organizzare e analizzare i dati, ma non include i metodi per farlo.

Tipi di architetture dei dati e componenti di base sottostanti

Un'architettura dei dati offre una prospettiva di alto livello di come i diversi sistemi di gestione dei dati lavorano insieme. Questi includono una serie di diversi repository di data storage, come data lake, data warehouse, data mart, database, eccetera. Insieme, possono creare architetture di dati, come data fabric e data mesh, che stanno diventando sempre più popolari. Queste architetture si concentrano maggiormente sui dati come prodotti, creando una maggiore standardizzazione dei metadati e una maggiore democratizzazione dei dati tra le organizzazioni tramite API.

La sezione seguente approfondisce ognuno di questi componenti di storage e i diversi tipi di architettura dei dati:

Tipi di sistemi di gestione dei dati

Data warehouse: un data warehouse aggrega i dati provenienti da diverse fonti di dati relazionali all'interno di un'azienda in un unico repository centrale e coerente. Dopo l'estrazione, i dati fluiscono attraverso una pipeline di dati ETL, subendo varie trasformazioni per soddisfare il modello di dati predefinito. Una volta caricati nel data warehouse, i dati vengono utilizzati per supportare diverse applicazioni di business intelligence (BI) e di data science.
Data mart: un data mart è una versione mirata di un data warehouse che contiene un sottoinsieme più piccolo di dati importanti e necessari per un singolo team o un gruppo selezionato di utenti all'interno di un'organizzazione, come il dipartimento delle risorse umane. Poiché contengono un sottoinsieme più piccolo di dati, i data mart consentono a un reparto o a un'unità di business di scoprire insight più mirati in minor tempo rispetto a quando si lavora con il più ampio set di dati del data warehouse. I data mart sono nati originariamente in risposta alle difficoltà incontrate dalle organizzazioni nella creazione di data warehouse negli anni '90. All'epoca, integrare i dati provenienti da tutta l'organizzazione richiedeva molto codice manuale ed era un processo lungo e dispendioso. La portata più limitata dei data mart li ha resi più facili e veloci da implementare rispetto ai data warehouse centralizzati.
Data lake: mentre i data warehouse archiviano i dati elaborati, un data lake ospita dati non elaborati, in genere nell'ordine dei petabyte. Un data lake può archiviare sia dati strutturati che non strutturati, il che lo rende unico rispetto ad altri repository di dati. Questa flessibilità nei requisiti di storage è particolarmente utile per data scientist, data engineer e sviluppatori, poiché consente loro di accedere ai dati per esercizi di data discovery e progetti di machine learning. I data lake sono stati originariamente creati in risposta all'incapacità del data warehouse di gestire il volume, la velocità e la varietà crescenti dei big data. Sebbene i data lake siano più lenti dei data warehouse, sono anche più economici in quanto richiedono una data preparation limitata o nulla prima dell'acquisizione. Oggi continuano a evolversi nell'ambito delle iniziative di migrazione dei dati al cloud. I data lake supportano un'ampia gamma di casi d'uso, perché gli obiettivi aziendali per i dati non devono essere definiti al momento della raccolta dei dati. Tuttavia, tra i più importanti troviamo l'esplorazione della data science e le attività di backup and recovery dei dati. I data scientist possono utilizzare i data lake per i proof of concept. Le applicazioni di machine learning traggono vantaggio dalla possibilità di archiviare dati strutturati e non strutturati nello stesso luogo, cosa che non è possibile utilizzando un sistema di database relazionale. I data lake possono anche essere impiegati per testare e sviluppare progetti di big data analytics. Una volta sviluppata l'applicazione e identificati i dati utili, questi possono essere esportati in un data warehouse per l'uso operativo e si può applicare l'automazione per rendere l'applicazione scalabile. I data lake possono essere utilizzati anche per il backup and recovery dei dati, grazie alla loro scalabilità a basso costo. Per gli stessi motivi, i data lake sono utili per archiviare dati "per ogni evenienza", per i quali le esigenze aziendali non sono ancora state definite. Memorizzare i dati sul momento significa renderli disponibili in futuro, quando saranno utili per nuove iniziative.

Tipi di architetture dei dati

Data fabric: un data fabric è un'architettura che si concentra sull'automazione dell'integrazione dei dati, del data engineering e della governance in una catena di valore dei dati tra fornitori e consumatori di dati. Un data fabric si basa sulla nozione di "metadati attivi", che utilizza i grafi di conoscenza, la semantica, il data mining e la tecnologia del machine learning (ML) per individuare schemi in diversi tipi di metadati (ad esempio i log di sistema, i social e altro). Poi, applica queste informazioni per automatizzare e orchestrare la catena del valore dei dati. Ad esempio, può consentire a un consumatore di dati di trovare un prodotto di dati e poi fornirglielo automaticamente. L'aumento dell'accesso ai dati tra i prodotti e i consumatori di dati porta a una riduzione dei silos di dati e fornisce un quadro più completo dei dati dell'organizzazione. I data fabric sono una tecnologia emergente con un enorme potenziale e possono essere utilizzati per migliorare la profilazione dei clienti, il rilevamento delle frodi e la manutenzione preventiva. Secondo Gartner, i data fabric riducono i tempi di progettazione dell'integrazione del 30%, i tempi di implementazione del 30% e la manutenzione del 70%.

Data mesh: un data mesh è un'architettura di dati decentralizzata che organizza i dati per dominio aziendale. Utilizzando un data mesh, un'organizzazione deve smettere di pensare ai dati come a un sottoprodotto di un processo e iniziare a considerarli come un prodotto a sé stante. I produttori di dati agiscono come proprietari dei prodotti di dati. In qualità di esperti in materia, i produttori di dati possono utilizzare la loro conoscenza dei principali consumatori dei dati per progettare API per loro. È possibile accedere a queste API anche da altre parti dell'organizzazione, garantendo un accesso più ampio ai dati gestiti.

I sistemi di storage più tradizionali, come i data lake e i data warehouse, possono essere utilizzati come più repository di dati decentralizzati per realizzare un data mesh. Un data mesh può funzionare anche con un data fabric: l'automazione del data fabric consente di creare nuovi prodotti di dati più rapidamente o di applicare la governance globale.

Vantaggi delle architetture dei dati

Un'architettura dei dati ben costruita può offrire alle aziende una serie di vantaggi chiave, tra cui:

Riduzione della ridondanza: potrebbero esserci campi di dati sovrapposti tra diverse fonti, con conseguente rischio di incoerenze, imprecisioni dei dati e opportunità mancate di integrazione dei dati. Una buona architettura dei dati può standardizzare il modo in cui i dati vengono archiviati e potenzialmente ridurre la duplicazione, consentendo analisi olistiche e di migliore qualità.
Miglioramento della qualità dei dati: architetture di dati ben progettate possono risolvere alcune delle sfide dei data lake mal gestiti, noti anche come "data swamp". Un data swamp manca di pratiche adeguate di qualità dei dati e di governance dei dati per fornire informazioni utili. Le architetture dei dati possono aiutare a far rispettare gli standard di governance e sicurezza dei dati, consentendo un'adeguata supervisione della pipeline dei dati affinché funzioni come previsto. Migliorando la qualità e la governance dei dati, le architetture dei dati possono garantire che i dati siano archiviati in modo da renderli utili sul momento e in futuro.
Abilitazione dell'integrazione: in passato, i dati erano spesso isolati, a causa di limitazioni tecniche nel data storage e di barriere organizzative all'interno delle aziende. Le architetture dei dati odierne dovrebbero mirare a facilitare l'integrazione dei dati tra i domini, in modo che le diverse aree geografiche e funzioni aziendali abbiano accesso ai dati delle altre. Questo consente una comprensione migliore e più coerente delle metriche comuni (come le spese, i ricavi e i relativi driver). Inoltre, offre una visione più olistica di clienti, prodotti e aree geografiche, per informare meglio il processo decisionale.
Gestione del ciclo di vita dei dati: un'architettura dei dati moderna può influenzare il modo in cui i dati vengono gestiti nel tempo. In genere, i dati diventano meno utili man mano che invecchiano e vengono consultati meno spesso. Nel corso del tempo, i dati possono essere migrati su tipi di storage più economici e lenti, in modo che rimangano disponibili per i report e gli audit, ma senza i costi dello storage ad alte prestazioni.

Architettura dati moderna

Con lo sviluppo di roadmap per le applicazioni del futuro, tra cui workload di AI, blockchain e Internet of Things (IoT), le organizzazioni hanno bisogno di un'architettura dati moderna in grado di supportare i requisiti dei dati.

Le moderne architetture dei dati presentano sette caratteristiche principali:

Funzionalità cloud-native e cloud-enabled, che consentono all'architettura dei dati di beneficiare della scalabilità elastica e dell'alta disponibilità del cloud.
Pipeline di dati solide, scalabili e portatili, che combinano workflow intelligenti, analisi cognitive e integrazione in tempo reale in un unico framework.
Integrazione dei dati perfetta, utilizzando interfacce API standard per connettersi alle applicazioni legacy.
Abilitazione dei dati in tempo reale, tra cui convalida, classificazione, gestione e governance.
Funzionamento indipendente ed estensibilità, che evitano dipendenze tra i servizi, mentre gli standard aperti consentono l'interoperabilità.
Funzionamento basato su domini di dati, eventi e microservizi comuni.
Ottimizzazione che bilancia costi e semplicità.

Soluzioni IBM

IBM Cloud Pak for Data

IBM Cloud Pak for Data è una piattaforma dati aperta ed estensibile che fornisce un data fabric per rendere tutti i dati disponibili per l'AI e gli analytics su qualsiasi cloud.

Scopri IBM Cloud Pak for Data

IBM Watson Studio

Crea, esegui e gestisci i modelli AI. Prepara i dati e crea modelli su qualsiasi cloud utilizzando codice open source o modellazione visiva. Prevedi e ottimizza i risultati.

Esplora IBM Watson Studio

IBM® Db2 on Cloud

Scopri di più su Db2 on Cloud, un database SQL cloud completamente gestito, configurato e ottimizzato per garantire prestazioni elevate.

Esplora IBM Db2 on Cloud

Risorse

Creare una solida base di dati per l'AI

Leggi lo smart paper su come creare una solida base di dati per l’AI concentrandoti su tre aree chiave di gestione dei dati: accesso, governance, privacy e conformità.

Leggi il report di IBV

Il data fabric può aiutare le aziende che investono in AI, machine learning, Internet of Things ed edge computing a ottenere maggiore valore dai propri dati.

Fasi successive

Scala i workload AI per tutti i tuoi dati, ovunque, con IBM watsonx.data, uno storage dei dati adatto allo scopo costruito su un'architettura open data lakehouse.

Esplora watsonx.data

Prenota una demo live