Un'architettura dei dati descrive il modo in cui i dati vengono gestiti, dall'acquisizione alla trasformazione, dalla distribuzione al consumo, definendo il blueprint del modo in cui i dati fluiscono attraverso i sistemi di data storage. È fondamentale per le operazioni di trattamento dei dati e le applicazioni di intelligenza artificiale (AI).
La progettazione di un'architettura dei dati spesso si basa su requisiti aziendali e necessità di dati, che i data architect e i data engineer utilizzano per definire il rispettivo modello di dati e le strutture di dati sottostanti che lo supportano. Queste progettazioni in genere facilitano una strategia aziendale o un'esigenza aziendale, ad esempio un'iniziativa di reporting o di data science.
Newsletter di settore
Resta al passo con le tendenze più importanti e interessanti del settore relative ad AI, automazione, dati e oltre con la newsletter Think. Leggi l' Informativa sulla privacy IBM.
L'abbonamento sarà fornito in lingua inglese. Troverai un link per annullare l'iscrizione in tutte le newsletter. Puoi gestire i tuoi abbonamenti o annullarli qui. Per ulteriori informazioni, consulta l'Informativa sulla privacy IBM.
Man mano che le organizzazioni scalano i loro dati, la necessità di un'architettura ben strutturata e adattabile è diventata fondamentale. Eppure, il 94% dei leader dei dati ha segnalato l'assenza di un'architettura dei dati definita come una delle loro sfide principali.1
Una moderna architettura dei dati aiuta a unificare e standardizzare i dati aziendali, consentendo una condivisione dei dati ininterrotta tra i domini aziendali. Fornisce inoltre una base scalabile per casi d'uso avanzati come l'analytics dei dati in tempo reale e l'AI generativa, aiutando i team a estrarre valore dai dati in modo più rapido e affidabile.
Poiché tecnologie come l'Internet of Things (IoT) generano nuove fonti di dati, un'architettura ben progettata garantisce che i dati rimangano gestibili, integrati e utili per tutto il loro ciclo di vita. Può ridurre la ridondanza, migliorare la qualità dei dati e contribuire a eliminare i silo collegando i sistemi in tutta l'azienda.
Se ben costruita, l'architettura dei dati non è solo una struttura tecnica: è una risorsa strategica che trasforma i dati non elaborati in un asset riutilizzabile.
L'architettura dei dati riunisce diversi concetti sovrapposti. Ecco alcuni elementi che aiutano a definire questo panorama:
Un'architettura dei dati moderna tende a seguire uno dei due approcci principali: centralizzata o decentralizzata. Questi modelli guidano il modo in cui i dati aziendali vengono raccolti, memorizzati e gestiti.
Le architetture centralizzate portano i dati in piattaforme unificate, come data lake o data warehouse, gestite secondo un unico modello di governance dei dati. Ciò aiuta a ridurre la ridondanza, a migliorare la qualità dei dati e a supportare la modellazione dei dati strutturati mediante il linguaggio di query strutturato (SQL) e altri database relazionali.
Le architetture decentralizzate distribuiscono la proprietà dei dati tra i domini aziendali. I team gestiscono i dati a livello locale, spesso utilizzando sistemi di database non relazionali (chiamati anche "database NoSQL") o pipeline basate sugli eventi con i propri schemi, metadati e controlli di accesso. Questo approccio supporta l'integrazione e l'elaborazione dei dati in tempo reale, lo streaming dei dati e casi d'uso di machine learning (ML).
La maggior parte delle organizzazioni combina entrambi i modelli per bilanciare scalabilità, integrazione dei dati e agilità. Si tratta di un approccio ibrido che aiuta a supportare diverse fonti di dati, ridurre i silo e consentire operazioni cloud-native su piattaforme come Microsoft Azure o AWS.
Indipendentemente dal modello di architettura adottato da un'organizzazione, il successo dipende dalla qualità della struttura dei dati sottostanti. È qui che entra in gioco il data modeling.
Mentre l'architettura dei dati si concentra sul modo in cui i dati fluiscono tra i vari sistemi, il data modeling si concentra sul modo in cui i dati vengono strutturati all'interno di essi I modelli di dati definiscono la forma, le relazioni e i vincoli delle informazioni mentre si muovono all'interno di un'architettura.
La documentazione dell'architettura dei dati include in genere tre tipi di modelli:
I modelli di dati concettuali, definiti anche "modelli di dominio", offrono una visione olistica di ciò che il sistema conterrà, di come sarà organizzato e di quali business rules si applicano. Questi modelli vengono in genere creati durante le prime fasi della pianificazione del progetto e includono le classi di entità (elementi definiti da tracciare nel modello di dati), le loro caratteristiche e vincoli, le loro relazioni e qualsiasi requisito di sicurezza o integrità dei dati pertinente.
I modelli di dati logici sono meno astratti di quelli concettuali e forniscono maggiori dettagli sulle entità e sulle relazioni all'interno di un determinato dominio. Seguono una notazione formale di data modeling e definiscono gli attributi dei dati, come i tipi e le lunghezze, illustrando in che modo sono connesse le entità. È importante sottolineare che i modelli logici restano indipendenti dalla tecnologia e non includono requisiti di sistema specifici.
I modelli di dati fisici sono i più dettagliati dei tre e descrivono le modalità di implementazione del database. Definiscono le strutture delle tabelle, gli indici, i formati di archiviazione e le considerazioni sulle prestazioni. Si concentrano sugli aspetti tecnici del modo in cui i dati strutturati vengono memorizzati e consultati, e vengono utilizzati per guidare la creazione, la configurazione e l'ottimizzazione dello schema.
I modelli di dati plasmano la struttura delle informazioni all'interno di un sistema. Da lì, framework architetturali più ampi guidano il modo in cui vengono implementati i modelli e i sistemi che li circondano.
Un'architettura dei dati può attingere ai framework di architettura aziendale più diffusi, tra cui TOGAF, DAMA-DMBOK 2 e il Framework Zachman per l'architettura aziendale.
Questa metodologia di architettura aziendale è stata sviluppata nel 1995 da The Open Group. La sua architettura è composta da quattro pilastri:
TOGAF fornisce un framework completo per progettare e implementare l'architettura IT di un'azienda, compresa l'architettura dei dati.
DAMA International, originariamente fondata come Data Management Association International, è un'organizzazione senza scopo di lucro dedicata a promuovere la gestione di dati e informazioni. Il suo Body of Knowledge della gestione dei dati, DAMA-DMBOK 2, copre l'architettura dei dati, la governance e l'etica, la modellazione e la progettazione dei dati, lo storage, la sicurezza e l'integrazione.
Originariamente sviluppato da John Zachman presso IBM nel 1987, questo framework utilizza una matrice di sei livelli, da contestuale a dettagliato, mappati su sei domande quali perché, come e cosa. Fornisce un modo formale per organizzare e analizzare i dati, ma non include i metodi per farlo.
Un'architettura dei dati è costituita da più componenti interdipendenti che gestiscono il modo in cui i dati vengono spostati, archiviati, governati e il modo con cui vi si accede. Questi elementi costituiscono la base operativa dei sistemi di dati e supportano tutto, dall'ingestione all'analytics.
I componenti dell'architettura dei dati rientrano in genere in quattro categorie, ognuna con diverse sottocategorie:
I dati vengono acquisiti da fonti esterne e interne e spostati nel sistema per l'elaborazione e lo storage.
Le pipeline inseriscono, trasformano e trasportano i dati dal punto di origine a dove vengono elaborati e memorizzati. Questi sistemi possono seguire schemi batch, come estrazione, trasformazione e caricamento (ETL) o estrazione, caricamento, trasformazione (ELT). Possono anche trasmettere i dati quasi in tempo reale. Le pipeline moderne spesso includono la logica di trasformazione, i controlli di qualità e la convalida dello schema come parte del flusso.
Le application programming interface (API) e i connettori predefiniti consentono una perfetta integrazione tra sistemi di dati, applicazioni e strumenti di analisi. Forniscono un modo standardizzato per semplificare l'accesso ai dati su diverse piattaforme e sono fondamentali per lo scambio in tempo reale.
Una volta inseriti, i dati vengono memorizzati in sistemi scalabili (sia strutturati che non strutturati) dove diventano disponibili per ulteriori utilizzi e analisi.
Un data warehouse aggrega i dati provenienti da diverse fonti di dati relazionali in tutta l'azienda in un unico repository centrale e coerente. Dopo l'estrazione, i dati fluiscono attraverso una pipeline ETL, subendo varie trasformazioni per soddisfare il modello di dati predefinito. Quando vengono caricati nel sistema di data warehousing, diventano disponibili per supportare varie applicazioni di business intelligence (BI) e data science.
Un data mart è una versione mirata di un data warehouse che contiene un sottoinsieme più piccolo di dati rilevanti per un singolo team o gruppo di stakeholder. Restringendo l'ambito, i data mart offrono insight più rapidi e mirati rispetto all'utilizzo del set di dati di warehouse più ampio.
Un data lake memorizza dati grezzi e non elaborati, sia in formati strutturati che non strutturati, su larga scala. A differenza dei data warehouse, i data lake non richiedono la modellazione o la preparazione anticipata dei dati, il che li rende ideali per i workload di big data.
Un data lakehouse fonde aspetti dei data warehouse e dei data lake in un'unica soluzione di gestione dei dati. Combina uno storage a basso costo con un motore di query ad alte prestazioni e una governance intelligente dei metadati.
Un database è il repository digitale di base per la memorizzazione, la gestione e la sicurezza dei dati. I diversi tipi di database memorizzano i dati in diversi modi. Ad esempio, i database relazionali (chiamati anche "SQL database") memorizzano i dati in tabelle definite con righe e colonne. I database NoSQL possono memorizzarli come varie strutture dati, tra cui coppie chiave-valore o grafici.
Man mano che i dati fluiscono e si accumulano, gli strumenti di governance assicurano che siano ben organizzati, sicuri e rilevabili in tutto il loro ciclo di vita.
Un catalogo dati è un inventario centralizzato degli asset di dati di un'organizzazione. Utilizza i metadati per fornire contesto su ciascun set di dati, tra cui origine, struttura, proprietà, cronologia di utilizzo e qualità. I cataloghi aiutano gli utenti a trovare e valutare i dati, supportano le attività di governance e conformità e facilitano la collaborazione tra i team.
Gli strumenti lineage tracciano il percorso dei dati tra i sistemi, mostrando come sono stati trasformati e da dove hanno avuto origine. Questa visibilità è essenziale per gli audit, la risoluzione dei problemi e la comprensione delle dipendenze. Le piattaforme di observability possono integrare il lignaggio monitorando le prestazioni e le metriche sulla qualità dei dati.
Infine, i dati raggiungono le persone e i sistemi che li utilizzano attraverso dashboard, query o strumenti incorporati che guidano le decisioni.
Le piattaforme di business intelligence possono migliorare l'accesso ai dati tramite visualizzazioni e dashboard. Questi strumenti aiutano gli utenti non tecnici a interpretare le tendenze, monitorare gli indicatori chiave di prestazione (KPI) e prendere decisioni basate sui dati.
Gli endpoint SQL e altre interfacce di interrogazione consentono agli analisti e ai data scientist di esplorare e analizzare direttamente i dati. Strumenti come Apache Spark e IBM® watsonx.data forniscono il livello di elaborazione necessario per eseguire query su set di dati distribuiti su larga scala.
Alcune architetture supportano la fornitura di dati direttamente in applicazioni, workflow o API. Questi prodotti di dati incorporati forniscono insight sulle operazioni quotidiane, consentendo un processo decisionale basato sui dati.
I dati provenienti da tutta l'architettura alimentano anche i workflow di AI e ML. I dati di addestramento provengono spesso dai data lake, vengono trasformati attraverso le pipeline e utilizzati per sviluppare e riqualificare i modelli. Questi modelli possono poi essere distribuiti in prodotti, dashboard o processi aziendali per migliorare l'automazione e la previsione.
L'implementazione di un'architettura dei dati implica la traduzione delle esigenze aziendali in una roadmap per la raccolta, l'organizzazione, la sicurezza e l'accessibilità dei dati. Anche se non esiste un'implementazione uguale all'altra, la maggior parte segue un approccio che passa dalla pianificazione all'esecuzione.
Il processo inizia stabilendo ciò di cui l'azienda ha bisogno dai suoi dati, che si tratti di abilitare il machine learning o di supportare la conformità. In questo modo, vengono definite le priorità dell'architettura, quali fonti di dati includere e quali sistemi richiedono l'integrazione.
I data architect sviluppano modelli di dati concettuali, logici e fisici per guidare la struttura e il flusso. Questi modelli aiutano a identificare entità chiave, relazioni, requisiti dei dati e controlli di accesso. Allo stesso tempo, vengono stabilite politiche di governance per definire la proprietà, i diritti di accesso e le regole del ciclo di vita dei dati.
Con modelli e politiche in atto, i team progettano l'architettura selezionando le tecnologie per lo storage, l'integrazione, la gestione e il consumo dei metadati. Ciò include la definizione di come i dati si sposteranno tra i sistemi e di dove risiederanno tra i sistemi di storage.
L'implementazione comporta in genere l'implementazione di pipeline di ingestione, la creazione di API, la configurazione di livelli di governance e l'abilitazione di punti di accesso come dashboard o endpoint di query. I requisiti di sicurezza e conformità sono incorporati in questa fase per proteggere i dati.
Una volta distribuita, un'architettura di dati deve essere continuamente monitorata e perfezionata. I volumi di dati crescono, i casi d'uso si evolvono, le normative cambiano. Le organizzazioni spesso rivisitano e ottimizzano nuovamente le loro architetture, in particolare quando adottano piattaforme cloud e modelli architettonici moderni.
Man mano che le organizzazioni si espandono, aumenta anche la necessità di un'architettura dei dati flessibile e resiliente. Un'architettura di dati moderna dà priorità all'interoperabilità, all'accesso in tempo reale e alla capacità di gestire i dati come prodotto, non solo come asset. Permette inoltre una maggiore standardizzazione, gestione dei metadati e democratizzazione tramite API.
Le caratteristiche principali di un'architettura di dati moderna includono:
Le organizzazioni che stanno modernizzando la propria infrastruttura di dati stanno adottando nuove strategie che riflettono la complessità degli odierni ambienti ibridi e multicloud. Questo cambiamento ha dato origine a nuovi modelli di architettura, in particolare data fabric e data mesh.
Un data fabric si concentra sull'automazione dell'integrazione e della gestione dei dati in ambienti ibridi. Utilizza metadati attivi e machine learning per scoprire relazioni tra sistemi e orchestrare i flussi di dati. Un data fabric può fornire automaticamente prodotti dati e distribuirli su richiesta, migliorando l'efficienza operativa e riducendo i silo di dati.
Un data mesh decentralizza la proprietà dei dati allineando l'architettura con i domini aziendali. Incoraggia i produttori di dati più vicini alla fonte a trattare i dati come un prodotto e a progettare API pensando ai consumatori. Questo modello aiuta a eliminare i colli di bottiglia e supporta una democratizzazione dei dati scalabile in tutta l'azienda.
E, sebbene questi approcci differiscano, non si escludono a vicenda. Molte organizzazioni implementano elementi di entrambi, utilizzando l'automazione di un fabric per scalare la governance decentralizzata di una rete.
Un'architettura di dati ben costruita può offrire alle aziende vantaggi significativi, tra cui:
Campi di dati sovrapposti tra diverse fonti possono portare a incongruenze, imprecisioni e opportunità mancate per l'integrazione dei dati. Una valida architettura dei dati può standardizzare il modo in cui i dati vengono memorizzati e, potenzialmente, ridurre la ridondanza, consentendo analisi olistiche e di migliore qualità.
Le architetture di dati ben progettate possono risolvere alcune delle sfide dei data lake mal gestiti, noti anche come "data swamp." Un data swamp non ha standard di dati appropriati, tra cui qualità dei dati e pratiche di governance, per fornire informazioni significative. Le architetture di dati possono aiutare a far rispettare la governance e gli standard di sicurezza dei dati, consentendo un'adeguata supervisione delle pipeline.
I dati sono spesso isolati a causa di limitazioni tecniche nel data storage e di barriere organizzative all'interno delle aziende. Le architetture di dati odierne dovrebbero mirare a facilitare l'integrazione dei dati tra i domini, in modo che le diverse aree geografiche e funzioni aziendali abbiano accesso ai dati delle altre. Ciò può portare a una comprensione migliore e più coerente delle metriche comuni e favorisce una visione più olistica del business per informare un processo decisionale basato sui dati.
Una moderna architettura dei dati può risolvere il modo in cui i dati vengono gestiti nel tempo. In genere, i dati diventano meno utili man mano che invecchiano e vengono consultati meno spesso. Nel corso del tempo, i dati possono essere trasferiti su tipi di storage più economici e lenti, in modo che rimangano disponibili per i report e le verifiche, senza i costi associati allo storage ad alte prestazioni.
Per prosperare, le aziende devono utilizzare i dati per fidelizzare i clienti, automatizzare i processi aziendali e innovare con soluzioni basate sull'AI.
Sblocca il valore dei dati aziendali con IBM Consulting e crea un'organizzazione basata su insight in grado di generare vantaggi aziendali.
Introduzione a Cognos Analytics 12.0, insight basati sull'AI per prendere decisioni migliori.