Cos'è l'architettura dei dati?

Autori

Staff Writer

IBM Think

Staff Editor

IBM Think

Cos'è l'architettura dei dati?

Un'architettura dei dati descrive il modo in cui i dati vengono gestiti, dall'acquisizione alla trasformazione, dalla distribuzione al consumo, definendo il blueprint del modo in cui i dati fluiscono attraverso i sistemi di data storage. È fondamentale per le operazioni di trattamento dei dati e le applicazioni di intelligenza artificiale (AI).

La progettazione di un'architettura dei dati spesso si basa su requisiti aziendali e necessità di dati, che i data architect e i data engineer utilizzano per definire il rispettivo modello di dati e le strutture di dati sottostanti che lo supportano. Queste progettazioni in genere facilitano una strategia aziendale o un'esigenza aziendale, ad esempio un'iniziativa di reporting o di data science.

Newsletter di settore

Le ultime notizie nel campo della tecnologia, supportate dalle analisi degli esperti

Resta al passo con le tendenze più importanti e interessanti del settore relative ad AI, automazione, dati e oltre con la newsletter Think. Leggi l' Informativa sulla privacy IBM.

Perché l'architettura dei dati è importante?

Man mano che le organizzazioni scalano i loro dati, la necessità di un'architettura ben strutturata e adattabile è diventata fondamentale. Eppure, il 94% dei leader dei dati ha segnalato l'assenza di un'architettura dei dati definita come una delle loro sfide principali^.1

Una moderna architettura dei dati aiuta a unificare e standardizzare i dati aziendali, consentendo una condivisione dei dati ininterrotta tra i domini aziendali. Fornisce inoltre una base scalabile per casi d'uso avanzati come l'analytics dei dati in tempo reale e l'AI generativa, aiutando i team a estrarre valore dai dati in modo più rapido e affidabile.

Poiché tecnologie come l'Internet of Things (IoT) generano nuove fonti di dati, un'architettura ben progettata garantisce che i dati rimangano gestibili, integrati e utili per tutto il loro ciclo di vita. Può ridurre la ridondanza, migliorare la qualità dei dati e contribuire a eliminare i silo collegando i sistemi in tutta l'azienda.

Se ben costruita, l'architettura dei dati non è solo una struttura tecnica: è una risorsa strategica che trasforma i dati non elaborati in un asset riutilizzabile.

Mixture of Experts | 12 dicembre, episodio 85

Decoding AI: Weekly News Roundup

Unisciti al nostro gruppo di livello mondiale di ingegneri, ricercatori, leader di prodotto e molti altri mentre si fanno strada nell'enorme quantità di informazioni sull'AI per darti le ultime notizie e gli ultimi insight sull'argomento.

Guarda tutti gli episodi di Mixture of Experts

Termini chiave nell'architettura dei dati

L'architettura dei dati riunisce diversi concetti sovrapposti. Ecco alcuni elementi che aiutano a definire questo panorama:

Piattaforma: l'ambiente tecnologico sottostante che ospita e gestisce i sistemi di dati. Include sia strumenti basati sul cloud che on-premise.

Modello di dati: una rappresentazione dettagliata di come i dati sono organizzati all'interno di un sistema. Definisce entità, relazioni e formati.

Framework: una metodologia strategica utilizzata per progettare e gestire l'architettura aziendale. I framework forniscono approcci strutturati per allineare i sistemi di dati con gli obiettivi aziendali.

Componente: un elemento funzionale che svolge un ruolo specifico all'interno dell'architettura. Alcuni esempi includono le pipeline per lo spostamento, i data lake per lo storage grezzo e i cataloghi per la gestione dei metadati.

Pattern: una soluzione ripetibile a una sfida di architettura comune. Modelli come data fabric o data mesh descrivono modi testati per migliorare la scalabilità, la governance o l'accessibilità.

Tipi di architettura dei dati

Un'architettura dei dati moderna tende a seguire uno dei due approcci principali: centralizzata o decentralizzata. Questi modelli guidano il modo in cui i dati aziendali vengono raccolti, memorizzati e gestiti.

Le architetture centralizzate portano i dati in piattaforme unificate, come data lake o data warehouse, gestite secondo un unico modello di governance dei dati. Ciò aiuta a ridurre la ridondanza, a migliorare la qualità dei dati e a supportare la modellazione dei dati strutturati mediante il linguaggio di query strutturato (SQL) e altri database relazionali.

Le architetture decentralizzate distribuiscono la proprietà dei dati tra i domini aziendali. I team gestiscono i dati a livello locale, spesso utilizzando sistemi di database non relazionali (chiamati anche "database NoSQL") o pipeline basate sugli eventi con i propri schemi, metadati e controlli di accesso. Questo approccio supporta l'integrazione e l'elaborazione dei dati in tempo reale, lo streaming dei dati e casi d'uso di machine learning (ML).

La maggior parte delle organizzazioni combina entrambi i modelli per bilanciare scalabilità, integrazione dei dati e agilità. Si tratta di un approccio ibrido che aiuta a supportare diverse fonti di dati, ridurre i silo e consentire operazioni cloud-native su piattaforme come Microsoft Azure o AWS.

Indipendentemente dal modello di architettura adottato da un'organizzazione, il successo dipende dalla qualità della struttura dei dati sottostanti. È qui che entra in gioco il data modeling.

Quali sono i tre tipi di modelli di dati?

Mentre l'architettura dei dati si concentra sul modo in cui i dati fluiscono tra i vari sistemi, il data modeling si concentra sul modo in cui i dati vengono strutturati all'interno di essi I modelli di dati definiscono la forma, le relazioni e i vincoli delle informazioni mentre si muovono all'interno di un'architettura.

La documentazione dell'architettura dei dati include in genere tre tipi di modelli:

Modelli di dati concettuali
Modelli di dati logici
Modelli di dati fisici

Modelli di dati concettuali

I modelli di dati concettuali, definiti anche "modelli di dominio", offrono una visione olistica di ciò che il sistema conterrà, di come sarà organizzato e di quali business rules si applicano. Questi modelli vengono in genere creati durante le prime fasi della pianificazione del progetto e includono le classi di entità (elementi definiti da tracciare nel modello di dati), le loro caratteristiche e vincoli, le loro relazioni e qualsiasi requisito di sicurezza o integrità dei dati pertinente.

Modelli di dati logici

I modelli di dati logici sono meno astratti di quelli concettuali e forniscono maggiori dettagli sulle entità e sulle relazioni all'interno di un determinato dominio. Seguono una notazione formale di data modeling e definiscono gli attributi dei dati, come i tipi e le lunghezze, illustrando in che modo sono connesse le entità. È importante sottolineare che i modelli logici restano indipendenti dalla tecnologia e non includono requisiti di sistema specifici.

Modelli di dati fisici

I modelli di dati fisici sono i più dettagliati dei tre e descrivono le modalità di implementazione del database. Definiscono le strutture delle tabelle, gli indici, i formati di archiviazione e le considerazioni sulle prestazioni. Si concentrano sugli aspetti tecnici del modo in cui i dati strutturati vengono memorizzati e consultati, e vengono utilizzati per guidare la creazione, la configurazione e l'ottimizzazione dello schema.

I modelli di dati plasmano la struttura delle informazioni all'interno di un sistema. Da lì, framework architetturali più ampi guidano il modo in cui vengono implementati i modelli e i sistemi che li circondano.

Framework di architettura dei dati più popolari

Un'architettura dei dati può attingere ai framework di architettura aziendale più diffusi, tra cui TOGAF, DAMA-DMBOK 2 e il Framework Zachman per l'architettura aziendale.

The Open Group Architecture Framework (TOGAF)

Questa metodologia di architettura aziendale è stata sviluppata nel 1995 da The Open Group. La sua architettura è composta da quattro pilastri:

Architettura aziendale, che definisce la struttura, la strategia dei dati e i processi dell'azienda.

Architettura dei dati, che descrive gli asset di dati concettuali, logici e fisici e il modo in cui vengono memorizzati e gestiti durante il loro ciclo di vita.

Architettura delle applicazioni, che rappresenta i sistemi di applicazioni e il modo in cui si relazionano con i processi aziendali chiave e tra loro.

Architettura tecnica, che descrive l'infrastruttura di dati (hardware, software e networking) necessaria per supportare le applicazioni mission-critical.

TOGAF fornisce un framework completo per progettare e implementare l'architettura IT di un'azienda, compresa l'architettura dei dati.

DAMA-DMBOK 2

DAMA International, originariamente fondata come Data Management Association International, è un'organizzazione senza scopo di lucro dedicata a promuovere la gestione di dati e informazioni. Il suo Body of Knowledge della gestione dei dati, DAMA-DMBOK 2, copre l'architettura dei dati, la governance e l'etica, la modellazione e la progettazione dei dati, lo storage, la sicurezza e l'integrazione.

Zachman Framework for Enterprise Architecture

Originariamente sviluppato da John Zachman presso IBM nel 1987, questo framework utilizza una matrice di sei livelli, da contestuale a dettagliato, mappati su sei domande quali perché, come e cosa. Fornisce un modo formale per organizzare e analizzare i dati, ma non include i metodi per farlo.

Componenti dell'architettura dei dati

Un'architettura dei dati è costituita da più componenti interdipendenti che gestiscono il modo in cui i dati vengono spostati, archiviati, governati e il modo con cui vi si accede. Questi elementi costituiscono la base operativa dei sistemi di dati e supportano tutto, dall'ingestione all'analytics.

I componenti dell'architettura dei dati rientrano in genere in quattro categorie, ognuna con diverse sottocategorie:

Flusso e integrazione

I dati vengono acquisiti da fonti esterne e interne e spostati nel sistema per l'elaborazione e lo storage.

Pipeline di dati

Le pipeline inseriscono, trasformano e trasportano i dati dal punto di origine a dove vengono elaborati e memorizzati. Questi sistemi possono seguire schemi batch, come estrazione, trasformazione e caricamento (ETL) o estrazione, caricamento, trasformazione (ELT). Possono anche trasmettere i dati quasi in tempo reale. Le pipeline moderne spesso includono la logica di trasformazione, i controlli di qualità e la convalida dello schema come parte del flusso.

API e connettori

Le application programming interface (API) e i connettori predefiniti consentono una perfetta integrazione tra sistemi di dati, applicazioni e strumenti di analisi. Forniscono un modo standardizzato per semplificare l'accesso ai dati su diverse piattaforme e sono fondamentali per lo scambio in tempo reale.

Sistemi di storage

Una volta inseriti, i dati vengono memorizzati in sistemi scalabili (sia strutturati che non strutturati) dove diventano disponibili per ulteriori utilizzi e analisi.

Data warehouse

Un data warehouse aggrega i dati provenienti da diverse fonti di dati relazionali in tutta l'azienda in un unico repository centrale e coerente. Dopo l'estrazione, i dati fluiscono attraverso una pipeline ETL, subendo varie trasformazioni per soddisfare il modello di dati predefinito. Quando vengono caricati nel sistema di data warehousing, diventano disponibili per supportare varie applicazioni di business intelligence (BI) e data science.

Data mart

Un data mart è una versione mirata di un data warehouse che contiene un sottoinsieme più piccolo di dati rilevanti per un singolo team o gruppo di stakeholder. Restringendo l'ambito, i data mart offrono insight più rapidi e mirati rispetto all'utilizzo del set di dati di warehouse più ampio.

Data lake

Un data lake memorizza dati grezzi e non elaborati, sia in formati strutturati che non strutturati, su larga scala. A differenza dei data warehouse, i data lake non richiedono la modellazione o la preparazione anticipata dei dati, il che li rende ideali per i workload di big data.

Data lakehouse

Un data lakehouse fonde aspetti dei data warehouse e dei data lake in un'unica soluzione di gestione dei dati. Combina uno storage a basso costo con un motore di query ad alte prestazioni e una governance intelligente dei metadati.

Database

Un database è il repository digitale di base per la memorizzazione, la gestione e la sicurezza dei dati. I diversi tipi di database memorizzano i dati in diversi modi. Ad esempio, i database relazionali (chiamati anche "SQL database") memorizzano i dati in tabelle definite con righe e colonne. I database NoSQL possono memorizzarli come varie strutture dati, tra cui coppie chiave-valore o grafici.

Governance e metadati

Man mano che i dati fluiscono e si accumulano, gli strumenti di governance assicurano che siano ben organizzati, sicuri e rilevabili in tutto il loro ciclo di vita.

Cataloghi dati

Un catalogo dati è un inventario centralizzato degli asset di dati di un'organizzazione. Utilizza i metadati per fornire contesto su ciascun set di dati, tra cui origine, struttura, proprietà, cronologia di utilizzo e qualità. I cataloghi aiutano gli utenti a trovare e valutare i dati, supportano le attività di governance e conformità e facilitano la collaborazione tra i team.

Lineage e observability

Gli strumenti lineage tracciano il percorso dei dati tra i sistemi, mostrando come sono stati trasformati e da dove hanno avuto origine. Questa visibilità è essenziale per gli audit, la risoluzione dei problemi e la comprensione delle dipendenze. Le piattaforme di observability possono integrare il lignaggio monitorando le prestazioni e le metriche sulla qualità dei dati.

Accesso e consumo

Infine, i dati raggiungono le persone e i sistemi che li utilizzano attraverso dashboard, query o strumenti incorporati che guidano le decisioni.

Dashboard e strumenti di analytics

Le piattaforme di business intelligence possono migliorare l'accesso ai dati tramite visualizzazioni e dashboard. Questi strumenti aiutano gli utenti non tecnici a interpretare le tendenze, monitorare gli indicatori chiave di prestazione (KPI) e prendere decisioni basate sui dati.

Motori di query e di calcolo

Gli endpoint SQL e altre interfacce di interrogazione consentono agli analisti e ai data scientist di esplorare e analizzare direttamente i dati. Strumenti come Apache Spark e IBM® watsonx.data forniscono il livello di elaborazione necessario per eseguire query su set di dati distribuiti su larga scala.

Prodotti di dati incorporati

Alcune architetture supportano la fornitura di dati direttamente in applicazioni, workflow o API. Questi prodotti di dati incorporati forniscono insight sulle operazioni quotidiane, consentendo un processo decisionale basato sui dati.

Formazione su AI e ML

I dati provenienti da tutta l'architettura alimentano anche i workflow di AI e ML. I dati di addestramento provengono spesso dai data lake, vengono trasformati attraverso le pipeline e utilizzati per sviluppare e riqualificare i modelli. Questi modelli possono poi essere distribuiti in prodotti, dashboard o processi aziendali per migliorare l'automazione e la previsione.

Come viene implementata l'architettura dei dati?

L'implementazione di un'architettura dei dati implica la traduzione delle esigenze aziendali in una roadmap per la raccolta, l'organizzazione, la sicurezza e l'accessibilità dei dati. Anche se non esiste un'implementazione uguale all'altra, la maggior parte segue un approccio che passa dalla pianificazione all'esecuzione.

Passaggio 1: allinearsi agli obiettivi aziendali

Il processo inizia stabilendo ciò di cui l'azienda ha bisogno dai suoi dati, che si tratti di abilitare il machine learning o di supportare la conformità. In questo modo, vengono definite le priorità dell'architettura, quali fonti di dati includere e quali sistemi richiedono l'integrazione.

Passaggio 2: definizione dei modelli di dati e della governance

I data architect sviluppano modelli di dati concettuali, logici e fisici per guidare la struttura e il flusso. Questi modelli aiutano a identificare entità chiave, relazioni, requisiti dei dati e controlli di accesso. Allo stesso tempo, vengono stabilite politiche di governance per definire la proprietà, i diritti di accesso e le regole del ciclo di vita dei dati.

Passaggio 3: progettare l'architettura

Con modelli e politiche in atto, i team progettano l'architettura selezionando le tecnologie per lo storage, l'integrazione, la gestione e il consumo dei metadati. Ciò include la definizione di come i dati si sposteranno tra i sistemi e di dove risiederanno tra i sistemi di storage.

Passaggio 4: creazione e integrazione

L'implementazione comporta in genere l'implementazione di pipeline di ingestione, la creazione di API, la configurazione di livelli di governance e l'abilitazione di punti di accesso come dashboard o endpoint di query. I requisiti di sicurezza e conformità sono incorporati in questa fase per proteggere i dati.

Passaggio 5: monitorare, evolvere e scalare

Una volta distribuita, un'architettura di dati deve essere continuamente monitorata e perfezionata. I volumi di dati crescono, i casi d'uso si evolvono, le normative cambiano. Le organizzazioni spesso rivisitano e ottimizzano nuovamente le loro architetture, in particolare quando adottano piattaforme cloud e modelli architettonici moderni.

Caratteristiche principali di un'architettura dati moderna

Man mano che le organizzazioni si espandono, aumenta anche la necessità di un'architettura dei dati flessibile e resiliente. Un'architettura di dati moderna dà priorità all'interoperabilità, all'accesso in tempo reale e alla capacità di gestire i dati come prodotto, non solo come asset. Permette inoltre una maggiore standardizzazione, gestione dei metadati e democratizzazione tramite API.

Le caratteristiche principali di un'architettura di dati moderna includono:

Design cloud-native, che offre scalabilità elastica e alta disponibilità.

Pipeline di dati intelligenti, che combinano integrazione in tempo reale, data streaming e analytics.

Perfetta integrazione basata su API con applicazioni moderne e legacy.

Abilitazione dei dati in tempo reale, tra cui convalida, classificazione e governance.

Servizi disaccoppiati ed estensibili, a supporto di una crescita modulare e dell'interoperabilità aperta.

Organizzazione basata sul dominio, che utilizza eventi e microservizi per riflettere le strutture aziendali.

Ottimizzazione incorporata, che bilancia prestazioni, costi e semplicità.

Modelli di architettura dati moderna

Le organizzazioni che stanno modernizzando la propria infrastruttura di dati stanno adottando nuove strategie che riflettono la complessità degli odierni ambienti ibridi e multicloud. Questo cambiamento ha dato origine a nuovi modelli di architettura, in particolare data fabric e data mesh.

Data fabric

Un data fabric si concentra sull'automazione dell'integrazione e della gestione dei dati in ambienti ibridi. Utilizza metadati attivi e machine learning per scoprire relazioni tra sistemi e orchestrare i flussi di dati. Un data fabric può fornire automaticamente prodotti dati e distribuirli su richiesta, migliorando l'efficienza operativa e riducendo i silo di dati.

Data mesh

Un data mesh decentralizza la proprietà dei dati allineando l'architettura con i domini aziendali. Incoraggia i produttori di dati più vicini alla fonte a trattare i dati come un prodotto e a progettare API pensando ai consumatori. Questo modello aiuta a eliminare i colli di bottiglia e supporta una democratizzazione dei dati scalabile in tutta l'azienda.

E, sebbene questi approcci differiscano, non si escludono a vicenda. Molte organizzazioni implementano elementi di entrambi, utilizzando l'automazione di un fabric per scalare la governance decentralizzata di una rete.

Vantaggi delle architetture dei dati

Un'architettura di dati ben costruita può offrire alle aziende vantaggi significativi, tra cui:

Ridurre la ridondanza
Migliorare la qualità dei dati
Abilitare l'integrazione
Gestione del ciclo di vita dei dati

Ridurre la ridondanza

Campi di dati sovrapposti tra diverse fonti possono portare a incongruenze, imprecisioni e opportunità mancate per l'integrazione dei dati. Una valida architettura dei dati può standardizzare il modo in cui i dati vengono memorizzati e, potenzialmente, ridurre la ridondanza, consentendo analisi olistiche e di migliore qualità.

Migliorare la qualità dei dati

Le architetture di dati ben progettate possono risolvere alcune delle sfide dei data lake mal gestiti, noti anche come "data swamp." Un data swamp non ha standard di dati appropriati, tra cui qualità dei dati e pratiche di governance, per fornire informazioni significative. Le architetture di dati possono aiutare a far rispettare la governance e gli standard di sicurezza dei dati, consentendo un'adeguata supervisione delle pipeline.

Supportare l'integrazione

I dati sono spesso isolati a causa di limitazioni tecniche nel data storage e di barriere organizzative all'interno delle aziende. Le architetture di dati odierne dovrebbero mirare a facilitare l'integrazione dei dati tra i domini, in modo che le diverse aree geografiche e funzioni aziendali abbiano accesso ai dati delle altre. Ciò può portare a una comprensione migliore e più coerente delle metriche comuni e favorisce una visione più olistica del business per informare un processo decisionale basato sui dati.

Gestione del ciclo di vita dei dati

Una moderna architettura dei dati può risolvere il modo in cui i dati vengono gestiti nel tempo. In genere, i dati diventano meno utili man mano che invecchiano e vengono consultati meno spesso. Nel corso del tempo, i dati possono essere trasferiti su tipi di storage più economici e lenti, in modo che rimangano disponibili per i report e le verifiche, senza i costi associati allo storage ad alte prestazioni.

Le quattro fasi per migliorare le previsioni aziendali con l'analisi dei dati

Usa il potere dell'analisi e della business intelligence per pianificare, prevedere e modellare i risultati futuri a beneficio della tua azienda e dei tuoi clienti.

Cos'è l'architettura dei dati?

Autori

Cos'è l'architettura dei dati?

Le ultime notizie nel campo della tecnologia, supportate dalle analisi degli esperti

Grazie per aver effettuato l'iscrizione!

Perché l'architettura dei dati è importante?

Decoding AI: Weekly News Roundup

Termini chiave nell'architettura dei dati

Tipi di architettura dei dati

Quali sono i tre tipi di modelli di dati?

Modelli di dati concettuali

Modelli di dati logici

Modelli di dati fisici

Framework di architettura dei dati più popolari

The Open Group Architecture Framework (TOGAF)

DAMA-DMBOK 2

Zachman Framework for Enterprise Architecture

Componenti dell'architettura dei dati

Flusso e integrazione

Pipeline di dati

API e connettori

Sistemi di storage

Data warehouse

Data mart

Data lake

Data lakehouse

Database

Governance e metadati

Cataloghi dati

Lineage e observability

Accesso e consumo

Dashboard e strumenti di analytics

Motori di query e di calcolo

Prodotti di dati incorporati

Formazione su AI e ML

Come viene implementata l'architettura dei dati?

Caratteristiche principali di un'architettura dati moderna

Modelli di architettura dati moderna

Data fabric

Data mesh

Vantaggi delle architetture dei dati

Ridurre la ridondanza

Migliorare la qualità dei dati

Supportare l'integrazione

Gestione del ciclo di vita dei dati

Risorse

Note a piè di pagina