Data fabric per dati e analytics

Sblocca il valore di tutti i dati accessibili per ottenere insight preziosi. Scopri, gestisci e proteggi i tuoi dati.

Illustrazione isometrica di cubi e rettangoli blu con punti
Informazioni generali

Il data fabric è un modello architetturale progettato per amplificare l'uso dei dati in tutta l'organizzazione, indipendentemente dal tipo di formato, dalla fonte, dalla posizione o dall’uso dei dati. I vari aspetti del ciclo di vita dei dati gestiti dal data fabric, dall’accesso al consumo, includono scoperta, governance, qualità, classificazione, associazione al contesto aziendale, lineage, self-service e utilizzo operativo, per fornire i dati giusti al posto e nel momento giusto. Fare clic per vedere ulteriori indicazioni.

La Reference Architecture for Data Fabric è un modello che può essere utilizzato dalle aziende come guida per implementare vari componenti di data fabric nei rispettivi ambienti. La Reference Architecture for Data Fabric comprende cinque moduli chiave: Importazione dei metadati, Arricchimento dei metadati, Catalogazione dei metadati, Data curation e Trasformazione e consumo dei dati. Questi moduli sono fondamentali per realizzare i benefici del data fabric citati in precedenza.

L'architettura di riferimento copre i componenti chiave, i passaggi coinvolti e le decisioni architetturali per ciascun modulo, facilitando il raggiungimento degli obiettivi dei cinque moduli. Copre inoltre le varie opzioni di tecnologia disponibili nel panorama tecnologico di IBM per implementare i componenti e i passaggi. Per il modulo di consumo dei dati, il modello generico di consumo presuppone che i dettagli di ogni caso d'uso di consumo vengano trattati dall'architettura di riferimento corrispondente a quel caso d'uso.

Di interesse è anche la Data and AI Reference Architecture.

 

Diagramma che rappresenta un'architettura di data fabric
Panoramica d IBM Z

La IBM Z systems Data Fabric Reference Architecture di IBM Z è una specializzazione del più ampio modello architetturale IBM Data and Analytics Data Fabric, progettata per amplificare l'utilizzo dei dati all'interno di un'organizzazione, indipendentemente dal tipo di formato, dalle fonti, dalla posizione e dall'utilizzo. I vari aspetti del ciclo di vita dei dati gestiti dal data fabric, dall’accesso al consumo, includono scoperta, governance, qualità, classificazione, associazione al contesto aziendale, lineage, self-service e utilizzo operativo, per fornire i dati giusti al posto e nel momento giusto. Consulta ulteriori linee guida:

La specializzazione del più ampio modello architetturale Data Fabric relativamente ai  sistemi IBM Z approfondisce due aspetti:

• Gestione della governance e dell’accesso a diverse fonti di dati sui sistemi IBM Z (ad es. VSAM, IMS, DB2, …)
• Linux® su IBM Z o LinuxONE (MongoDB,...) e
• Implementazione dei componenti dell’architettura Enterprise-wide Data Fabric su sistemi IBM Z e Linux su IBM Z/LinuxONE. La soluzione comprende componenti in esecuzione su zSystems / LinuxONE e/o su sistemi esterni.

La Reference Architecture for Data Fabric è un modello che può essere utilizzato dalle aziende come guida per implementare vari componenti di data fabric nei rispettivi ambienti. La Reference Architecture for Data Fabric comprende cinque moduli chiave: Importazione dei metadati, Arricchimento dei metadati, Catalogazione dei metadati, Data curation e Trasformazione e consumo dei dati. Questi moduli sono fondamentali per realizzare i benefici del data fabric citati in precedenza.

L'architettura di riferimento copre i componenti chiave, i passaggi coinvolti e le decisioni architetturali per ciascun modulo, facilitando il raggiungimento degli obiettivi dei cinque moduli. Copre inoltre le varie opzioni di tecnologia disponibili nel panorama tecnologico di IBM per implementare i componenti e i passaggi. Per il modulo di consumo dei dati, il modello generico di consumo presuppone che i dettagli di ogni caso d'uso di consumo vengano trattati dall'architettura di riferimento corrispondente a quel caso d'uso.

La modernizzazione delle applicazioni per l'architettura IBM Z dettaglia ulteriormente i modelli architetturali per un accesso moderno e più facile ai dati system of record (SOR) su IBM Z e LinuxONE, oltre a vari pattern basati sull'integrazione dei dati. Questo è fondamentale per ottenere insight a supporto del valore aziendale basato sui dati, poiché le applicazioni condividono i dati del system of record (SOR) tramite accesso diretto, replica, caching o concetti di virtualizzazione dei dati che combinano gli asset di dati nell’intera azienda.

Di interesse è anche la Data, Analytics and AI Reference Architecture generale:

 

Diagramma che rappresenta un'architettura di riferimento data fabric
Decisioni sull'architettura

Nome

Dichiarazione del problema o della questione

Ipotesi

Motivazione

Localizzazione dei dati, gravità e sovranità

AD01

Devono essere adottati adeguati metodi di controllo e accesso ai dati per supportare la disponibilità e i requisiti normativi.

Il movimento e la replica dei dati dovrebbero essere minimizzati per migliorare la semplicità, la governance, i costi e le preoccupazioni normative, fornendo allo stesso tempo una piattaforma efficace, resiliente e flessibile per l'analisi (tra cui analytics approfondita, decision optimization e workload AI).

Il metodo di implementazione selezionato avrà un impatto diretto sui costi, sulla fattibilità di supportare i requisiti di latenza, sull'aderenza normativa e sulla soddisfazione complessiva del cliente.

Devono essere adottati adeguati metodi di controllo e accesso ai dati per supportare la disponibilità e i requisiti normativi.

Il movimento e la replica dei dati dovrebbero essere minimizzati per migliorare la semplicità, la governance, i costi e le preoccupazioni normative, fornendo allo stesso tempo una piattaforma efficace, resiliente e flessibile per l'analisi (tra cui analytics approfonditi, decision optimization e workload AI).

Il metodo di implementazione selezionato avrà un impatto diretto sui costi, sulla fattibilità di supportare i requisiti di latenza, sull'aderenza normativa e sulla soddisfazione complessiva del cliente.

In base alla posizione in cui si trovano i dati, determinare se i dati dovrebbero essere spostati o accessi virtualmente in base al workload, alla latenza e a considerazioni normative, just in time.

Organizzazione e relazioni dei cataloghi delle conoscenze

AD02

Le organizzazioni potrebbero dover supportare l’esistenza di cataloghi multipli, a seconda di diversi tipi di requisiti, ad esempio la presenza di ecosistemi ibridi e multi-cloud, in cui i cataloghi devono essere virtualmente connessi. Ulteriori strutture di catalogo possono essere basate su progetto, LOB e considerazioni aziendali. Potrebbe esserci anche la necessità di istanze sperimentali/sandbox di sviluppo all'interno di un'organizzazione.

L’istanza del catalogo dovrebbe essere implementata in modo da supportare le esigenze organizzative, senza risultare eccessivamente complessa da gestire o navigare.

Le scelte del catalogo influenzeranno la capacità dell'organizzazione di utilizzare i dati attraverso ecosistemi aziendali e, potenzialmente, ecosistemi di partner commerciali.

Asset e relazioni di dati, compresa l'acquisizione e l'arricchimento dei metadati

AD03

Gli asset di dati vengono creati e consumati a un ritmo sempre crescente. Le organizzazioni non possono più fare affidamento a processi manuali e poco automatizzati per supportare la cattura e la catalogazione degli asset di dati e dei relativi metadati.

L'automazione è fondamentale per raccogliere e arricchire i metadati creati per i vari asset di dati in modo tempestivo.

Senza automazione, l’organizzazione non sarà in grado di mantenere un catalogo aggiornato e fruibile dei propri asset di dati, il che a sua volta ne limiterà la capacità di utilizzare i dati per avanzare nel percorso verso un'organizzazione basata sui dati.

Garantire il metodo appropriato di trasformazione e gestione dei dati in base al workload in corso, tenendo conto dei requisiti non funzionali

AD04

Le organizzazioni richiederanno vari tipi di implementazioni (ad esempio in tempo reale, quasi in tempo reale (streaming), batch (micro/mini/large) per workload piccoli, medi, grandi ed estremamente grandi che necessitano di processi di trasformazione e gestione dei dati.

Indipendentemente dal percorso di implementazione, le trasformazioni e la gestione dei dati devono rimanere coerenti, affinché le funzioni di data science, analytics e reporting siano accurate.

Scegliere il metodo appropriato di trasformazione e gestione dei dati garantirà che l'organizzazione possa raggiungere i propri obiettivi in vari casi d'uso, tra cui AI affidabile, Customer 360 e sviluppo di insight.