Cos'è un catalogo dati

Catalogo dati

Un catalogo dati è un inventario dettagliato di tutte le risorse di dati in un'organizzazione, progettato per aiutare i professionisti dei dati a trovare rapidamente i dati più appropriati per qualsiasi scopo analitico o di business.

Prodotti in evidenza

IBM Watson Knowledge Catalog

IBM Cloud Pak for Data

Cos'è un catalogo dati?

Un catalogo dati usa dei metadati- dati che descrivono o riassumono i dati - per creare un inventario informativo e consultabile di tutte le risorse di dati in un'organizzazione. Queste risorse possono includere queste voci senza limitarsi ad esse:

Dati strutturati in forma tabellare
Dati non strutturati, come documenti, pagine web, e-mail, contenuti di social media, dati su rete mobile, immagini, audio e video
Risultati di report e query
Visualizzazioni di dati e dashboard
Modelli di apprendimento automatico
Connessioni tra database

Questo inventario permette ai data citizen- data analyst, data scientist, data steward e altri professionisti di dati che hanno accesso ai dati aziendali - di cercare tra tutte le risorse di dati disponibili di un'organizzazione e sfruttare i dati più adatti ai loro scopi analitici o commerciali.

Un catalogo dati include tipicamente delle funzionalità per raccogliere e arricchire continuamente - o conservare -i metadati associati ad ogni risorsa di dati al fine di rendere ogni risorsa più facile da identificare, valutare e utilizzare correttamente. Il catalogo fornisce anche degli strumenti che consentono agli utenti di fare quanto segue:

Cercare nel catalogo
Automatizzare il rilevamento di dati potenzialmente rilevanti che non sono stati cercati in modo specifico
Gestire l'uso dei dati in conformità con normative industriali o governative

Cosa sono i metadati?

Basandosi sulla breve definizione di cui sopra, i metadati sono dati che descrivono una risorsa di dati o forniscono informazioni sulla risorsa che la rendono più facile da localizzare, valutare e capire.

L'esempio classico o più comunemente usato di metadati è il catalogo a schede o il catalogo online di una biblioteca. In questi esempi, ogni scheda o elenco contiene delle informazioni su un libro o una pubblicazione (ad esempio, titolo, autore, soggetto, data di pubblicazione, edizione, posizione all'interno della biblioteca e riassunto o sinossi) che rende la pubblicazione più facile da trovare e da valutare per un lettore. Ad esempio: È attuale o obsoleto? Contiene le informazioni che cerco? L'autore è qualcuno di cui mi fido o il cui lavoro mi piace?

Esistono molte classi di metadati, ma un catalogo di dati si occupa principalmente di questi tre: metadati tecnici, metadati di processo e metadati di business.

Metadati tecnici

I metadati tecnici (chiamati anche metadati strutturali) descrivono come sono organizzati i dati e come vengono mostrati agli utenti, descrivendo la struttura degli oggetti relativi ai dati quali tabelle, colonne, righe, indici e collegamenti. I metadati tecnici spiegano ai professionisti dei dati come dovranno lavorare con i dati - per esempio, se possono lavorare con i dati così come sono o se devono trasformarli per l'analisi o l'integrazione.

Metadati di processo

I metadati di processo (chiamati anche metadati di amministrazione) descrivono le circostanze in cui è stata creata la risorsa di dati e quando, come e chi vi ha avuto accesso oppure l'ha usata, aggiornata o modificata. Dovrebbe anche indicare chi ha il permesso di accedere e usare i dati.

I metadati di processo forniscono informazioni sulla storia e le fontidella risorsa, il che può aiutare un analista a decidere se la risorsa è abbastanza recente per il compito da svolgere, se proviene da una fonte affidabile, se è stata aggiornata da persone affidabili e così via. I metadati di processo possono anche essere usati per risolvere problemi con le query. E infine, sempre più spesso, i metadati di processo vengono estratti per ottenere informazioni sugli utenti del software o sui clienti, come, ad esempio, che software stanno usando e che livello di servizio stanno sperimentando.

Metadati di business

I metadati di business (a volte indicati come metadati esterni) descrivono gli aspetti di business della risorsa dati - il valore di business che ha per l'organizzazione, la sua idoneità per uno scopo particolare o per vari scopi, informazioni sulla conformità normativa e altro. I metadati aziendali sono quelli in cui i professionisti dei dati e gli utenti line-of-business parlano la stessa lingua sulle risorse di dati.

Come minimo, un catalogo dati dovrebbe rendere facile trovare (o raccogliere) e organizzare tutti i metadati esistenti associati a qualsiasi risorsa dati della tua organizzazione. Dovrebbe anche fornire degli strumenti che permettano ai data expert di elaborare e arricchire quei metadati con tag, associazioni, valutazioni, annotazioni e qualsiasi altra informazione e contenuto che permetta agli utenti di trovare i dati più velocemente e di usarli con fiducia.

Strumenti di un catalogo dati: cosa considerare

Un catalogo dati richiede un investimento significativo in termini di software, tempo e sforzi da parte dei data citizen, investimento che la maggior parte delle organizzazioni vuole fare solo una volta. Quando si valutano delle soluzioni di catalogazione dei dati, occorre considerare le seguenti capacità (oltre alle capacità di gestione dei metadati menzionate sopra):

Un'eccellente esperienza di "shopping" di dati che includa il data discovery: l'obiettivo di un catalogo dati è di permettere a tutti i tuoi data citizen di servirsi da soli dei dati di cui hanno bisogno. Dovresti aspettarti un'esperienza di ricerca simile a quella di Netflix, Amazon o altre popolari esperienze commerciali online, dove chiunque può trovare rapidamente dei risultati basati sui metadati che cerca ed inoltre ricevere raccomandazioni pertinenti e/o avvisi basati su valutazioni e recensioni di altri utenti.
Conformità semplificata: Mantenere la conformità dei dati è quasi umanamente impossibile; attualmente 107 paesi hanno emanato regolamenti per la sola protezione della privacy dei dati personali. Un catalogo dati dovrebbe semplificare la conformità analizzando le risorse di dati, indicando quanto siano rilevanti rispetto a normative specifiche e classificandole ed etichettandole automaticamente per riferimenti futuri. Le capacità di apprendimento automatico rappresentano in questo caso un enorme risparmio di lavoro.
Connessioni a un'ampia varietà di fonti di dati: per poter essere utilizzato come un inventario di risorse dati a livello aziendale, un catalogo dati ha bisogno di connettersi a tutte le risorse della tua azienda. Cerca connessioni con tutti i tipi di risorse che hai ora e un impegno a costruire connessioni in futuro. Cerca anche un catalogo che puoi distribuire ovunque i tuoi dati risiedano, on premises oppure in un ambiente pubblico, privato, ibridoo multicloud ibrido .
Assistenza per la qualità e la governance che assicura dei dati affidabili: un catalogo dati dovrebbe integrarsi perfettamente con qualsiasi programma e strumento di qualità e governance in atto ed in particolare con le regole di qualità dei dati, i glossari aziendali e i flussi di lavoro.
Supporto per un'"IA spiegabile": sempre più spesso la governance dei dati è responsabile della gestione dei modelli di intelligenza artificiale (IA) - non solo della comprensione dei dati utilizzati, ma di come i diversi input influenzano le decisioni e i risultati. Assicurati che qualsiasi catalogo di dati che sceglierai ti aiuti a etichettare e preparare le risorse di dati per un uso ottimale e trasparente nei tuoi modelli AI.

Benefit del catalogo dati

Quando i data professional possono accedere da soli ai dati di cui hanno bisogno - senza l'intervento dell'IT, senza doversi affidare alla ricerca di esperti o colleghi per un consiglio, senza limitarsi alle sole risorse che conoscono e senza doversi preoccupare di governance e conformità - ne beneficia l'intera organizzazione.

Migliore comprensione dei dati attraverso un contesto migliore: gli analisti possono trovare descrizioni dettagliate dei dati, compresi i commenti di altri data citizen, e capire meglio in che modo i dati sono rilevanti per il business.
Maggiore efficienza operativa: un catalogo dati crea una divisione ottimale del lavoro tra utenti e IT - i data citizen possono accedere e analizzare i dati più velocemente e il personale IT può dedicare più tempo a concentrarsi su compiti ad alta priorità.
Rischio ridotto: gli analisti hanno una maggiore fiducia nel fatto che stanno lavorando con dati che sono autorizzati a utilizzare per un determinato scopo, in conformità con le normative industriali e quelle sulla privacy dei dati. Essi possono anche esaminare rapidamente le annotazioni e i metadati per individuare campi nulli o valori errati che potrebbero avere un impatto sull'analisi.
Maggiore successo nelle iniziative di gestione dei dati: più è difficile per i data analyst trovare, accedere, preparare e fidarsi dei dati, meno è probabile che le iniziative di business intelligence (BI) e i progetti di big data abbiano successo.
Dati migliori e analisi migliori, più velocemente - un vantaggio competitivo: i data professional possono rispondere rapidamente a problemi, sfide e opportunità con analisi e risposte basate su tutti i dati più appropriati e pertinenti all'interno dell'organizzazione.

Un catalogo dati può anche aiutare la tua organizzazione a soddisfare sfide e obiettivi tecnici e di business specifici. Fornendo agli analisti una visione unica e completa dei propri clienti, un catalogo dati può aiutare a scoprire nuove opportunità di cross-selling, up-selling, promozioni mirate e altro. E promuovendo, semplificando o automatizzando la governance, un catalogo di dati può aiutarti a implementare una governance dei data lake che impedisca ai dati di accumularsi e fornisca la base di policy necessaria per progettare, distribuire e monitorare i modelli di IA con un focus su equità, responsabilità, sicurezza e trasparenza.

Catalogo dati e IBM Cloud

IBM Watson Knowledge Catalog è un catalogo dati aperto e intelligente per dati aziendali e governance di modelli IA, qualità e collaborazione. Consente agli utenti di business di individuare, gestire, categorizzare e condividere gli asset di dati, i dataset, i modelli analitici e le loro relazioni con altri membri dell'organizzazione.

Alimentato da IBM Cloud Pak for Data, Watson Knowledge Catalog rappresenta una singola fonte attendibile per data engineer, data steward, data scientist e analisti aziendali per ottenere un accesso self-service ai dati di cui possono fidarsi. Offre anche la governance dei dati, la qualità dei dati e la gestione delle politiche attive per aiutare la tua organizzazione a proteggere e gestire i dati sensibili, rintracciare l'origine dei dati, gestire i data lake e prepararti per il tuo viaggio verso l'IA.

Scopri di più sulle soluzioni IBM per la catalogazione dei dati e inizia oggi stesso creando il tuo account IBM Cloud.

Soluzioni correlate

Catalogo Watson Knowledge

Attiva dati di business per l'AI e l'analytics, con catalogazione intelligente, supportata da gestione di politiche e metadati attivi

Scopri Watson Knowledge Catalog

IBM Cloud Pak for Data

Automatizza il modo in cui i dati vengono rilevati, catalogati e arricchiti in base alla loro importanza per l'utente in un paesaggio ibrido di dati e cloud. Fornisci l'accesso a dati pronti per il business a un maggior numero di persone.

Esplora IBM Cloud Pak for Data

Caratteristiche di un catalogo dati

Una guida completa per il moderno catalogo dati

Scopri le capacità di automazione di un catalogo dati e come le organizzazioni stanno creando nuovi modelli di business e si stanno preparando per l'IA.

The Forrester Wave™, quarto trimestre 2020

Scopri perché Forrester ha eletto IBM Watson Knowledge Catalog come leader nella classifica The Forrester Wave™: Machine Learning Data Catalogs.

Affronta la privacy dei dati con un catalogo dati intelligente

Le violazioni dei dati hanno conseguenze di portata considerevole. Pianifica in anticipo con un catalogo dati.