Un catalogo dati è un inventario dettagliato di tutte le risorse di dati in un'organizzazione, progettato per aiutare i professionisti dei dati a trovare rapidamente i dati più appropriati per qualsiasi scopo analitico o di business.
IBM Watson Knowledge Catalog
IBM Cloud Pak for Data
Un catalogo dati usa dei metadati- dati che descrivono o riassumono i dati - per creare un inventario informativo e consultabile di tutte le risorse di dati in un'organizzazione. Queste risorse possono includere queste voci senza limitarsi ad esse:
Questo inventario permette ai data citizen- data analyst, data scientist, data steward e altri professionisti di dati che hanno accesso ai dati aziendali - di cercare tra tutte le risorse di dati disponibili di un'organizzazione e sfruttare i dati più adatti ai loro scopi analitici o commerciali.
Un catalogo dati include tipicamente delle funzionalità per raccogliere e arricchire continuamente - o conservare -i metadati associati ad ogni risorsa di dati al fine di rendere ogni risorsa più facile da identificare, valutare e utilizzare correttamente. Il catalogo fornisce anche degli strumenti che consentono agli utenti di fare quanto segue:
Basandosi sulla breve definizione di cui sopra, i metadati sono dati che descrivono una risorsa di dati o forniscono informazioni sulla risorsa che la rendono più facile da localizzare, valutare e capire.
L'esempio classico o più comunemente usato di metadati è il catalogo a schede o il catalogo online di una biblioteca. In questi esempi, ogni scheda o elenco contiene delle informazioni su un libro o una pubblicazione (ad esempio, titolo, autore, soggetto, data di pubblicazione, edizione, posizione all'interno della biblioteca e riassunto o sinossi) che rende la pubblicazione più facile da trovare e da valutare per un lettore. Ad esempio: È attuale o obsoleto? Contiene le informazioni che cerco? L'autore è qualcuno di cui mi fido o il cui lavoro mi piace?
Esistono molte classi di metadati, ma un catalogo di dati si occupa principalmente di questi tre: metadati tecnici, metadati di processo e metadati di business.
I metadati tecnici (chiamati anche metadati strutturali) descrivono come sono organizzati i dati e come vengono mostrati agli utenti, descrivendo la struttura degli oggetti relativi ai dati quali tabelle, colonne, righe, indici e collegamenti. I metadati tecnici spiegano ai professionisti dei dati come dovranno lavorare con i dati - per esempio, se possono lavorare con i dati così come sono o se devono trasformarli per l'analisi o l'integrazione.
I metadati di processo (chiamati anche metadati di amministrazione) descrivono le circostanze in cui è stata creata la risorsa di dati e quando, come e chi vi ha avuto accesso oppure l'ha usata, aggiornata o modificata. Dovrebbe anche indicare chi ha il permesso di accedere e usare i dati.
I metadati di processo forniscono informazioni sulla storia e le fontidella risorsa, il che può aiutare un analista a decidere se la risorsa è abbastanza recente per il compito da svolgere, se proviene da una fonte affidabile, se è stata aggiornata da persone affidabili e così via. I metadati di processo possono anche essere usati per risolvere problemi con le query. E infine, sempre più spesso, i metadati di processo vengono estratti per ottenere informazioni sugli utenti del software o sui clienti, come, ad esempio, che software stanno usando e che livello di servizio stanno sperimentando.
I metadati di business (a volte indicati come metadati esterni) descrivono gli aspetti di business della risorsa dati - il valore di business che ha per l'organizzazione, la sua idoneità per uno scopo particolare o per vari scopi, informazioni sulla conformità normativa e altro. I metadati aziendali sono quelli in cui i professionisti dei dati e gli utenti line-of-business parlano la stessa lingua sulle risorse di dati.
Come minimo, un catalogo dati dovrebbe rendere facile trovare (o raccogliere) e organizzare tutti i metadati esistenti associati a qualsiasi risorsa dati della tua organizzazione. Dovrebbe anche fornire degli strumenti che permettano ai data expert di elaborare e arricchire quei metadati con tag, associazioni, valutazioni, annotazioni e qualsiasi altra informazione e contenuto che permetta agli utenti di trovare i dati più velocemente e di usarli con fiducia.
Un catalogo dati richiede un investimento significativo in termini di software, tempo e sforzi da parte dei data citizen, investimento che la maggior parte delle organizzazioni vuole fare solo una volta. Quando si valutano delle soluzioni di catalogazione dei dati, occorre considerare le seguenti capacità (oltre alle capacità di gestione dei metadati menzionate sopra):
Quando i data professional possono accedere da soli ai dati di cui hanno bisogno - senza l'intervento dell'IT, senza doversi affidare alla ricerca di esperti o colleghi per un consiglio, senza limitarsi alle sole risorse che conoscono e senza doversi preoccupare di governance e conformità - ne beneficia l'intera organizzazione.
Un catalogo dati può anche aiutare la tua organizzazione a soddisfare sfide e obiettivi tecnici e di business specifici. Fornendo agli analisti una visione unica e completa dei propri clienti, un catalogo dati può aiutare a scoprire nuove opportunità di cross-selling, up-selling, promozioni mirate e altro. E promuovendo, semplificando o automatizzando la governance, un catalogo di dati può aiutarti a implementare una governance dei data lake che impedisca ai dati di accumularsi e fornisca la base di policy necessaria per progettare, distribuire e monitorare i modelli di IA con un focus su equità, responsabilità, sicurezza e trasparenza.
IBM Watson Knowledge Catalog è un catalogo dati aperto e intelligente per dati aziendali e governance di modelli IA, qualità e collaborazione. Consente agli utenti di business di individuare, gestire, categorizzare e condividere gli asset di dati, i dataset, i modelli analitici e le loro relazioni con altri membri dell'organizzazione.
Alimentato da IBM Cloud Pak for Data, Watson Knowledge Catalog rappresenta una singola fonte attendibile per data engineer, data steward, data scientist e analisti aziendali per ottenere un accesso self-service ai dati di cui possono fidarsi. Offre anche la governance dei dati, la qualità dei dati e la gestione delle politiche attive per aiutare la tua organizzazione a proteggere e gestire i dati sensibili, rintracciare l'origine dei dati, gestire i data lake e prepararti per il tuo viaggio verso l'IA.
Scopri di più sulle soluzioni IBM per la catalogazione dei dati e inizia oggi stesso creando il tuo account IBM Cloud.
Attiva dati di business per l'AI e l'analytics, con catalogazione intelligente, supportata da gestione di politiche e metadati attivi
Automatizza il modo in cui i dati vengono rilevati, catalogati e arricchiti in base alla loro importanza per l'utente in un paesaggio ibrido di dati e cloud. Fornisci l'accesso a dati pronti per il business a un maggior numero di persone.
Scopri le capacità di automazione di un catalogo dati e come le organizzazioni stanno creando nuovi modelli di business e si stanno preparando per l'IA.
Scopri perché Forrester ha eletto IBM Watson Knowledge Catalog come leader nella classifica The Forrester Wave™: Machine Learning Data Catalogs.
Le violazioni dei dati hanno conseguenze di portata considerevole. Pianifica in anticipo con un catalogo dati.