Utilizzando gli strumenti per metadati e gestione dei dati, i cataloghi organizzano gli asset di dati in modo che gli utenti, come data analyst, data scientist e data steward, possano trovare rapidamente i dati giusti per i loro casi d'uso analitici o aziendali. Molti cataloghi di dati supportano la ricerca in linguaggio naturale, consentendo agli utenti di scoprire i dati senza scrivere codice o query SQL .
I cataloghi di dati includono in genere un'ampia gamma di asset, tra cui:
Un robusto catalogo di dati include anche funzionalità di gestione dei metadati per la raccolta e la cura dei metadati di ogni asset di dati. Queste caratteristiche possono semplificare l'identificazione, la valutazione e l'utilizzo dei dati in modo efficace. Il catalogo dovrebbe fornire anche strumenti di governance dei dati per contribuire a salvaguardare la qualità dei dati, l'integrità dei dati e la sicurezza dei dati.
Newsletter di settore
Resta al passo con le tendenze più importanti e interessanti del settore relative ad AI, automazione, dati e altro con la newsletter Think. Leggi l'Informativa sulla privacy IBM.
L'abbonamento sarà fornito in lingua inglese. Troverai un link per annullare l'iscrizione in tutte le newsletter. Puoi gestire i tuoi abbonamenti o annullarli qui. Per ulteriori informazioni, consulta l'Informativa sulla privacy IBM.
I metadati sono "dati sui dati". Si tratta di informazioni sui dati separate dal contenuto dei dati stessi, come l'autore, la data di creazione o la dimensione del file. I metadati semplificano la ricerca, l'organizzazione e l'utilizzo dei dati.
Un classico esempio di metadati è il catalogo a schede o il catalogo online di una biblioteca. Qui ogni scheda o elenco contiene informazioni su un libro: titolo, autore, soggetto, data di pubblicazione, edizione, posizione all'interno della biblioteca o sinossi.
Queste informazioni aiutano i lettori a trovare e valutare il libro: è vecchio o recente? Contiene le informazioni che sto cercando? L'autore è una persona di cui mi fido o di cui apprezzo il lavoro? Allo stesso modo, i metadati facilitano agli utenti dei dati la ricerca e la valutazione dei dati della propria organizzazione.
Diversi tipi di metadati svolgono funzioni diverse. I cataloghi di dati gestiscono in genere diverse classi di metadati, tra cui:
I metadati tecnici descrivono i dettagli tecnici dei dati, ad esempio il tipo di file, le informazioni di codifica, gli schemi e lo storage. In questo modo gli utenti vengono informati su come utilizzare i dati, ad esempio se è necessaria una trasformazione per l'analisi.
I metadati operativi descrivono le circostanze della creazione e dell'utilizzo dell'asset di dati. Ad esempio, includono informazioni su quando, come e da chi è stato effettuato l'accesso, l'utilizzo, l'aggiornamento o la modifica.
I metadati amministrativi definiscono l'utilizzo dei dati e le politiche di conservazione. Questo tipo di metadati viene utilizzato nella governance dei dati e può aiutare le organizzazioni a rispettare le politiche legali, normative e interne.
I metadati aziendali descrivono il contesto aziendale di un asset di dati e la sua rilevanza per l'organizzazione. Questi metadati sono facili da comprendere sia per i professionisti dei dati che per gli utenti aziendali.
In genere, un catalogo di dati dispone di strumenti di gestione dei metadati per rendere accurati e arricchire i metadati con tag, associazioni, valutazioni e annotazioni.
Le organizzazioni moderne ospitano ambienti di dati sempre più complessi. Gli asset possono provenire da vari ambienti cloud e sistemi on-premise e da team, aree geografiche e piattaforme in silos. Un catalogo di dati consente a qualsiasi utente di trovare, valutare e utilizzare facilmente tutti questi dati con poca competenza tecnica o sforzo.
Consideriamo questa analogia: i sistemi di digital library risparmiano ai lettori il tempo e la fatica di vagare tra gli scaffali alla ricerca di un libro specifico. Un catalogo di dati ha uno scopo simile, ovvero aiuta gli utenti a trovare rapidamente i dati di cui necessitano anziché farli navigare tra vasti set di dati non organizzati. Un migliore accesso ai dati migliora significativamente l'efficienza delle iniziative di generazione di insight in tutta l'organizzazione, proprio come un catalogo di digital library porta i lettori alla prima pagina più velocemente.
I cataloghi di dati svolgono anche un ruolo cruciale a livello di governance dei dati, mitigazione del rischio e conformità normativa, in particolare nell'evitare le violazioni. Le funzionalità in questo ambito spaziano dalla classificazione automatizzata dei dati sensibili alle notifiche in caso di rilevamento di anomalie nei dati.
Attraverso i cataloghi di dati, i professionisti dei dati possono accedere ai dati in modo indipendente, senza affidarsi a team IT, ingegneri dei dati o rischiare problemi di conformità e governance. Questi fattori creano un ambiente di dati agile e autosufficiente a beneficio dell'intera organizzazione.
I cataloghi dei dati e i data dictionary servono a scopi diversi, ma collaborano per rendere i dati più utilizzabili.
Un catalogo di dati offre un'ampia panoramica di tutti gli asset di dati all'interno di un'organizzazione. Fornisce il contesto aziendale per aiutare gli utenti a scoprire e valutare i set di dati.
Al contrario, un dizionario di dati definisce la struttura e il contenuto dei singoli set di dati. Include dettagli quali nomi di campi, tipi di dati, valori consentiti, intervalli e formati. Garantisce inoltre che i campi dei dati siano standardizzati in diversi progetti, file e programmi di dati.
I cataloghi di dati offrono una serie di benefici che supportano data discovery, governance e utilizzo dei dati in un'organizzazione, tra cui:
I cataloghi di dati consentono l'analytics self-service, rendendo più facile per gli analisti di dati trovare, accedere, preparare e fidarsi dei dati, accelerando il processo complessivo di analisi dei dati.
Creando una divisione ottimale dei compiti tra utenti e reparto IT, i cataloghi di dati riducono i rallentamenti. I data citizen possono accedere e analizzare i dati in modo indipendente, consentendo ai team IT di concentrarsi su attività strategiche e prioritarie.
Avendo a portata di mano dati centralizzati, contestuali e affidabili, i professionisti dei dati possono reagire più rapidamente e prendere decisioni più informate, così da soddisfare meglio le metriche di business intelligence (BI) e big data.
Promuovendo, semplificando e automatizzando la governance, i cataloghi di dati offrono agli analisti la certezza di lavorare con i dati che sono autorizzati a utilizzare, in conformità con le normative del settore e sulla privacy dei dati.
I cataloghi di dati possono unificare una grande quantità di dati in silos provenienti da tutte le fonti di dati di un'organizzazione (come data warehouse, data lake e data lakehouse). L'abbattimento di questi silos promuove una più ampia accessibilità ai dati, così come la collaborazione tra stakeholder.
I moderni cataloghi di dati offrono un'ampia gamma di strumenti e funzionalità che aiutano i consumatori di dati a trovare, comprendere e utilizzare in modo responsabile i dati aziendali. Alcune delle funzionalità principali sono:
Un catalogo di dati con AI utilizza tecnologie avanzate come automazione, intelligenza artificiale e machine learning per migliorare e ottimizzare le funzionalità tradizionali del catalogo di dati. Le funzionalità principali di un catalogo di dati AI possono includere:
Supportati dalla data intelligence, i cataloghi di dati basati su AI possono automatizzare l'arricchimento dei metadati tecnici in tempo reale per migliaia di asset.
Utilizzando la classificazione avanzata dei dati, i cataloghi di dati AI possono identificare e contrassegnare i dati sensibili e quindi applicare le regole sulla privacy dei dati e sulla sicurezza, come i controlli degli accessi.
Con la ricerca intelligente, i cataloghi di dati AI possono utilizzare l'elaborazione del linguaggio naturale per espandere e migliorare le richieste degli utenti al fine di ottenere risultati e insight più pertinenti.
Attiva i dati per l'AI e l'analytics con una catalogazione intelligente e una gestione delle policy. IBM Knowledge Catalog è un software di governance dei dati che fornisce un catalogo di dati per automatizzare la gestione della qualità dei dati, la protezione dei dati e il data discovery.
Trasforma rapidamente i dati non elaborati in insight fruibili, unifica governance, qualità, lineage e condivisione dei dati e offri agli utenti dati affidabili e contestualizzati.
Sblocca il valore dei dati aziendali con IBM Consulting e crea un'organizzazione basata su insight in grado di generare vantaggi aziendali.