Cos'è la gestione dei metadati?

Immagine di libri colorati

Autori

Tom Krantz

Staff Writer

IBM Think

Alexandra Jonker

Staff Editor

IBM Think

Cos'è la gestione dei metadati?

La gestione dei metadati si riferisce all'organizzazione, all'ottimizzazione e all'utilizzo dei metadati per migliorare l'accessibilità e la qualità dei dati di un'organizzazione. Definiti semplicemente come "dati sui dati", i metadati includono informazioni come autore, data di creazione, dimensione del file, parole chiave ed elementi strutturali.
 

Diversi tipi di metadati servono scopi diversi. Ad esempio, i metadati descrittivi forniscono informazioni di base per aiutare gli utenti finali aziendali e gli stakeholder a trovare rapidamente i dati, mentre i metadati di conservazione aiutano a garantire l'usabilità e l'accessibilità a lungo termine dei dati durante tutto il ciclo di vita. 

Le organizzazioni moderne generano una quantità incredibile di dati: circa 402,74 milioni di terabyte al giorno. Inoltre, non mostrano alcun segno di rallentamento: si prevede che la datasfera globale raggiunga i  393,9 zettabyte entro il 2028. Senza un sistema per ordinare queste informazioni, gran parte dei dati (e del valore aziendale) andrebbero persi.

Design 3D di palline che rotolano su una pista

Le ultime notizie e insight sull'AI


Scopri notizie e insight selezionati da esperti in materia di AI, cloud e molto altro nella newsletter settimanale Think. 

Quali sono i benefici della gestione dei metadati?

Quando si distinguono i metadati dalla gestione dei metadati, è utile pensare ai metadati come alle etichette sui libri (titolo, autore, data di pubblicazione) e alla gestione dei metadati come al sistema della biblioteca per organizzare i libri utilizzando tali etichette. 

Una solida strategia di metadati fornisce un contesto aziendale e tecnico essenziale, aiutando le organizzazioni a migliorare la reperibilità dei dati, la qualità e la fiducia. La gestione dei metadati mette in pratica questa strategia, garantendo che i metadati rimangano strutturati, accessibili e fruibili. In particolare, la gestione dei metadati supporta funzionalità chiave come: 

  • Governance dei dati
  • Integrazione dei dati
  • Data lineage
  • Qualità dei dati
  • Accessibilità
  • Security

Governance dei dati

Una solida gestione dei metadati stabilisce le politiche e gli standard per garantire che i metadati siano coerenti, accurati e ben documentati. I data steward e i comitati di governance implementano le best practice di gestione dei metadati, come l'applicazione delle politiche aziendali sui dati e il monitoraggio della qualità dei dati,per migliorare la data discovery e l'integrità dei dati.

Integrazione dei dati

La gestione dei metadati svolge anche un ruolo critico nell'integrazione dei dati standardizzando i metadati tra diverse fonti di dati e prevenendo le incongruenze. Una buona gestione dei metadati garantisce un'interoperabilità fluida tra database, data lake e ambienti cloud . Questo consente alle aziende di unificare i set di dati per analytics e processi decisionali accurati. 

Data lineage

Gli strumenti di lineage dei metadati tracciano l'intero percorso dei dati e supportano un'ampia gamma di casi d'uso. Attraverso l'analisi dell'impatto, ad esempio, le organizzazioni possono identificare in che modo eventuali modifiche ai dati influiscono sui processi a valle.

Gli strumenti di lineage migliorano anche la conformità normativa garantendo la trasparenza nei flussi e nelle trasformazioni dei dati, in particolare per framework come il Regolamento generale sulla protezione dei dati (GDPR) e il California Consumer Privacy Act (CCPA). Inoltre, il data lineage rafforza la spiegabilità dell'AI mappando la provenienza e l'evoluzione dei set di dati di addestramento. 

Qualità dei dati

Le organizzazioni possono promuovere metadati di alta qualità attraverso pratiche efficaci di gestione dei metadati. Gli strumenti di arricchimento automatico, ad esempio, possono aggiungere il contesto aziendale, le classificazioni e le statistiche di riepilogo. Le metriche chiave, come la completezza, l'accuratezza, la coerenza e la freschezza, aiutano le organizzazioni a misurare e migliorare l'affidabilità dei metadati. Questi insight, combinate con una cura efficace dei metadati, riducono gli sforzi di catalogazione manuale e migliorano la fruibilità dei dati.

Accessibilità

Migliorare l'accessibilità dei metadati consente ai consumatori di dati, come gli utenti aziendali e i data scientist, di comprendere e utilizzare meglio i dati per il processo decisionale. Un sistema di metadati ben strutturato migliora la ricercabilità, consente l'analytics self-service e aiuta a garantire che gli asset siano facilmente accessibili e utilizzabili in tutta l'azienda.

Sicurezza

Per salvaguardare i metadati sensibili, le organizzazioni implementano controlli degli accessi e permessi basati sui ruoli, che definiscono quali dati gli utenti possono visualizzare, modificare o condividere. I controlli granulari degli accessi proteggono gli identificatori personali, i dettagli del progetto e gli asset proprietari, garantendo che solo gli utenti autorizzati possano accedere a metadati specifici.

Mixture of Experts | 12 dicembre, episodio 85

Decoding AI: Weekly News Roundup

Unisciti al nostro gruppo di livello mondiale di ingegneri, ricercatori, leader di prodotto e molti altri mentre si fanno strada nell'enorme quantità di informazioni sull'AI per darti le ultime notizie e gli ultimi insight sull'argomento.

AI e gestione dei metadati

I metadati svolgono un ruolo fondamentale nell'intelligenza artificiale (IA), in particolare nell'machine learning (ML) e nell'AI generativa (gen AI). In alternativa, l'AI può anche contribuire a supportare una gestione efficace dei metadati.

Migliorare l'addestramento dei modelli

I modelli AI si basano su dati di alta qualità e ben etichettati per apprendere in modo efficace. Classificando chiaramente i set di dati con metadati descrittivi, strutturali e amministrativi, le organizzazioni possono garantire che i modelli AI siano addestrati su informazioni accurate e pertinenti.

Gli strumenti di gestione dei metadati basati su AI possono etichettare, classificare e aggiungere automaticamente un contesto aziendale ai dati. Questi processi di arricchimento riducono lo sforzo manuale, migliorano la qualità dei dati e supportano una governance dei dati più solida. 

Inoltre, gli algoritmi di machine learning possono analizzare i modelli all'interno dei metadati per generare automaticamente le mappature degli schemi, rilevare anomalie e suggerire la standardizzazione dei metadati. In questo modo i cataloghi di metadati possono essere più dinamici e adattivi.

Migliorare la fiducia e la spiegabilità

I metadati svolgono un ruolo chiave nella governance e nella spiegabilità dei modelli AI. Affinché l'AI sia trasparente e affidabile, le organizzazioni devono tracciare il data lineage, gli input dei modelli e la logica di trasformazione.

I dati di addestramento supportati da metadati approfonditi aiutano gli utenti a comprendere meglio e a fidarsi degli output del modello. I metadati possono anche aiutare i team a convalidare l'accuratezza, ad affrontare i timori nell'ambito della conformità e a soddisfare requisiti normativi come l'EU AI Act e il GDPR.

Alimentare i workflow dell'AI

I metadati fungono da tessuto connettivo tra data lake, data warehouse e piattaforme di analytics. Le pipeline automatizzate di metadati semplificano l'acquisizione, l'annotazione e l'aggiornamento dei metadati mentre si spostano tra i sistemi, aiutando i workflow dell'AI a rimanere coerenti ed efficienti. Consentono inoltre approfondimenti in tempo reale, analisi self-service e processi decisionali basati sull'AI.

Tipi di metadati

Esistono diversi tipi di metadati, tra cui:

  • Metadati descrittivi
  • Metadati strutturali
  • Metadati amministrativi
  • Metadati tecnici
  • Metadati di conservazione
Metadati descrittivi

I metadati descrittivi comprendono informazioni di base come titolo, autore, parole chiave e riepiloghi. Questo tipo di metadati aiuta le organizzazioni a migliorare la ricercabilità e la reperibilità dei propri dati nei cataloghi, nelle piattaforme di social media e nei motori di ricerca.

Metadati strutturali

I metadati strutturali descrivono e definiscono come gli elementi dei dati sono organizzati e correlati. Ad esempio, il modo in cui una homepage si collega alle sottopagine. Questo tipo di metadati aiuta le organizzazioni a mantenere chiare le relazioni e le categorizzazioni all'interno di set di dati complessi.

Metadati amministrativi

I metadati amministrativi comprendono la proprietà, i permessi e le politiche di retention. Questo tipo di metadati aiuta le organizzazioni a rispettare le politiche legali, normative e interne. Definisce i criteri di utilizzo dei dati, ad esempio chi può accedere ai dati e per quanto tempo devono essere conservati.

Metadati tecnici

I metadati tecnici comprendono le proprietà tecniche di un file di dati, come formato, codifica e tipo di storage (ad es. data warehouse o data lake). Questo tipo di metadati aiuta le organizzazioni a gestire e visualizzare correttamente i dati su piattaforme e sistemi diversi.

Metadati di conservazione

La conservazione dei metadati garantisce l'usabilità e l'accessibilità a lungo termine dei dati, comprese le strategie per il backup dei dati e la migrazione verso formati più recenti. Questo tipo di metadati aiuta le organizzazioni a soddisfare requisiti estesi di conservazione dei dati, soprattutto in settori come i servizi sanitari e legali, dove i record devono rimanere accessibili ai fini della conformità.

Standard e framework di metadati

Per garantire coerenza e interoperabilità, le organizzazioni si affidano a schemi e framework di metadati standardizzati che definiscono elementi, vocabolari e dizionari comuni dei metadati. Gli standard dei metadati rientrano in genere in tre grandi categorie:

  • Standard di uso generale
  • Standard di dati aperti e web
  • Standard specifici di settore

Standard di metadati per uso generico

  • Dublin Core (DC): uno standard ampiamente adottato con 15 elementi di metadati di base (ad es. titolo, autore, data e formato). Progettato originariamente per documenti web e biblioteche digitali, la semplicità e la flessibilità del DC lo rendono ideale per lo scambio e la ricercabilità dei metadati.

  • ISO/IEC 11179: un framework internazionale per i registri di metadati, che garantisce descrizioni standardizzate degli elementi di dati (ad esempio, ID cliente o prezzo del prodotto). L'ISO/IEC 11179 aiuta ad armonizzare le definizioni in settori come l'assistenza sanitaria e la finanza, stabilendo glossari aziendali uniformi e descrizioni chiare degli elementi di dati. 

  • Principi FAIR: abbreviazione di findability, accessibility, interoperability and reusability (FAIR), questo framework garantisce che i metadati siano fruibili automaticamente, strutturati e rilevabili a livello globale. I metadati conformi alla normativa FAIR migliorano la condivisione dei dati, la collaborazione nella ricerca, la data intelligence e l'integrazione dei dati.

Standard di dati aperti e web

  • Data Catalog Vocabulary (DCAT): uno standard consigliato dal W3C per i cataloghi di dati online. Utilizzato dai portali di dati aperti del governo, il DCAT migliora la scoperta dei set di dati, l'aggregazione dei metadati e l'indicizzazione dei motori di ricerca. 

  • PREMIS: uno standard ampiamente utilizzato per la conservazione digitale, che garantisce che i metadati includano la provenienza, la gestione dei diritti e le relazioni strutturali per un'accessibilità a lungo termine.

Standard di metadati specifici per settore

  • Sanità: HL7/FHIR standardizza le cartelle cliniche dei pazienti e lo scambio di dati sanitari.

  • Finanza: ISO 20022 fornisce un framework comune per le transazioni finanziarie e la rendicontazione.

  • Dati geospaziali: ISO 19115 fornisce metadati standardizzati per la cartografia, i sistemi informativi geografici (GIS) e i set di dati di telerilevamento.

Strumenti di gestione dei metadati

Le organizzazioni si affidano a una gamma di strumenti di gestione dei metadati per migliorare la rilevabilità, i processi di governance e i processi decisionali basati sui dati

Cataloghi di dati autonomi

Le piattaforme autonome di catalogazione dei metadati centralizzano la raccolta dei metadati e migliorano la ricercabilità dei dati, aiutando le organizzazioni a gestire e memorizzare le informazioni in un archivio di metadati strutturato. Consentendo l'accesso self-service ai metadati, queste piattaforme riducono i silos di dati, migliorano l'accessibilità e aiutano gli utenti a trovare e fidarsi rapidamente dei propri asset.

ETL potenziato dai metadati e integrazione dei dati

Gli strumenti di integrazione ed estrazione, trasformazione, caricamento (ETL) dei dati aiutano le aziende ad automatizzare l'estrazione dei metadati gestendo al contempo le trasformazioni dei dati. Ciò garantisce che i metadati scorrano perfettamente insieme ai dati, migliorando la real-time analytics, la qualità dei dati e la conformità. Le organizzazioni possono creare una pipeline di analisi dei dati più strutturata ed efficiente integrando i metadati nei processi ETL. 

Suite di governance dei dati aziendali

Per una governance completa dei metadati aziendali, le organizzazioni possono rivolgersi a piattaforme e prodotti di dati con funzionalità di gestione dei metadati. Tali funzionalità includono i controlli della qualità dei dati, l'applicazione delle policy e la conformità normativa. Queste piattaforme aiutano le aziende a definire e applicare standard di metadati in tutto il loro ambiente, garantendo che i framework come il GDPR siano integrati perfettamente nelle pratiche aziendali che coinvolgono i metadati.

Cataloghi di metadati cloud-native

Negli ambienti di cloud storage, le soluzioni integrate di gestione dei metadati sono essenziali per mantenere il controllo e la conformità. I cataloghi di metadati cloud-native forniscono individuazione automatizzata dei metadati, tracciamento della discendenza e controlli di sicurezza. Consentono inoltre una gestione scalabile e interoperabile dei metadati, garantendo un'integrazione fluida in ambienti multicloud e ibridi.

Strumenti di metadati open source

Per le aziende che cercano soluzioni adattabili e guidate dalle community, gli strumenti open source per i metadati offrono una gestione flessibile dei metadati. Queste piattaforme supportano workflow personalizzati, collaborazione e personalizzazione della governance. Queste funzionalità consentono alle organizzazioni di adattare la gestione dei metadati alla propria architettura datispecifica.

Sfide nella gestione dei metadati

Sebbene la gestione dei metadati offra vantaggi significativi, le organizzazioni spesso riscontrano problemi che influiscono sulla scalabilità, l'integrazione, la sicurezza e l'adozione.

Scalabilità e volume

La crescita esponenziale dei dati rappresenta una delle sfide più grandi nella gestione dei metadati. Via via che le organizzazioni generano miliardi di record di metadati, mantenere un sistema di metadati reattivo e aggiornato diventa sempre più complesso.

Senza automazione, infrastruttura scalabile e indicizzazione efficiente, i cataloghi di metadati possono risentirne. Ciò si traduce in colli di bottiglia nelle prestazioni, record obsoleti e risposte lente alle query, tutti fattori che influiscono negativamente sull'esperienza degli utenti e sull'usabilità dei metadati.

Silos, integrazione e qualità

Molte organizzazioni hanno problemi con i metadati frammentati che utilizzano termini e strutture aziendali non uniformi. Ad esempio, un campo "Customer ID" in un database può essere etichettato "Client Code" in un altro, rendendo difficile l'integrazione.

Queste incongruenze portano a una scarsa qualità dei metadati, a una documentazione obsoleta e alla difficoltà di individuare dati affidabili. Una gestione efficace dei metadati richiede framework di governance che impongano la standardizzazione, l'armonizzazione e il monitoraggio continuo della qualità dei dati.

Rischi per la privacy e la sicurezza

I metadati possono contenere dati sensibili, siano essi metadati aziendali o informazioni di identificazione personale, il che rende la sicurezza e la privacy dei dati un aspetto critico.

Framework come il GDPR impongono controlli rigorosi sull'accesso, la conservazione e la protezione dei dati. Ciò vale anche per i metadati. Metadati poco protetti possono aumentare il rischio di attacchi informatici e non conformità.

Adozione e gestione del cambiamento

Anche i sistemi di gestione dei metadati meglio progettati possono fallire se le organizzazioni hanno difficoltà con la loro adozione. Molti team si oppongono alla documentazione sui metadati, affidandosi invece a processi manuali e fogli di calcolo privi di profilazione, scalabilità e governance.

Senza politiche chiare e strumenti intuitivi, le iniziative di governance dei metadati possono essere viste come un onere inutile piuttosto che un asset. Promuovere l'adozione richiede leadership, programmi di formazione e tecnologie che incorporano best practice di gestione dei metadati nei workflow quotidiani.

Innovazioni nella gestione dei metadati

Il panorama della gestione dei metadati è in rapida evoluzione. Diverse tendenze chiave stanno plasmando la sua traiettoria, tra cui:

Metadati attivi e automazione

Il passaggio da cataloghi di metadati passivi a sistemi di gestione attiva dei metadati consente aggiornamenti dei metadati in tempo reale e risposte automatizzate. Questi sistemi possono etichettare automaticamente, profilare, classificare e attivare avvisi o azioni in base alle modifiche dei metadati, rendendo gli ecosistemi più resilienti e autogestiti.

AI, ML e grafi della conoscenza

L'AI sta trasformando la gestione dei metadati classificando automaticamente i dati, rilevando le relazioni e generando descrizioni. Il machine learning aiuta nel punteggio della qualità dei dati, nell'arricchimento dei metadati e nella ricercabilità, mentre i grafi della conoscenza aiutano a scoprire le connessioni tra i set di dati.

Architetture di dati basate su metadati

Concetti come data fabric e data mesh si basano sui metadati come tessuto connettivo per una perfetta integrazione e governance dei dati. I metadati ora svolgono un ruolo critico nel routing dinamico delle query, nell'applicazione delle policy e nell'automazione della gestione dei dati in ambienti distribuiti.

Soluzioni correlate
IBM Manta Data Lineage

Visualizza, trasforma e ottimizza il flusso dei tuoi dati dall'origine al consumo. Applica il data lineage a qualsiasi scenario per una maggiore trasparenza e accuratezza dei dati nelle tue operazioni.

Scopri IBM Manta Data Lineage
Soluzioni di data intelligence

Trasforma rapidamente i dati non elaborati in insight fruibili, unifica governance, qualità, lineage e condivisione dei dati e offri agli utenti dati affidabili e contestualizzati.

Scopri le soluzioni di data intelligence
Servizi di consulenza per dati e analytics

Sblocca il valore dei dati aziendali con IBM Consulting e crea un'organizzazione basata su insight in grado di generare vantaggi aziendali.

Esplora i servizi di analytics
Prossimi passi

Scopri come IBM aiuta a costruire una base di dati governata e conforme. Con IBM Manta Data Lineage, ottieni la trasparenza dei dati monitorando la cronologia, il flusso e i risultati dei tuoi dati, ottimizzando gli insight end-to-end.

Esplora IBM Manta Data Lineage Esplora le soluzioni di data intelligence