Cura dei dati

La curatela dei dati è il processo che consiste nell'aggiungere risorse di dati a un progetto o a un catalogo, arricchirli assegnando classificazioni, classi di dati e termini commerciali, nonché analizzare e migliorare la qualità dei dati.

Base Premium Standard Salvo diversa indicazione, queste informazioni valgono per tutte le edizioni di IBM Knowledge Catalog.

La curatela può essere un processo prevalentemente manuale in cui si curano le risorse di dati una alla volta. La curatela avanzata è un processo più automatizzato in cui molte delle attività di curatela vengono completate automaticamente per più risorse di dati contemporaneamente.

Requisiti e restrizioni

Per la conservazione dei dati, esistono i seguenti requisiti e restrizioni.

Strumenti per la cura dei dati

Lavori con questi strumenti:

  • Metadata import
  • Arricchimento dei metadati

Servizio richiesto

La cura dei dati richiede IBM Knowledge Catalog, IBM Knowledge Catalog Standard, o IBM Knowledge Catalog Premium. Anche l'analisi avanzata nel contesto dell'arricchimento dei metadati (profilazione avanzata e analisi approfondite delle chiavi e delle relazioni) richiede il DataStage servizio.

Servizio Il IBM Knowledge Catalog servizio non è disponibile per impostazione predefinita. Un amministratore deve installare il servizio. Per verificare se il servizio è installato, apri il catalogo Servizi. Se il servizio è installato e pronto all'uso, la IBM Knowledge Catalog casella nel catalogo mostra Pronto all'uso.

Formati dei dati

Sono supportati i seguenti formati di dati:

  • Tabelle provenienti da fonti di dati relazionali e non relazionali, Amazon S3Delta Lake tabelle
  • Metadata import : Qualsiasi formato, dalle connessioni basate su file alle origini dati e formati specifici degli strumenti dalle connessioni a strumenti esterni
  • Arricchimento dei metadati: Formati tabulari: CSV, TSV, Avro, Parquet, Microsoft Excel

Per informazioni sui connettori supportati, vedere Origini dati supportate per la curatela e la qualità dei dati.

Dimensione dati

La curazione dei dati funziona con dati di qualsiasi dimensione.

Autorizzazioni richieste

I tuoi ruoli determinano quali attività di curatela puoi svolgere:

  • È necessario disporre del ruolo di Data Steward o di un ruolo personalizzato con almeno lo stesso insieme di autorizzazioni. Vedi Ruoli e autorizzazioni predefiniti.
  • Per lavorare con le risorse associate agli strumenti di curation, è necessario disporre anche di ruoli specifici nei progetti e nei cataloghi. Per i requisiti esatti, consultare i singoli strumenti.

Spazi di lavoro

È possibile eseguire attività di curatela in questi spazi di lavoro:

  • Progetti
  • Cataloghi

A seconda delle attività di curation che desideri eseguire, devi lavorare sulle risorse dati in un progetto, in un catalogo o in entrambi prima che i dati siano pronti per essere utilizzati da altri utenti.

Un progetto è uno spazio di lavoro collaborativo in cui solitamente si preparano e analizzano i dati prima di pubblicarli in un catalogo per renderli disponibili agli altri utenti dell'organizzazione. È anche possibile aggiungere dati direttamente a un catalogo se è possibile condividerli senza ulteriori preparativi. Alcuni tipi di dati possono essere aggiunti solo ai cataloghi.

Compiti di curatela

Queste attività di curation consentono di sviluppare risorse di dati preziose:

  • Aggiungi risorse dati a un progetto o a un catalogo:

    • Aggiungi risorse da una connessione a un'origine dati, manualmente una alla volta o più risorse dati automaticamente tramite l'importazione dei metadati. Lascia i tuoi dati dove sono, nel cloud o in locale, e aggiungi semplicemente i metadati delle risorse e le informazioni di connessione per accedere ai dati all'interno di un progetto o di un catalogo.
    • Carica singoli file nell'archivio associato al progetto o al catalogo.
    • Aggiungi manualmente le risorse da un catalogo a un progetto per poterle utilizzare.
  • Analizza e arricchisci i tuoi dati:

    • Profila le singole risorse di dati per ottenere statistiche di base sul contenuto delle risorse e assegnare classi di dati, all'interno di un progetto o di un catalogo. Vedi Profiling delle risorse dati.

    • Creare ed eseguire un arricchimento dei metadati in un progetto.

      • Profila più risorse di dati in un unico passaggio per assegnare automaticamente classi di dati e identificare tipi e formati di dati delle colonne.
      • Esegui analisi della qualità su più set di dati in un unico ciclo per individuare problemi comuni relativi alla qualità dei dati, come valori mancanti o violazioni delle classi di dati.
      • Assegna automaticamente termini commerciali alle risorse e genera suggerimenti basati sulla classificazione dei dati o su algoritmi di apprendimento automatico.
      • Fornire chiavi primarie e esterne, nonché relazioni candidate tra risorse e colonne sulla base delle statistiche di profilazione e delle somiglianze dei nomi tra le colonne.
    • Esamina i risultati dell'arricchimento. Una panoramica dei punteggi di qualità delle risorse di dati è disponibile nella risorsa di arricchimento dei metadati del progetto. È possibile visualizzare i risultati dettagliati per ogni risorsa dati o colonna facendo clic sul punteggio di qualità. In alternativa, è possibile accedere alle informazioni nella scheda Qualità dei dati di un asset, all'interno di un progetto o di un catalogo.

    • Esegui analisi più approfondite sui dati effettivi: analisi delle chiavi primarie, analisi delle relazioni tra chiavi, analisi delle sovrapposizioni o profilazione avanzata dei dati

    • Eseguire nuovamente i processi di importazione e arricchimento a intervalli regolari per individuare e valutare le modifiche apportate alle risorse di dati. È possibile eseguire questa operazione manualmente o impostare pianificazioni per l'importazione e l'arricchimento.

  • Valutare la qualità dei dati eseguendo le regole di qualità dei dati.

  • Perfezionare i dati per migliorarne la qualità e l'utilità in un progetto.

  • Pubblica le risorse di un progetto in un catalogo.

  • Valuta e recensisci le risorse dati all'interno di un catalogo.

  • Crea tag e aggiungili alle risorse di dati all'interno di un catalogo.

  • Aggiungi classificazioni e termini commerciali alle singole risorse di dati all'interno di un catalogo.

Compiti di curatela
Attività Dove è possibile farlo manualmente? Dove è possibile farlo automaticamente?
Crea risorse ProgettiCataloghi
ProgettiCataloghi
Assegnare classi di dati ProgettiCataloghi
ProgettiCataloghi
Assegna classificazioni Cataloghi
Assegna termini di business ProgettiCataloghi
Progetti
Analizzare la qualità dei dati
(arricchimento dei metadati)
Progetti Progetti
Identificare chiavi, relazioni tra chiavi e dati sovrapposti Progetti Progetti
Valutare la qualità dei dati (regole)
Base Premium
Progetti Progetti

Flusso del campione: conservazione avanzata

Un flusso di curation potrebbe comprendere le seguenti attività:

  1. In un progetto, creare ed eseguire un'importazione di metadati con l'obiettivo Discover per eseguire un'importazione in blocco dei metadati da una connessione al progetto. È inoltre possibile configurare l'importazione dei metadati in modo che venga eseguita una sola volta o secondo una pianificazione ricorrente.

  2. Nello stesso progetto, creare ed eseguire un arricchimento dei metadati per completare queste attività per l'insieme di risorse di dati importate in un'unica esecuzione:

    • Profila le risorse di dati.
    • Eseguire analisi di qualità sulle risorse di dati.
    • Assegna automaticamente termini commerciali alle risorse importate e genera suggerimenti terminologici.
    • Identificare le chiavi primarie e esterne per generare relazioni candidate tra risorse e colonne.

    È inoltre possibile impostare una pianificazione una tantum o ricorrente per l'arricchimento dei metadati. È possibile allineare il programma di arricchimento con il programma configurato per l'importazione dei metadati.

  3. Esamina i risultati dell'arricchimento per le risorse di dati e le relative colonne.

  4. Opzionale: eseguire analisi aggiuntive sulle risorse di dati nell'arricchimento dei metadati.

  5. Pubblica risorse di dati arricchite nel catalogo.

Flusso di campioni: rendere disponibili per il consumo risorse arricchite e la loro provenienza

Con MANTA Automated Data Lineage for IBM Cloud Pak for Data

Con MANTA Automated Data Lineage, rendere disponibili in un catalogo le risorse arricchite insieme alla loro genealogia affinché possano essere utilizzate dagli utenti aziendali potrebbe comportare le seguenti attività:

  1. In un progetto, creare ed eseguire una risorsa di importazione dei metadati con l'obiettivo Discover per importare i metadati delle risorse di dati da una connessione nel progetto.

  2. Nello stesso progetto, crea ed esegui una risorsa di arricchimento dei metadati per le risorse importate. Selezionare la risorsa di importazione dei metadati dal passaggio 1 come ambito dei dati.

  3. Esamina i risultati dell'arricchimento e pubblica le risorse arricchite in un catalogo A.

  4. Crea ed esegui un'altra risorsa di importazione dei metadati con l'obiettivo Ottieni provenienza per ottenere la provenienza e importare tali metadati nel catalogo in cui hai pubblicato le risorse arricchite (catalogo A). Seleziona la connessione specifica per il lignaggio alla fonte dati da cui hai importato le risorse dati nel passaggio 1.

    Al termine dell'importazione, le risorse esistenti nel catalogo A vengono aggiornate. Nuove risorse, come i report BI, vengono aggiunte al catalogo.

    Se un asset che ha un collegamento alle informazioni di provenienza in MANTA Automated Data Lineage allegato viene aggiornato in un secondo momento, ad esempio pubblicando nuovamente i risultati dell'arricchimento dei metadati, il collegamento di provenienza viene eliminato. Per ristabilire tale collegamento, sarà necessario rieseguire l'importazione della discendenza per tali risorse.

Per automatizzare il processo, è possibile pianificare i processi di importazione e arricchimento dei metadati e allineare tali pianificazioni.

Per questo flusso, è necessario installare il MANTA Automated Data Lineage for IBM Cloud Pak for Data servizio e una chiave di licenza per l'importazione della discendenza.

Con Manta Data Lineage

Con Manta Data Lineage, rendere disponibili agli utenti aziendali risorse arricchite e la loro discendenza potrebbe comportare le seguenti attività:

  1. Nel catalogo delle risorse della piattaforma, creare una definizione dell'origine dati che includa la connessione che si desidera scansionare.
  2. In un progetto, creare una copia di riferimento della connessione all'origine dati.
  3. Crea ed esegui un'importazione di metadati con entrambi gli obiettivi Importa metadati delle risorse e Importa metadati di provenienza. L'obiettivo per l'importazione dei metadati delle risorse deve essere il progetto.
  4. Nello stesso progetto, crea ed esegui una risorsa di arricchimento dei metadati per le risorse importate. Selezionare la risorsa di importazione dei metadati dal passaggio 1 come ambito dei dati.
  5. Esamina i risultati dell'arricchimento e pubblica le risorse arricchite in un catalogo.
  6. Controlla le informazioni sul lignaggio. Vai su Dati > Lineage dei dati > Visualizza lineage.

Per automatizzare il processo, è possibile pianificare i processi di importazione e arricchimento dei metadati e allineare tali pianificazioni.

È possibile eseguire la maggior parte delle attività di curation utilizzando le API anziché l'interfaccia utente. I collegamenti IBM Knowledge Catalog all'API sono elencati per ogni attività applicabile.

Ulteriori informazioni