Gestione della qualità dei dati
Misurate, monitorate e mantenete la qualità dei vostri dati per garantire che soddisfino le vostre aspettative e gli standard per casi d'uso specifici.
I dati di buona qualità sono in uno stato che solitamente può essere definito come idoneo all'uso, privo di difetti o conforme alle aspettative e ai requisiti. La qualità dei dati viene misurata in base alle dimensioni di qualità predefinite Accuratezza, Completezza, Coerenza, Tempestività, Unicità e Validità, nonché a qualsiasi dimensione di qualità personalizzata.
L'analisi della qualità dei dati fornisce risposte alle seguenti domande:
- Qual è il livello di qualità complessiva di un asset di dati?
- Quale delle risorse di dati ha la qualità migliore?
- Come è cambiata nel tempo la qualità di un asset di dati?
- I dati soddisfano le mie aspettative in termini di qualità?
Requisiti e restrizioni
Per la gestione della qualità dei dati, esistono i seguenti requisiti e restrizioni.
Servizio I servizi IBM Knowledge Catalog, IBM Knowledge Catalog StandardIBM Knowledge Catalog Premium, e non sono disponibili per impostazione predefinita. Un amministratore deve installare uno dei servizi. Per determinare se un servizio è installato, aprire il catalogo Servizi. Se il servizio è installato e pronto all'uso, la casella nel catalogo mostra Pronto all'uso.
Servizio Il servizio DataStage Enterprise viene installato automaticamente quando la funzione di qualità dei dati è abilitata in IBM Knowledge Catalog o IBM Knowledge Catalog Premium. Se non hai acquistato una DataStage licenza, l'uso di DataStage Enterprise è limitato alla creazione, alla gestione e all'esecuzione delle regole di qualità dei dati. Per esempi di utilizzo consentito, vedere Abilitazione delle funzionalità opzionali dopo l'installazione o l'aggiornamento per IBM Knowledge Catalog.
Per le seguenti funzionalità, è necessario abilitare le funzionalità di IA generativa nella distribuzione e i modelli richiesti devono essere eseguiti su GPU o in un'istanza di " watsonx.ai " as a Service:
- Generazione di regole basate su SQL da testo semplice
- Generazione di descrizioni delle regole e spiegazioni delle espressioni delle regole
Questa configurazione può essere effettuata durante l'installazione, l'aggiornamento o in qualsiasi momento successivo. Per ulteriori informazioni, consultare Preparazione all'installazione di IBM Knowledge Catalog nella documentazione IBM Software Hub.
Strumenti per la qualità dei dati
Lavori con questi strumenti:
- Arricchimento dei metadati
- Definizioni di qualità dei dati
- Regole di qualità dei dati
- dell'API " IBM Knowledge Catalog " per i contratti di dati
Formati dei dati
Sono supportati i seguenti formati di dati:
- Tabelle provenienti da fonti di dati relazionali e non relazionali
- Delta Lake e Iceberg tabelle da determinati connettori di archiviazione file
- Arricchimento dei metadati: file caricati dal file system locale o da connessioni basate su file alle origini dati, con i formati CSV, TSV, Avro, Parquet, Microsoft Excel (per le cartelle di lavoro caricate dal file system locale, viene profilato solo il primo foglio della cartella di lavoro)
- Regole di qualità dei dati: file caricati dal file system locale o da connessioni basate su file alle origini dati, con i formati Avro, CSV, Parquet, ORC; per le risorse di dati caricate dal file system locale, solo CSV
Per informazioni sui connettori supportati, vedere Origini dati supportate per la curatela e la qualità dei dati.
Dimensione dati
Le attività di gestione della qualità dei dati possono essere eseguite su dati di qualsiasi dimensione.
Autorizzazioni richieste
I tuoi ruoli determinano quali attività di gestione della qualità dei dati puoi eseguire:
- Per visualizzare le risorse di arricchimento dei metadati o le definizioni e le regole relative alla qualità dei dati, è necessario disporre almeno del ruolo di Visualizzatore nel progetto.
- Per creare, modificare, eliminare o eseguire l'arricchimento dei metadati, è necessario disporre del ruolo di amministratore o editore nel progetto.
- Per creare, modificare o eliminare definizioni e regole relative alla qualità dei dati, è necessario disporre dell'autorizzazione utente Gestisci risorse di qualità dei dati e del ruolo Amministratore o Editor nel progetto.
- Per eseguire le regole di qualità dei dati, è necessario disporre del ruolo di amministratore o editor nel progetto e, per eseguire le regole dalla pagina Risorse, da una risorsa di regole di qualità dei dati o utilizzando l'API, è necessario disporre anche dell'autorizzazione utente Misura qualità dei dati. Non è necessaria l'autorizzazione dell'utente per eseguire un processo di regola di qualità dei dati dalla pagina Processi o dal flusso DataStage associato.
- Per visualizzare i dati che hanno causato problemi di qualità dei dati (la tabella di output) dalla cronologia delle esecuzioni delle regole o dalla pagina "Qualità dei dati ", è necessario disporre dell'autorizzazione utente "Approfondimento sui dettagli del problema ". Tuttavia, le risorse dati nel progetto create per la tabella di output sono accessibili a chiunque possa accedere alla connessione. Per limitare l'accesso a questa risorsa di dati, la connessione alla fonte dati in cui è memorizzata la tabella di output deve essere configurata con credenziali personali.
- Per creare, modificare o eliminare regole SLA relative alla qualità dei dati, è necessario disporre delle seguenti autorizzazioni utente:
- Accedi alle risorse utente di governance
- Gestire regole SLA di qualità dei dati
Spazi di lavoro
È possibile eseguire attività di gestione della qualità dei dati nei progetti. Le informazioni sulla qualità dei dati in sola lettura sono disponibili nei cataloghi.
Analisi e monitoraggio della qualità dei dati
Utilizzare l'analisi e il monitoraggio della qualità dei dati per valutare i dati in base a criteri specifici. Utilizza questi criteri di valutazione ripetutamente nel tempo per rilevare eventuali cambiamenti significativi nella qualità dei dati sottoposti a convalida.
È possibile analizzare la qualità dei dati nell'ambito dell'arricchimento dei metadati, dove è possibile utilizzare i controlli di qualità dei dati generati automaticamente per i propri dati. È inoltre possibile progettare controlli della qualità dei dati che vengono eseguiti singolarmente.
Dopo aver progettato un controllo della qualità dei dati, sono disponibili le seguenti opzioni:
Creare una definizione della qualità dei dati che definisca la logica del controllo dei dati indipendentemente dalla fonte dei dati. La definizione contiene variabili logiche o riferimenti che si collegano o si associano a dati effettivi (ad esempio, origine dati, tabella e colonna o tabelle unite) quando si crea una regola di qualità dei dati che può essere eseguita.
Dopo aver creato una regola di qualità dei dati con i collegamenti richiesti in base a una definizione di qualità dei dati selezionata, tale regola può essere eseguita. La regola produce statistiche rilevanti e può generare una tabella di output, a seconda della configurazione della regola.
Crea una regola di qualità dei dati basata su SQL.
La funzionalità di una regola di qualità dei dati può variare da un semplice test su una singola colonna alla valutazione di più colonne all'interno e tra diverse fonti di dati.
Oltre a configurare e applicare manualmente le regole di qualità dei dati, è possibile creare e applicare contratti sui dati.
Valutazione della qualità dei dati
Per determinare se i tuoi dati sono di buona qualità, verifica in che misura soddisfano le tue aspettative e individua eventuali anomalie. Valutare la qualità dei dati aiuta anche a comprenderne la struttura e il contenuto.
Monitoraggio della qualità dei dati
Per garantire che i dati importanti soddisfino gli standard di qualità della vostra organizzazione, implementate regole SLA relative alla qualità dei dati che ne verifichino la conformità agli standard e prevedano misure correttive in caso di problemi rilevati.
Ulteriori informazioni
- Software HubIBM ruoli e autorizzazioni
- Arricchimento dei metadati
- Risorse per la qualità dei dati
- Gestione delle definizioni relative alla qualità dei dati
- Gestione delle regole di qualità dei dati
- Valutazione della qualità dei dati
- Conformità alle regole dello SLA relative alla qualità dei dati e azioni correttive