La profilazione dei dati, o archeologia dei dati, è il processo di revisione e pulizia dei dati per capire meglio come sono strutturati e mantenere gli standard di qualità dei dati all'interno di un'organizzazione.
Lo scopo principale è acquisire informazioni sulla qualità dei dati utilizzando metodi per esaminarli e sintetizzarli, quindi valutarne le condizioni. Il lavoro viene in genere eseguito da data engineer che utilizzano una serie di business rules e algoritmi analitici.
La profilazione dei dati valuta i dati in base a fattori quali accuratezza, coerenza e tempestività per verificare se i dati mancano di coerenza o accuratezza o presentano valori nulli. Un risultato può essere qualcosa di semplice come una statistica, come numeri o valori sotto forma di colonna, a seconda del set di dati. La profilazione dei dati può essere utilizzata per progetti che implicano il data warehousing o la business intelligence ed è ancora più vantaggiosa per i big data. La profilazione dei dati può essere un importante precursore del trattamento dei dati e del data analytics.
Le aziende integrano software o applicazioni per garantire che i set di dati siano preparati in modo appropriato e possano essere utilizzati al meglio per rimuovere i dati non validi. In particolare, è possibile determinare quali origini hanno creato o stanno creando problemi di qualità dei dati, che influiscono in ultima analisi sul successo operativo e finanziario complessivo dell'azienda. Questo processo esegue anche una necessaria valutazione della qualità dei dati.
Il primo passaggio della profilazione dei dati consiste nella raccolta delle origini dati e dei metadati associati per l'analisi, che spesso può portare all'individuazione di relazioni tra chiavi esterne. I passaggi successivi che seguono hanno lo scopo di pulire i dati per garantire una struttura unificata ed eliminare la duplicazione, tra le altre cose. Una volta che i dati sono stati puliti, il software di profilazione dei dati restituisce statistiche per descrivere il set di dati e può includere elementi quali la media, il valore minimo/massimo e la frequenza. Di seguito sono illustrate le corrette tecniche di profilazione dei dati.
Sebbene vi sia una sovrapposizione con il data mining, la profilazione dei dati si pone un obiettivo diverso. Qual è la differenza?
In altre parole, la profilazione dei dati è il primo degli strumenti utilizzati per garantire che i dati siano accurati e che non vi siano inesattezze.
La profilazione dei dati dovrebbe essere una parte essenziale del modo in cui un'organizzazione gestisce i propri dati e le aziende dovrebbero considerarla come una componente chiave della pulizia dei dati. Non solo può aiutarti a comprendere i tuoi dati, ma può anche verificare che i tuoi dati siano conformi alle misure statistiche standard. Un team di analisti può affrontare la profilazione dei dati in molti modi diversi, ma in genere rientra in tre categorie principali che hanno lo stesso obiettivo, ovvero migliorare la qualità e ottenere una migliore comprensione dei dati.
Di seguito sono riportati gli approcci che gli analisti possono utilizzare per profilare i dati:
In generale, la profilazione dei dati non presenta aspetti negativi rilevanti. Una cosa è avere una buona quantità di dati, ma la qualità è importante ed è qui che entra in gioco la profilazione dei dati. Quando si dispone di dati standardizzati e formattati con precisione, la possibilità di avere clienti insoddisfatti o problemi di comunicazione è minima.
Le sfide sono per lo più di natura sistemica, perché se, ad esempio, i dati non sono tutti in un unico posto, diventa molto difficile individuarli. Ma con l’installazione di determinati strumenti e applicazioni dati questo non dovrebbe essere un problema e può solo avvantaggiare un’azienda nei suoi processi decisionali. Vediamo più nel dettaglio altri vantaggi e sfide chiave.
La profilazione dei dati può offrire una panoramica dei dati di alto livello, a differenza di qualsiasi altro strumento. In particolare, ci si può aspettare:
Le sfide di profilazione dei dati derivano in genere dalla complessità del lavoro da svolgere. In particolare, ci si può aspettare:
Indipendentemente dall'approccio, i seguenti strumenti e best practice di profilazione dei dati ottimizzano l'accuratezza e l'efficienza della profilazione dei dati:
Profilazione delle colonne: questo metodo esegue una scansione delle tabelle e conta il numero di volte in cui ogni valore è presente in ogni colonna. La profilazione delle colonne può essere utile per individuare la distribuzione delle frequenze e i pattern all'interno di una colonna.
Profilazione tra colonne: questa tecnica è composta da due processi: analisi delle chiavi e analisi delle dipendenze. Il processo di analisi delle chiavi esamina l'array di valori degli attributi ricercando una possibile chiave primaria. Il processo di analisi delle dipendenze, invece, lavora per identificare le relazioni o pattern incorporati all'interno del set di dati.
Profilazione tra tabelle: questa tecnica utilizza l'analisi chiave per identificare i dati vaganti. L'analisi delle chiavi esterne identifica i record orfani o le differenze generali per esaminare la relazione tra i set di colonne di tabelle diverse.
Convalida delle regole di dati: questo metodo valuta i set di dati in base a regole e standard stabiliti per verificare che siano effettivamente conformi a tali regole predefinite.
Integrità delle chiavi: garantisce che le chiavi siano sempre presenti nei dati e identifica le chiavi orfane, che possono essere problematiche.
Cardinalità: questa tecnica controlla le relazioni one-to-one e one-to-many tra i set di dati.
Distribuzione di pattern e frequenze: questa tecnica assicura che i campi dati siano formattati correttamente.
Sebbene la profilazione dei dati possa migliorare l’accuratezza, la qualità e l’usabilità in molteplici contesti in tutti i settori, i suoi casi d’uso più importanti includono:
Trasformazione dei dati: prima di poter elaborare i dati, è necessario trasformarli in un insieme utilizzabile e organizzato. Si tratta di un passaggio importante da compiere prima di creare un modello di previsione ed esaminare i dati, pertanto la profilazione dei dati deve essere eseguita prima di uno qualsiasi di questi passaggi. Tutto ciò può essere realizzato con IBM Db2, il database cloud-native creato per potenziare la trasformazione dei dati.
Inoltre, ELT (extra, load, transform) ed ETL (extract, transform, load) sono processi di integrazione dei dati che spostano i dati non elaborati da un sistema di origine a un database di destinazione. IBM offre servizi e soluzioni di integrazione dei dati per supportare una pipeline di dati pensata per le imprese e fornire alla tua azienda gli strumenti di cui ha bisogno per scalare in modo efficiente.
Integrazione dei dati: per integrare correttamente più set di dati, è necessario innanzitutto comprendere le relazioni tra ciascun set. Questo è un passaggio fondamentale quando si cerca di comprendere le metriche dei dati e di determinare come collegarli.
Ottimizzazione delle query: se si desidera disporre delle informazioni più accurate e ottimizzate sulla propria azienda, la profilazione dei dati è fondamentale. La profilazione dei dati tiene conto delle informazioni sulle caratteristiche di un database e crea statistiche su ciascun database. Il software IBM i 7.2 fornisce prestazioni del database e ottimizzazione delle query proprio per questo scopo. L'obiettivo della trasformazione del database è ridurre al minimo i tempi di risposta delle query utilizzando al meglio le risorse del sistema.
Per prosperare, le aziende devono utilizzare i dati per fidelizzare i clienti, automatizzare i processi aziendali e innovare con soluzioni basate sull'AI.
Sblocca il valore dei dati aziendali con IBM Consulting e crea un'organizzazione basata su insight in grado di generare vantaggi aziendali.
Introduzione a Cognos Analytics 12.0, insight basati sull'AI per prendere decisioni migliori.
IBM web domains
ibm.com, ibm.org, ibm-zcouncil.com, insights-on-business.com, jazz.net, mobilebusinessinsights.com, promontory.com, proveit.com, ptech.org, s81c.com, securityintelligence.com, skillsbuild.org, softlayer.com, storagecommunity.org, think-exchange.com, thoughtsoncloud.com, alphaevents.webcasts.com, ibm-cloud.github.io, ibmbigdatahub.com, bluemix.net, mybluemix.net, ibm.net, ibmcloud.com, galasa.dev, blueworkslive.com, swiss-quantum.ch, blueworkslive.com, cloudant.com, ibm.ie, ibm.fr, ibm.com.br, ibm.co, ibm.ca, community.watsonanalytics.com, datapower.com, skills.yourlearning.ibm.com, bluewolf.com, carbondesignsystem.com, openliberty.io