Che cos'è l'arricchimento dei dati?

Autori

Alice Gomstyn

Staff Writer

IBM Think

Alexandra Jonker

Staff Editor

IBM Think

Che cos'è l'arricchimento dei dati?

L'arricchimento dei dati è una tecnica per migliorare la qualità dei dati e la fruibilità dei set di dati, integrando i set di dati con informazioni aggiuntive provenienti da fonti interne o esterne.

 

Le organizzazioni stanno raccogliendo più dati che mai, ma spesso quei dati mancano di contesto o significato. L'arricchimento dei dati aiuta a colmare queste lacune e a migliorare la comprensione dei punti dati in uso, siano essi sotto forma di dati non elaborati o di un set di dati strutturato. Aumentare i dati in questo modo può trasformare un set di dati da imperscrutabile a illuminante, consentendo alle organizzazioni di prendere decisioni più informate.

Spesso le pratiche di arricchimento dei dati sono parte integrante dei programmi di gestione dei dati e di gestione dei dati principale di un'azienda. Esistono diversi tipi di arricchimento dei dati che le organizzazioni perseguiscono, a seconda delle loro esigenze aziendali e delle fonti di dati, come l'arricchimento demografico, firmografico e geografico. Mentre i team di dati possono eseguire manualmente l'arricchimento dei dati, l'intelligenza artificiale (AI) e l'automazione aiutano a ottimizzare i processi di arricchimento dei dati.

I casi d'uso comuni per l'arricchimento dei dati si trovano all'interno della strategia di marketing, ma i processi di arricchimento dei dati possono anche avere un ruolo in ambiti come la cybersecurity, la sanità e la pianificazione urbana. L'arricchimento dei dati si è anche dimostrato sempre più prezioso per migliorare le prestazioni dei modelli di machine learning; fornisce contesto e dati più completi per previsioni più accurate.

Perché l'arricchimento dei dati è importante?

Immagina una tela dipinta solo parzialmente, la cui metà inferiore è coperta da pennellate blu che rappresentano un oceano, mentre al centro galleggiano alcune curiose macchie dorate. Una volta terminato il dipinto, però, è chiaro che quelle chiazze sono riflessi di luce e il dipinto completato raffigura il sole che tramonta sopra l'acqua.

Sebbene una tela incompiuta possa essere un'opera d'arte a sé stante, può anche essere qualcosa di più. Lo stesso vale per i set di dati che vengono migliorati tramite l'arricchimento dei dati.

Ad esempio, quando una tabella di dati dei clienti contenente solo nomi e numeri di telefono viene arricchita con indirizzi e-mail, diventa uno strumento più potente per la sensibilizzazione. Quando un set di dati di indirizzi stradali viene arricchito con coordinate geografiche, può fornire insight sull'uso del territorio di un quartiere.

Man mano che le aziende continuano a generare e raccogliere enormi quantità di dati grezzi e dati non strutturati, l'arricchimento dei dati ha assunto una nuova urgenza. Più dati grezzi e non strutturati significa più lacune e contesti mancanti all'interno dei set di dati. Tramite l'arricchimento dei dati, tuttavia, le organizzazioni possono mettere in relazione questi dati con altri punti di riferimento che conferiscono loro un significato più ampio, determinando un maggiore ritorno sull'investimento dei loro asset.

Quali sono i benefici dell'arricchimento dei dati?

L'arricchimento dei dati offre una serie di diversi benefici, tra cui:

  • Maggiore precisione dei dati: l'arricchimento dei dati può colmare lacune dei dati già presenti, come indirizzi postali incompleti o titoli professionali mancanti.
 
  • Maggiore fiducia: vedere diverse dimensioni dei dati, come un set di dati di nomi di aziende arricchito con codici di classificazione di settore, può dare agli utenti la certezza di accedere ai punti dati giusti per i loro scopi.
 
  • Migliori prestazioni dell'AI: l'intelligenza artificiale, compresi machine learning e i modelli AI generativa , funziona al meglio quando viene alimentata con dati completi e di alta qualità.
 
  • Insight per il processo decisionale: i set di dati completi ottenuti grazie all'arricchimento dei dati possono aiutare le aziende a scoprire nuovi modelli e opportunità legati alle richieste del mercato, ai prezzi e altro ancora. Ad esempio, gli insight possono indirizzare iniziative di marketing mirate in base alle preferenze del cliente.
 
AI Academy

È la gestione dei dati il segreto dell’AI generativa?

Scopri perché i dati di alta qualità sono fondamentali per un uso efficace dell'AI generativa.

Qual è la differenza tra arricchimento dei dati e miglioramento dei dati?

I termini "arricchimento dei dati" e "miglioramento dei dati" vengono spesso usati in modo intercambiabile, ma si tratta di processi distinti. Sebbene entrambi possano migliorare la qualità dei dati, il miglioramento dei dati si concentra maggiormente sul lavoro con i dati disponibili, mentre l'arricchimento dei dati si concentra sull'aggiunta di nuovi punti dati aggiuntivi a un set di dati.

Nel miglioramento dei dati, la pulizia e l'aggiornamento dei dati sono funzioni fondamentali. L'aggiunta di alcuni nuovi dati può essere necessaria allo scopo di risolvere il problema di valori mancanti in una colonna o di aggiornare informazioni obsolete, ma la quantità di nuovi dati introdotti non è adeguata all'arricchimento dei dati.

Tramite l'arricchimento dei dati, spesso vengono aggiunti nuovi campi ai set di dati esistenti. Come per il miglioramento dei dati, la pulizia dei dati fa parte del processo, ma in questo caso viene effettuata in preparazione all'aggiunta di nuove informazioni. (Vedi "Passaggi chiave per l'arricchimento dei dati" di seguito.)

Tipi di arricchimento dei dati

Le organizzazioni utilizzano comunemente uno o più dei seguenti tipi di arricchimento dei dati per aggiungere informazioni ai set di dati già presenti:

  • Arricchimento dei dati comportamentali: dati sul comportamento dei clienti e sul coinvolgimento con prodotti, servizi e vari canali di comunicazione, tra cui app mobili e account di social media.
 
  • Arricchimento dei dati di contatto: informazioni per arricchire gli elenchi di contatti, inclusi numeri di telefono, indirizzi e-mail, affiliazioni commerciali e profili sui social media.
 
  • Arricchimento demografico: caratteristiche come età, sesso, etnia, stato civile e reddito. Denominato anche arricchimento sociodemografico.
 
  • Arricchimento firmografico: dettagli su un'azienda, come il settore, le dimensioni, i ricavi e la posizione.
 
  • Arricchimento geografico: informazioni sulla posizione di un'entità, come indirizzo, codice postale, Paese e coordinate geografiche.
 
  • Arricchimento psicografico: dati sullo stile di vita, gli interessi, gli atteggiamenti e le convinzioni di una persona.
 
  • Arricchimento tecnologico: dati sui tipi di tecnologie utilizzate da un individuo o da un'organizzazione, tra cui applicazioni, strumenti, hardware, software e infrastrutture IT.

Passaggi chiave per l'arricchimento dei dati

Il processo di arricchimento dei dati può variare a seconda dell'organizzazione, ma vi sono alcuni passaggi comuni:

Pulizia dei dati

Pulire il set di dati destinato all'arricchimento mediante tecniche quali la standardizzazione (garantendo la coerenza dei formati) e la deduplicazione dei dati.

Individuare opportunità di arricchimento

Determinare quali tipi di informazioni sarebbe utile aggiungere al set di dati.

Approvvigionamento dei dati

Determinare le fonti per i nuovi dati, selezionando tra fonti interne ed esterne, se necessario.

Integrazione dei dati

Aggiungere i nuovi dati ai set di dati di destinazione utilizzando strumenti come software di integrazione dei dati.

Quali fonti di dati vengono utilizzate per l'arricchimento dei dati?

Le organizzazioni possono effettuare arricchimento dei dati utilizzando i propri dati interni, inclusi dati di prima parte (dati raccolti direttamente dai clienti) e dati provenienti da fonti terze.

Le aziende che cercano di utilizzare dati provenienti da fonti interne possono incontrare un ostacolo: dati in silo. Fortunatamente, possono rimediare al problema determinato da questi silo utilizzando l'integrazione dei dati, il processo di raccolta di dati da fonti eterogenee e la loro trasformazione in formati unificati e utilizzabili. Ad esempio, un'organizzazione può arricchire un set di dati dei clienti integrando dati provenienti dai sistemi di customer relationship management (CRM) e dai database di marketing.

Le aziende possono anche rivolgersi a fonti di dati esterne, ovvero fonti di dati pubbliche gratuite e fornitori di dati terzi. Le fonti di dati pubblici includono set di dati della pubblica amministrazione (ad esempio, dati del censimento, rapporti sull'occupazione) mentre fornitori di dati terzi raccolgono e vendono una gamma di dati, inclusi dati di contatto, demografici e firmografici. Nella selezione di dati di terze parti, le aziende devono collaborare solo con fonti e fornitori affidabili, in modo da avere la certezza che i dati siano accurati, aggiornati e conformi ai propri standard di qualità.

Qualsiasi dato acquisito e memorizzato nell'ambito di un processo di arricchimento dei dati deve essere gestito secondo le regole che disciplinano la privacy dei dati e la sicurezza dei dati, come il GDPR e l'Health Insurance Portability and Accountability Act (HIPAA). 

Strumenti di arricchimento dei dati

Con la crescita del processo decisionale basato sui dati e delle esigenze legate all'AI, la domanda di dati di alta qualità e, per estensione, di strumenti di arricchimento dei dati si è intensificata. Il mercato globale delle soluzioni di arricchimento dei dati raggiungerà quasi 4,6 miliardi di dollari entro il 2030, rispetto ai circa 2,4 miliardi di dollari del 2023.

Sebbene l'adozione dell'AI stia favorendo l'uso di soluzioni di arricchimento dati, è anche alla base di alcuni degli strumenti di arricchimento dati più avanzati. I tipi comuni di strumenti e soluzioni di arricchimento dei dati includono:

  • Soluzioni di integrazione dati: le soluzioni di integrazione dati supportano i processi di estrazione, trasformazione e caricamento (ETL) che includono l'arricchimento dei dati, la pulizia dei dati e altre modifiche ai dati. (È importante notare che le soluzioni di integrazione di dati possono anche operativizzare i dati dopo che sono stati arricchiti, caricando i dati arricchiti in magazzini e altre destinazioni per l'analisi.)
 
  • Lakehouse di dati aperti: le principali soluzioni di data lakehouse possono automatizzare l'ingestione e l'arricchimento dei dati non strutturati e unificarli con i dati strutturati.
 
 
  • Soluzioni di workflow di arricchimento agentico: gli agenti AI possono snellire ulteriormente i processi di arricchimento dei dati. In un modello di arricchimento agentico dei dati, un utente crea un foglio di calcolo, attivando un'application programming interface (API) per trovare e inserire dati pertinenti in tempo reale dal web. Le nuove informazioni vengono elaborate da un LLM, quindi aggiunte al foglio di calcolo.1

Casi d'uso per l'arricchimento dei dati

L'arricchimento dei dati ha applicazioni in diversi campi e settori.

Marketing e vendite

I team di marketing e di vendita utilizzano frequentemente l'arricchimento dei dati, in particolare l'arricchimento dei dati comportamentali, l'arricchimento demografico e l'arricchimento firmografico. Utilizzano dati arricchiti per creare profili dei clienti, supportare strategie di segmentazione, creare campagne di marketing su misura e offrire esperienze del cliente personalizzate.

Pianificazione urbana

Dati spaziali di alta qualità sono fondamentali per la pianificazione e lo sviluppo urbano. Una forma di arricchimento geografico nota come geocodifica deriva misurazioni di latitudine e longitudine dagli indirizzi stradali, aiutando gli urbanisti a individuare le località con maggiore precisione.

Settore sanitario e delle scienze biologiche

Dispositivi indossabili, app e altre tecnologie di monitoraggio dello stato di salute stanno fungendo da nuove fonti di informazioni per arricchire i set di dati di pazienti e ricerca. Tale arricchimento può aiutare i professionisti del settore medico a migliorare l'assistenza ai pazienti e aiutare i ricercatori a scoprire modelli e insight importanti.

Cybersecurity

I dati degli eventi di sicurezza possono essere arricchiti con informazioni come le posizioni fisiche (arricchimento geografico) e i dispositivi utilizzati (arricchimento tecnologico) per migliorare la valutazione dei rischi di cybersecurity e delle vulnerabilità.

Rendering 3D di una spirale di diverse icone allineate, come una fotocamera, una manopola del volume e una lavagnetta
Soluzioni correlate
IBM StreamSets

Crea e gestisci pipeline di dati intelligenti in streaming attraverso un'interfaccia grafica intuitiva, che facilita la perfetta integrazione dei dati in ambienti ibridi e multicloud.

Esplora StreamSets
IBM watsonx.data™

Watsonx.data ti consente di scalare analytics e AI con tutti i tuoi dati, ovunque risiedano, attraverso uno storage dei dati aperto, ibrido e governato.

Scopri watsonx.data
Servizi di consulenza per dati e analytics

Sblocca il valore dei dati enterprise con IBM Consulting, creando un'organizzazione basata su insight in grado di generare vantaggi aziendali.

Esplora i servizi di analytics
Fai il passo successivo

Progetta una strategia dati che elimini i silo, riduca la complessità e migliori la qualità dei dati per esperienze eccezionali di clienti e dipendenti.

  1. Esplora le soluzioni di gestione dei dati
  2. Scopri watsonx.data