Le organizzazioni stanno raccogliendo più dati che mai, ma spesso quei dati mancano di contesto o significato. L'arricchimento dei dati aiuta a colmare queste lacune e a migliorare la comprensione dei punti dati in uso, siano essi sotto forma di dati non elaborati o di un set di dati strutturato. Aumentare i dati in questo modo può trasformare un set di dati da imperscrutabile a illuminante, consentendo alle organizzazioni di prendere decisioni più informate.
Spesso le pratiche di arricchimento dei dati sono parte integrante dei programmi di gestione dei dati e di gestione dei dati principale di un'azienda. Esistono diversi tipi di arricchimento dei dati che le organizzazioni perseguiscono, a seconda delle loro esigenze aziendali e delle fonti di dati, come l'arricchimento demografico, firmografico e geografico. Mentre i team di dati possono eseguire manualmente l'arricchimento dei dati, l'intelligenza artificiale (AI) e l'automazione aiutano a ottimizzare i processi di arricchimento dei dati.
I casi d'uso comuni per l'arricchimento dei dati si trovano all'interno della strategia di marketing, ma i processi di arricchimento dei dati possono anche avere un ruolo in ambiti come la cybersecurity, la sanità e la pianificazione urbana. L'arricchimento dei dati si è anche dimostrato sempre più prezioso per migliorare le prestazioni dei modelli di machine learning; fornisce contesto e dati più completi per previsioni più accurate.
Resta al passo con le tendenze più importanti e interessanti del settore relative ad AI, automazione, dati e oltre con la newsletter Think. Leggi l' Informativa sulla privacy IBM.
Immagina una tela dipinta solo parzialmente, la cui metà inferiore è coperta da pennellate blu che rappresentano un oceano, mentre al centro galleggiano alcune curiose macchie dorate. Una volta terminato il dipinto, però, è chiaro che quelle chiazze sono riflessi di luce e il dipinto completato raffigura il sole che tramonta sopra l'acqua.
Sebbene una tela incompiuta possa essere un'opera d'arte a sé stante, può anche essere qualcosa di più. Lo stesso vale per i set di dati che vengono migliorati tramite l'arricchimento dei dati.
Ad esempio, quando una tabella di dati dei clienti contenente solo nomi e numeri di telefono viene arricchita con indirizzi e-mail, diventa uno strumento più potente per la sensibilizzazione. Quando un set di dati di indirizzi stradali viene arricchito con coordinate geografiche, può fornire insight sull'uso del territorio di un quartiere.
Man mano che le aziende continuano a generare e raccogliere enormi quantità di dati grezzi e dati non strutturati, l'arricchimento dei dati ha assunto una nuova urgenza. Più dati grezzi e non strutturati significa più lacune e contesti mancanti all'interno dei set di dati. Tramite l'arricchimento dei dati, tuttavia, le organizzazioni possono mettere in relazione questi dati con altri punti di riferimento che conferiscono loro un significato più ampio, determinando un maggiore ritorno sull'investimento dei loro asset.
L'arricchimento dei dati offre una serie di diversi benefici, tra cui:
I termini "arricchimento dei dati" e "miglioramento dei dati" vengono spesso usati in modo intercambiabile, ma si tratta di processi distinti. Sebbene entrambi possano migliorare la qualità dei dati, il miglioramento dei dati si concentra maggiormente sul lavoro con i dati disponibili, mentre l'arricchimento dei dati si concentra sull'aggiunta di nuovi punti dati aggiuntivi a un set di dati.
Nel miglioramento dei dati, la pulizia e l'aggiornamento dei dati sono funzioni fondamentali. L'aggiunta di alcuni nuovi dati può essere necessaria allo scopo di risolvere il problema di valori mancanti in una colonna o di aggiornare informazioni obsolete, ma la quantità di nuovi dati introdotti non è adeguata all'arricchimento dei dati.
Tramite l'arricchimento dei dati, spesso vengono aggiunti nuovi campi ai set di dati esistenti. Come per il miglioramento dei dati, la pulizia dei dati fa parte del processo, ma in questo caso viene effettuata in preparazione all'aggiunta di nuove informazioni. (Vedi "Passaggi chiave per l'arricchimento dei dati" di seguito.)
Le organizzazioni utilizzano comunemente uno o più dei seguenti tipi di arricchimento dei dati per aggiungere informazioni ai set di dati già presenti:
Il processo di arricchimento dei dati può variare a seconda dell'organizzazione, ma vi sono alcuni passaggi comuni:
Pulire il set di dati destinato all'arricchimento mediante tecniche quali la standardizzazione (garantendo la coerenza dei formati) e la deduplicazione dei dati.
Determinare quali tipi di informazioni sarebbe utile aggiungere al set di dati.
Determinare le fonti per i nuovi dati, selezionando tra fonti interne ed esterne, se necessario.
Aggiungere i nuovi dati ai set di dati di destinazione utilizzando strumenti come software di integrazione dei dati.
Le organizzazioni possono effettuare arricchimento dei dati utilizzando i propri dati interni, inclusi dati di prima parte (dati raccolti direttamente dai clienti) e dati provenienti da fonti terze.
Le aziende che cercano di utilizzare dati provenienti da fonti interne possono incontrare un ostacolo: dati in silo. Fortunatamente, possono rimediare al problema determinato da questi silo utilizzando l'integrazione dei dati, il processo di raccolta di dati da fonti eterogenee e la loro trasformazione in formati unificati e utilizzabili. Ad esempio, un'organizzazione può arricchire un set di dati dei clienti integrando dati provenienti dai sistemi di customer relationship management (CRM) e dai database di marketing.
Le aziende possono anche rivolgersi a fonti di dati esterne, ovvero fonti di dati pubbliche gratuite e fornitori di dati terzi. Le fonti di dati pubblici includono set di dati della pubblica amministrazione (ad esempio, dati del censimento, rapporti sull'occupazione) mentre fornitori di dati terzi raccolgono e vendono una gamma di dati, inclusi dati di contatto, demografici e firmografici. Nella selezione di dati di terze parti, le aziende devono collaborare solo con fonti e fornitori affidabili, in modo da avere la certezza che i dati siano accurati, aggiornati e conformi ai propri standard di qualità.
Qualsiasi dato acquisito e memorizzato nell'ambito di un processo di arricchimento dei dati deve essere gestito secondo le regole che disciplinano la privacy dei dati e la sicurezza dei dati, come il GDPR e l'Health Insurance Portability and Accountability Act (HIPAA).
Con la crescita del processo decisionale basato sui dati e delle esigenze legate all'AI, la domanda di dati di alta qualità e, per estensione, di strumenti di arricchimento dei dati si è intensificata. Il mercato globale delle soluzioni di arricchimento dei dati raggiungerà quasi 4,6 miliardi di dollari entro il 2030, rispetto ai circa 2,4 miliardi di dollari del 2023.
Sebbene l'adozione dell'AI stia favorendo l'uso di soluzioni di arricchimento dati, è anche alla base di alcuni degli strumenti di arricchimento dati più avanzati. I tipi comuni di strumenti e soluzioni di arricchimento dei dati includono:
L'arricchimento dei dati ha applicazioni in diversi campi e settori.
I team di marketing e di vendita utilizzano frequentemente l'arricchimento dei dati, in particolare l'arricchimento dei dati comportamentali, l'arricchimento demografico e l'arricchimento firmografico. Utilizzano dati arricchiti per creare profili dei clienti, supportare strategie di segmentazione, creare campagne di marketing su misura e offrire esperienze del cliente personalizzate.
Dati spaziali di alta qualità sono fondamentali per la pianificazione e lo sviluppo urbano. Una forma di arricchimento geografico nota come geocodifica deriva misurazioni di latitudine e longitudine dagli indirizzi stradali, aiutando gli urbanisti a individuare le località con maggiore precisione.
Dispositivi indossabili, app e altre tecnologie di monitoraggio dello stato di salute stanno fungendo da nuove fonti di informazioni per arricchire i set di dati di pazienti e ricerca. Tale arricchimento può aiutare i professionisti del settore medico a migliorare l'assistenza ai pazienti e aiutare i ricercatori a scoprire modelli e insight importanti.
I dati degli eventi di sicurezza possono essere arricchiti con informazioni come le posizioni fisiche (arricchimento geografico) e i dispositivi utilizzati (arricchimento tecnologico) per migliorare la valutazione dei rischi di cybersecurity e delle vulnerabilità.
Crea e gestisci pipeline di dati intelligenti in streaming attraverso un'interfaccia grafica intuitiva, che facilita la perfetta integrazione dei dati in ambienti ibridi e multicloud.
Watsonx.data ti consente di scalare analytics e AI con tutti i tuoi dati, ovunque risiedano, attraverso uno storage dei dati aperto, ibrido e governato.
Sblocca il valore dei dati enterprise con IBM Consulting, creando un'organizzazione basata su insight in grado di generare vantaggi aziendali.
1 "Promuovere un arricchimento dei dati più intelligente: IBM e Tavily collaborano per soluzioni agentic AI " IBM.com. 9 giugno 2025.