Cosa si intende per data curation?

Un uomo digita su un laptop davanti a due grandi monitor per computer.

Autori

Alice Gomstyn

Staff Writer

IBM Think

Alexandra Jonker

Staff Editor

IBM Think

Cos'è la data curation?

La data curation è il processo di creazione e gestione dei set di dati affinché le persone possano trovare, accedere, utilizzare e riutilizzare i dati in base alle necessità. Si tratta di aggiungere asset di dati (collezioni di dati di valore) a un repository centrale per consolidare i metadati degli asset, arricchirli con informazioni aggiuntive e analizzare e migliorare la qualità dei dati nel corso del loro ciclo di vita.
 

Le organizzazioni generano attualmente enormi quantità di dati, pari a oltre 400 milioni di terabyte al giorno. Molti di questi dati possono rivelarsi estremamente preziosi, ma solo se le aziende sono in grado di comprenderli e utilizzarli con successo.

Nell'ambito della gestione dei dati, la data curation aiuta le aziende a ricavare insight importanti dai dati aziendali e a utilizzarli per il processo decisionale. Dati ben curati sono inoltre considerati d'importanza critica per migliorare le prestazioni delle iniziative di intelligenza artificiale (AI) e contribuire a garantire la conformità normativa a livello di gestione dei dati e requisiti di privacy dei dati.

Al di fuori del contesto aziendale, la data curation è un processo chiave nella ricerca e negli ambienti accademici. Per esempio, la data curation nel campo della ricerca può migliorare la condivisione e l'archiviazione dei dati tra sviluppatori, scienziati, operatori sanitari e altri ricercatori.

Il processo di data curation può essere manuale o eseguito con l'aiuto dell'automazione, utilizzando un software progettato per eseguire attività di data curation su larga scala.

Design 3D di palline che rotolano su una pista

Le ultime notizie e insight sull'AI


Scopri notizie e insight selezionati da esperti in materia di AI, cloud e molto altro nella newsletter settimanale Think. 

Perché la data curation è importante?

Di fatto, la data curation consente alle aziende di utilizzare i propri dati per trovare del valore. Le aiuta anche a gestire la crescita esponenziale dei dati, a sostenere iniziative di AI responsabile, a mantenere la conformità normativa e a garantire l'usabilità dei dati.

Aumento dei volumi di dati

La crescita esponenziale dei volumi di dati ha fornito alle organizzazioni, come mai prima d'ora, più dati pertinenti per l'azienda; alcuni set di dati raccolgono terabyte o petabyte di informazioni provenienti da una varietà di fonti di dati. A livello macro, si stima che nel 2024 siano stati generati 149 zettabyte di dati a livello globale e si prevede che tale cifra sarà più che raddoppiata entro il 2028.

Effettuare il controllo della qualità e la data discovery su set di dati così grandi e complessi, noti come "big data", non è un'impresa semplice. Tuttavia, si tratta di un aspetto critico, poiché i dati aziendali si stanno rivelando sempre più una fonte di insight preziosi. L'annotazione e l'organizzazione dei dati per un processo decisionale basato sui dati può fornire un vantaggio competitivo ed elevare le prestazioni delle aziende di tutti i settori.

Intelligenza artificiale efficace

Affrontare le sfide relative alla qualità dei dati e all'usabilità è diventato particolarmente urgente, poiché le organizzazioni adottano le funzionalità basate sull'AI come imperativo strategico. I sistemi AI hanno il potenziale per trasformare il business ed elevare la produttività, ma le loro esigenze in materia di dati sono notevoli: richiedono dati di alta qualità per funzionare in modo efficace. 

Dati di bassa qualità possono comportare scarse prestazioni del modello, con il conseguente scenario "garbage in, garbage out". I set di dati con problemi di qualità dei dati come missing value, outlier o inconsistenze possono distorcere l'analisi e portare a output errati.

Conformità normativa

La data curation aiuta anche a garantire la conformità normativa, in particolare nel contesto dell'AI. Molti settori, in particolare quelli che gestiscono informazioni sensibili come l'assistenza sanitaria o i servizi finanziari, devono affrontare un panorama in evoluzione di normative che stabiliscono il modo in cui raccolgono, elaborano, memorizzano e proteggono i dati. 

Pratiche efficaci di data curation aiutano a garantire che i dati vengano raccolti, memorizzati, elaborati ed etichettati in conformità con queste regole. L'EU AI Act, ad esempio, richiede che i sistemi AI ad alto rischio adottino rigorose pratiche di governance dei dati per garantire che i dati di addestramento, convalida e test soddisfino specifici criteri di qualità. Ad esempio, è essenziale una governance efficace del processo di raccolta dei dati.

Riutilizzo dei dati

La data curation è anche fondamentale per contribuire a garantire la possibilità di riutilizzare i set di dati di alta qualità. Per esempio, attraverso la data curation, le organizzazioni possono creare e mantenere un glossario centralizzato e personalizzato per l'azienda. Grazie a questa singola fonte affidabile, gli utenti dell'organizzazione possono comprendere e utilizzare meglio i dati. Quando i dati sono accessibili e universalmente utilizzabili, è più probabile che gli utenti vi si rivolgano ripetutamente per ottenere insight.

Mixture of Experts | 12 dicembre, episodio 85

Decoding AI: Weekly News Roundup

Unisciti al nostro gruppo di livello mondiale di ingegneri, ricercatori, leader di prodotto e molti altri mentre si fanno strada nell'enorme quantità di informazioni sull'AI per darti le ultime notizie e gli ultimi insight sull'argomento.

Quali sono i passaggi chiave della data curation?

Sebbene le pratiche di data curation possano variare a seconda dell'organizzazione, i ricercatori hanno identificato attività di data curation comuni tra data curator, data engineer, data scientist, data steward e altri professionisti della gestione dei dati durante i cicli di vita dei big data.1 Eccone alcune:

  • Pianificazione
  • Descrizione
  • Preparazione
  • Garanzia
  • Storage e conservazione
  • Scoperta e accesso

Pianificazione

Definizione di strategie e criteri per la raccolta, la produzione e l'acquisizione dei dati. L'inserimento dei dati include l'acquisizione di dati da varie fonti, tra cui database strutturati e application programming interface (API), nonché database per dati non strutturati. La fase di pianificazione della data curation può prendere in considerazione anche la governance dei dati, che aiuta a garantirne l'integrità e la sicurezza.

Descrizione

Creazione, raccolta, conservazione e gestione dei metadati, ovvero informazioni che descrivono un dato o un set di dati, come autore, data di creazione o dimensione del file. Una gestione efficace dei metadati può contribuire a rendere i dati più reperibili, consentire il tracciamento del data lineage e migliorare l'interoperabilità del sistema.

Preparazione

Utilizzo di metodi di preparazione dei dati. Ad esempio, la pulizia dei dati è il processo di identificazione e correzione di errori e incongruenze nei set di dati non elaborati. La trasformazione dei dati è la conversione di dati non elaborati puliti in un formato utilizzabile per l'analisi. Per finire, l'anonimizzazione dei dati sensibili aiuta a garantire la privacy dei dati e la conformità normativa.

Garanzia

Valutazione e convalida della qualità dei dati, tracciamento della provenienza dei dati e protezione dei dati sensibili. La qualità dei dati può essere categorizzata attraverso metriche quali precisione, completezza e coerenza. Nel frattempo, il monitoraggio della provenienza dei dati può aiutare a confermare l'affidabilità dei dati e assicurare che siano state ottenute le necessarie autorizzazioni per l'utilizzo dai provider dei dati.

Storage e conservazione

Trasferimento di dati da unità di elaborazione dati a repository di dati e sistemi di data storage, come data lake e data warehouse. Le considerazioni sulla conservazione dei dati possono includere la memorizzazione di diverse varietà di dati e la sicurezza dei dati.

Scoperta e accesso

Creazione di dati ricercabili e accessibili sviluppando tassonomie, standardizzando i metadati e stabilendo metodi di recupero dei dati.

Soluzioni software per la data curation

I processi manuali possono rendere la data curation un'attività lenta, noiosa e inefficiente. Tuttavia, le giuste soluzioni di governance e gestione dei dati possono aiutare le aziende ad automatizzare i workflow della data curation e ottimizzare le pipeline dei dati.

Le soluzioni di maggiore successo potrebbero includere caratteristiche quali:

Cataloghi di dati governati

Un catalogo di dati è un inventario dettagliato di tutti gli asset di un'organizzazione, progettato per aiutare i professionisti dei dati a trovare rapidamente i dati di cui necessitano. I cataloghi di dati governati utilizzano funzioni di classificazione e mascheramento dei dati per consentire una gestione sicura dei dati.

Glossari curati

I glossari dei vocabolari aziendali specifici del settore possono migliorare la classificazione dei dati, la conformità normativa e altre attività di governance.

Arricchimento dei metadati basato su AI

I modelli linguistici di grandi dimensioni (LLM) possono essere implementati arricchire i metadati, aggiungendo più contesto, etichette o descrizioni a grandi volumi di asset contemporaneamente.

Ricerca intelligente

La ricerca intelligente può migliorare l'accessibilità dei dati ed eliminare i silos. Basata su AI, consente agli utenti di estrarre informazioni ovunque (all'interno o all'esterno dell'azienda) indipendentemente dal formato, aiutandoli a trovare i dati di cui necessitano in modo rapido e semplice.

Casi d'uso per la data curation

La data curation svolge un ruolo importante in vari campi e discipline. I casi d'uso includono:

Progressi nella ricerca medica

I dati curati possono favorire progressi e scoperte nel trattamento delle malattie. Ad esempio, una clinica sanitaria con sede negli Stati Uniti ha recentemente annunciato una partnership con una piattaforma di dati di AI per eseguire la data curation di set di dati specifici sulla sclerosi multipla (SM), una malattia neurologica cronica.

L'obiettivo del progetto, che includerà i dati raccolti da oltre 3.000 pazienti, è quello di sviluppare insight basati sui dati sui sottotipi di malattia, sulla progressione della malattia e molto altro.2

Mantenere l'AI conforme nel settore assicurativo

La data curation può aiutare a garantire che le organizzazioni che adottano l'AI lo facciano in linea con le normative e i requisiti applicabili.

Ad esempio, il settore assicurativo ha ampiamente adottato tecnologie di AI e machine learning per modernizzarsi. Tuttavia, il panorama che circonda l'adozione dell'AI nel settore è complesso e dinamico. Le leggi pertinenti, come la direttiva Solvency II, includono politiche rigorose per gli assicuratori in merito a "la sufficienza e la qualità dei dati pertinenti per i processi di sottoscrizione e prenotazione". Queste normative richiedono anche che i dati utilizzati per testare e addestrare i sistemi AI siano completi, accurati e adeguati.3

Personalizzazione del consumer marketing

I rivenditori digitali e fisici spesso curano i dati dei clienti eseguendo processi di segmentazione e organizzando i clienti in gruppi, in base a caratteristiche, comportamenti e preferenze. Ciò consente ai rivenditori di essere più efficaci nel rivolgersi a diversi gruppi di clienti con promozioni, consigli sui prodotti e altre iniziative marketing personalizzate.

Ad esempio, un'analisi delle campagne di e-mail marketing nel retail ha stabilito che le e-mail segmentate venivano lette il 15% in più rispetto a quelle non segmentate.4

Soluzioni correlate
IBM Knowledge Catalog

Attiva i dati per l'AI e l'analytics con una catalogazione intelligente e una gestione delle policy. IBM Knowledge Catalog è un software di governance dei dati che fornisce un catalogo di dati per automatizzare la gestione della qualità dei dati, la protezione dei dati e il data discovery.

Scopri Knowledge Catalog
Soluzioni IBM Data Intelligence

Trasforma rapidamente i dati non elaborati in insight fruibili, unifica governance, qualità, lineage e condivisione dei dati e offri agli utenti dati affidabili e contestualizzati.

Scopri le soluzioni di data intelligence
Servizi di consulenza per dati e analytics

Sblocca il valore dei dati aziendali con IBM Consulting e crea un'organizzazione basata su insight in grado di generare vantaggi aziendali.

Esplora i servizi di analytics
Prossimi passi

Trova, comprendi, rendi accurati e accedi a dati, asset di conoscenza e relative correlazioni, ovunque risiedano, su cloud oppure on-premise. IBM Knowledge Catalog è un software di governance dei dati che offre un catalogo di dati per automatizzare la data discovery, la gestione della qualità dei dati e la loro protezione.

Esplora IBM Knowledge Catalog Esplora le soluzioni di data intelligence
Note a piè di pagina

Big data curation framework: Curation actions and challenges.” Journal of Information Science. 11 novembre 2022.

2 “Exclusive: Century Heath, Nira Medical partner to provide AI-curated EHR data.” MobiHealthNews. 14 gennaio 2025.

Consultation Paper: On Opinion on Artificial Intelligence Governance and Risk Management.” European Insurance and Occupational Pensions Authority (EIOPA). 10 febbraio 2025.

4Sophisticated email segmentation boosts open rates, engagement: report.” Retail Dive. Accesso: 28 Marzo 2025.