My IBM Accedi Iscriviti

Cosa sono i dati sintetici?

31 gennaio 2023

Cosa sono i dati sintetici?

I dati sintetici sono dati artificiali progettati per imitare dati reali. Vengono generati tramite metodi statistici o utilizzando tecniche di intelligenza artificiale (AI) come il deep learning e l'AI generativa.

Nonostante siano generati artificialmente, i dati sintetici mantengono le proprietà statistiche sottostanti dei dati originali su cui si basano. Pertanto, i set di dati sintetici possono integrare o addirittura sostituire i set di dati reali.

I dati sintetici possono fungere da segnaposto per i dati di test e vengono utilizzati principalmente per addestrare i modelli di machine learning , fungendo da potenziale soluzione per la crescente necessità di dati di addestramento del mondo reale di alta qualità per i modelli AI. Tuttavia, i dati sintetici stanno prendendo piede anche in settori come la finanza e l'assistenza sanitaria, in cui l'offerta di dati è limitata, richiedono tempo per essere ottenuti o è difficile accedervi a causa di problemi di privacy dei dati e requisiti di sicurezza. Infatti, la società di ricerca Gartner prevede che entro il 2026, il 75% delle aziende utilizzerà l' AI generativa per creare dati sintetici sui clienti.1

Tipi di dati sintetici

I dati sintetici possono essere in forma multimediale, tabellare o testuale. I dati di testo sintetici possono essere utilizzati per l'elaborazione del linguaggio naturale (NLP), mentre i dati tabellari sintetici possono essere utilizzati per creare tabelle di database relazionali. I dati multimediali sintetici, come video, immagini o altri dati non strutturati, possono essere applicati per compiti di computer vision come la classificazione delle immagini, il riconoscimento delle immagini e il rilevamento degli oggetti.

I dati sintetici possono essere classificati anche in base al loro livello di sintesi:

  • Completamente sintetici

  • Parzialmente sintetici

  • Ibrido

Completamente sintetici

I dati completamente sintetici comportano la generazione di dati completamente nuovi che non includono informazioni del mondo reale. Stimano gli attributi, i modelli e le relazioni alla base dei dati reali per emularli il più fedelmente possibile.

Le organizzazioni finanziarie, ad esempio, potrebbero non avere esempi di transazioni sospette per addestrare efficacemente i modelli AI nel rilevamento delle frodi. Possono quindi generare dati completamente sintetici che rappresentano transazioni fraudolente per migliorare l'addestramento del modello, che è simile all'approccio della società di servizi finanziari J.P. Morgan.

Parzialmente sintetici

I dati parzialmente sintetici derivano da informazioni del mondo reale ma sostituiscono parti del set di dati originale, in genere quelle contenenti informazioni sensibili, con valori artificiali. Questa tecnica di tutela della privacy aiuta a proteggere i dati personali pur mantenendo le caratteristiche dei dati reali.

I dati parzialmente sintetici possono essere particolarmente utili nella ricerca clinica, ad esempio, dove i dati reali sono fondamentali per i risultati, ma la salvaguardia delle informazioni di identificazione personale (PII) e delle cartelle cliniche dei pazienti è altrettanto critica.

Ibrido

I dati sintetici ibridi combinano i set di dati reali con quelli completamente sintetici. Prendono i record dal set di dati originale e li accoppiano casualmente con i record delle loro controparti sintetiche. I dati sintetici ibridi possono essere utilizzati per analizzare e ricavare insight dai dati dei clienti, ad esempio, senza risalire ai dati sensibili di un cliente specifico.

Come vengono generati i dati sintetici?

Le organizzazioni possono scegliere di generare i propri dati sintetici. Possono anche utilizzare soluzioni come il  Synthetic Data Vault, una libreria Python per la creazione di dati sintetici, o altri algoritmi, framework, pacchetti e strumenti open source. I set di dati predefiniti, come i set di dati sintetici IBM, sono un'altra opzione.

Ecco alcune tecniche comuni per la generazione di dati sintetici:

  • Metodi statistici

  • Reti generative avversarie (GAN)

  • Modelli di trasformatori

  • Autoencoder variazionali (VAE)

  • Modellazione basata su agenti

Metodi statistici

Queste metodologie sono adatte a dati con distribuzione, correlazioni e tratti ben noti e che possono quindi essere simulati attraverso modelli matematici.

Negli approcci basati sulla distribuzione, le funzioni statistiche possono essere utilizzate per definire la distribuzione dei dati. Quindi, campionando casualmente da questa distribuzione, è possibile generare nuovi punti dati.

Per le strategie basate sulla correlazione, è possibile applicare l'interpolazione o l'estrapolazione. Nei dati delle serie temporali, ad esempio, l'interpolazione lineare può creare nuovi punti dati tra quelli adiacenti, mentre l'estrapolazione lineare può generare punti dati oltre quelli esistenti.

Reti generative avversarie (GAN)

Le reti generative avversarie (GAN) implicano una coppia di reti neurali: un generatore che crea dati sintetici e un discriminatore che agisce come un avversario distinguendo i dati reali da quelli artificiali. Entrambe le reti vengono addestrate iterativamente, con il feedback del discriminatore che migliora l'output del generatore fino a quando il discriminatore non è più in grado di distinguere i dati artificiali da quelli reali. Le GAN vengono spesso utilizzate per la generazione di immagini.

modelli trasformatori

I modelli di trasformatori, come i trasformatori generativi pre-addestrati (GPT) di OpenAI, fungono da base sia per i modelli linguistici di piccole dimensioni (SLM) che per i modelli linguistici di grandi dimensioni (LLM). I trasformatori elaborano i dati utilizzando encoder e decoder.

● Gli encoder trasformano le sequenze di input in rappresentazioni numeriche chiamate incorporamenti che acquisiscono la semantica e la posizione dei token nella sequenza di input. Un meccanismo di auto-attenzione consente ai trasformatori di "focalizzare l'attenzione" sui token più importanti nella sequenza di input, indipendentemente dalla loro posizione. I decoder utilizzano questo meccanismo di auto-attenzione e gli incorporamenti degli codificatori per generare la sequenza di output statisticamente più probabile.

I modelli trasformativi eccellono nella comprensione della struttura e dei pattern del linguaggio. In quanto tali, possono essere utilizzati per creare dati di testo artificiali o generare dati tabulari sintetici.

Autoencoder variazionali (VAE)

Gli autoencoder variazionali (VAE) sono modelli generativi che producono variazioni dei dati su cui sono addestrati. Un encoder comprime i dati di input in uno spazio di dimensioni inferiori, catturando le informazioni significative contenute nell'input. Un decoder ricostruisce quindi nuovi dati a partire da questa rappresentazione compressa. Come le GAN, i VAE possono essere utilizzati per generare immagini sintetiche.

Modellazione basata su agenti

Questa strategia di simulazione prevede la modellazione di un sistema complesso come un ambiente virtuale contenente singole entità, note anche come agenti. Gli agenti operano in base a un insieme predefinito di regole, interagendo con il loro ambiente e con altri agenti. La modellazione basata su agenti simula queste interazioni e comportamenti degli agenti per produrre dati sintetici.

Ad esempio, i modelli epidemiologici basati su agenti rappresentano gli individui di una popolazione come agenti. Dopo aver modellato le interazioni degli agenti, è possibile generare dati sintetici come il tasso di contatto e la probabilità di infezione. I dati possono quindi aiutare a prevedere la diffusione delle malattie infettive e ad analizzare gli effetti degli interventi.

Design 3D di palline che rotolano su una pista

Le ultime notizie e insight sull'AI 


Scopri notizie e insight selezionati da esperti in materia di AI, cloud e molto altro nella newsletter settimanale Think. 

Vantaggi dei dati sintetici

I dati sintetici sono una tecnologia in crescita che offre questi vantaggi alle imprese:

  • Personalizzazione

  • Efficienza

  • Maggiore privacy dei dati

  • Dati più ricchi

Personalizzazione

I team di data science possono personalizzare i dati sintetici per soddisfare le specifiche e le esigenze esatte di un'azienda. E poiché i data scientist hanno un maggiore controllo sui set di dati sintetici, gestirli e analizzarli diventa più facile.

Efficienza

La generazione di dati sintetici elimina il lungo processo di raccolta di dati reali, velocizzando la produzione e contribuendo ad accelerare i workflow. I dati sintetici vengono inoltre pre-etichettati, eliminando così la noiosa fase di etichettatura e annotazione manuali dei volumi di dati.

Maggiore privacy dei dati

I dati sintetici assomigliano ai dati del mondo reale, ma possono essere generati in modo tale che i dati personali non siano riconducibili a un particolare individuo. Questo agisce come una forma di anonimizzazione dei dati, aiutando a mantenere al sicuro le informazioni sensibili. I dati sintetici consentono inoltre alle aziende di evitare problemi di proprietà intellettuale e copyright, eliminando i web crawler che raccolgono informazioni dai siti web all'insaputa o senza il consenso degli utenti.

Dati più ricchi

I set di dati artificiali possono contribuire ad aumentare la diversità dei dati, creando o ampliando i dati per i gruppi sottorappresentati nell'addestramento dell'AI. I dati sintetici possono anche colmare le lacune quando i dati originali sono scarsi o non esistono dati reali. E includere casi limite o outlier come punti dati può ampliare l'ambito dei set di dati sintetici, riflettendo la variabilità e l'imprevedibilità del mondo reale.

Sfide dei dati sintetici

Nonostante i benefici dei dati sintetici, presentano anche alcuni aspetti negativi. Seguire le best practice per la generazione di dati sintetici può aiutare ad indirizzo questi inconvenienti e consentire alle aziende di massimizzare il valore dei dati artificiali.

Ecco alcune delle problematiche associate ai dati sintetici:

  • Distorsione

  • Collasso del modello

  • Compromesso tra accuratezza e privacy

  • Verifica

Distorsione

I dati sintetici possono ancora mostrare le distorsioni che potrebbero essere presenti nei dati reali su cui si basano. L'utilizzo di diverse fonti di dati e l'aggiunta di più fonti di dati, anche provenienti da diverse regioni e gruppi demografici, può aiutare a mitigare le distorsioni.

Crollo del modello

Il collasso del modello si verifica quando un modello AI viene addestrato ripetutamente su dati generati dall'AI, provocando un calo delle prestazioni del modello. Un sano mix di set di dati di addestramento reali e artificiali può aiutare a prevenire questo problema.

Compromesso tra accuratezza e privacy

Durante il processo di generazione dei dati sintetici sorge una contrapposizione tra precisione e privacy. Dare priorità all'accuratezza potrebbe significare conservare più dati personali, mentre tenere la privacy al primo posto potrebbe comportare una riduzione della precisione. Trovare il giusto equilibrio per i casi d'uso di un'azienda è fondamentale.

Verifica

È necessario condurre ulteriori controlli e test per convalidare la qualità dei dati sintetici dopo la generazione. Questo introduce un ulteriore passaggio nel workflow, ma è fondamentale per assicurarsi che i dataset artificiali siano privi di errori, incongruenze o imprecisioni.

Casi d'uso dei dati sintetici

I dati sintetici sono versatili e possono essere generati per un'ampia gamma di applicazioni. Ecco alcuni settori in cui i dati sintetici possono essere un vantaggio:

  • Automotive

  • Trasformazione finanziaria

  • Sanità

  • Produzione industriale

Settore automobilistico

La modellazione basata su agenti può essere impiegata per generare dati artificiali relativi al flusso del traffico, contribuendo a migliorare i sistemi stradali e di trasporto. L'uso di dati sintetici può aiutare le case automobilistiche a evitare il costoso e dispendioso processo di ottenimento di dati reali sugli incidenti per i test di sicurezza dei veicoli. I produttori di veicoli autonomi possono utilizzare dati sintetici per addestrare le auto a guida autonoma ad affrontare diversi scenari.

Trasformazione finanziaria

I dati finanziari sintetici possono essere implementati per valutare e gestire il rischio, modellare e fare forecasting e testare algoritmi di trading, tra le altre applicazioni. I dati sintetici di IBM, ad esempio, sono costituiti da dati simulati per facilitare il rilevamento delle frodi nelle carte di credito e nei sinistri assicurativi sulla casa e nelle transazioni bancarie simulate per soluzioni antiriciclaggio.

Assistenza sanitaria

I set di dati sintetici possono aiutare le aziende farmaceutiche ad accelerare lo sviluppo di farmaci. I ricercatori medici, nel frattempo, possono utilizzare dati parzialmente sintetici per studi clinici o dati completamente sintetici per creare cartelle cliniche artificiali o imaging medico per formulare trattamenti innovativi o preventivi. La modellazione basata su agenti può essere applicata anche in epidemiologia per studiare la trasmissione e gli interventi delle malattie.

Produzione industriale

Le aziende manifatturiere possono utilizzare dati sintetici per migliorare le funzionalità di ispezione visiva dei modelli di computer vision che esaminano i prodotti in tempo reale per individuare difetti e deviazioni dagli standard. I set di dati artificiali possono anche migliorare la manutenzione predittiva, con dati sintetici dei sensori che aiutano i modelli di machine learning ad anticipare meglio i guasti delle attrezzature e a consigliare misure appropriate e tempestive.

Mixture of Experts | Podcast

Decoding AI: Weekly News Roundup

Unisciti al nostro gruppo di livello mondiale di ingegneri, ricercatori, leader di prodotto e molti altri mentre si fanno strada nell'enorme quantità di informazioni sull'AI per darti le ultime notizie e gli ultimi insight sull'argomento.

Note a piè di pagina
Soluzioni correlate

Soluzioni correlate

IBM watsonx.ai

Addestra, convalida, adatta e implementa le funzionalità di AI generativa, foundation model e machine learning con IBM watsonx.ai, uno studio aziendale di nuova generazione per builder AI. Crea applicazioni AI in tempi ridotti e una minima quantità di dati.

Scopri watsonx.ai
Soluzioni di intelligenza artificiale

Metti l'AI al servizio della tua azienda con l'esperienza leader di settore e il portfolio di soluzioni di IBM nel campo dell'AI.

Esplora le soluzioni AI
Consulenza e servizi sull'AI

Reinventa i flussi di lavoro e le operazioni critiche aggiungendo l'AI per massimizzare le esperienze, il processo decisionale in tempo reale e il valore di business.

Esplora i servizi AI
Fai il passo successivo

Ottieni l'accesso completo a funzionalità che coprono l'intero ciclo di vita dello sviluppo dell'AI. Crea soluzioni AI all'avanguardia con interfacce intuitive, workflow e accesso alle API e agli SDK standard di settore.

Esplora watsonx.ai Prenota una demo live
Note a piè di pagina