Cosa sono i dati sintetici?

Autore

Staff Writer

IBM Think

Cosa sono i dati sintetici?

I dati sintetici sono dati artificiali progettati per imitare dati reali. Vengono generati tramite metodi statistici o utilizzando tecniche di intelligenza artificiale (AI) come il deep learning e l'AI generativa.

Nonostante siano generati artificialmente, i dati sintetici mantengono le proprietà statistiche sottostanti dei dati originali su cui si basano. Pertanto, i set di dati sintetici possono integrare o addirittura sostituire i set di dati reali.

I dati sintetici possono fungere da segnaposto per i dati di test e vengono utilizzati principalmente per addestrare i modelli di machine learning , fungendo da potenziale soluzione per la crescente necessità di dati di addestramento del mondo reale di alta qualità per i modelli AI. Tuttavia, i dati sintetici stanno prendendo piede anche in settori come la finanza e l'assistenza sanitaria, in cui l'offerta di dati è limitata, richiedono tempo per essere ottenuti o è difficile accedervi a causa di problemi di privacy dei dati e requisiti di sicurezza. Infatti, la società di ricerca Gartner prevede che entro il 2026, il 75% delle aziende utilizzerà l' AI generativa per creare dati sintetici sui clienti.¹

Le ultime tendenze in materia di AI, proposte da esperti

Ricevi insight selezionati sulle notizie più importanti e interessanti sull'AI. Iscriviti alla nostra newsletter settimanale Think. Leggi l'Informativa sulla privacy IBM.

Tipi di dati sintetici

I dati sintetici possono essere in forma multimediale, tabellare o testuale. I dati di testo sintetici possono essere utilizzati per l'elaborazione del linguaggio naturale (NLP), mentre i dati tabellari sintetici possono essere utilizzati per creare tabelle di database relazionali. I dati multimediali sintetici, come video, immagini o altri dati non strutturati, possono essere applicati per compiti di computer vision come la classificazione delle immagini, il riconoscimento delle immagini e il rilevamento degli oggetti.

I dati sintetici possono essere classificati anche in base al loro livello di sintesi:

Completamente sintetici
Parzialmente sintetici
Ibrido

Completamente sintetici

I dati completamente sintetici comportano la generazione di dati completamente nuovi che non includono informazioni del mondo reale. Stimano gli attributi, i modelli e le relazioni alla base dei dati reali per emularli il più fedelmente possibile.

Le organizzazioni finanziarie, ad esempio, potrebbero non avere esempi di transazioni sospette per addestrare efficacemente i modelli AI nel rilevamento delle frodi. Possono quindi generare dati completamente sintetici che rappresentano transazioni fraudolente per migliorare la formazione dei modelli.

Parzialmente sintetici

I dati parzialmente sintetici derivano da informazioni del mondo reale ma sostituiscono parti del set di dati originale, in genere quelle contenenti informazioni sensibili, con valori artificiali. Questa tecnica di tutela della privacy aiuta a proteggere i dati personali pur mantenendo le caratteristiche dei dati reali.

I dati parzialmente sintetici possono essere particolarmente utili nella ricerca clinica, ad esempio, dove i dati reali sono fondamentali per i risultati, ma la salvaguardia delle informazioni di identificazione personale (PII) e delle cartelle cliniche dei pazienti è altrettanto critica.

Ibridi

I dati sintetici ibridi combinano i set di dati reali con quelli completamente sintetici. Prendono i record dal set di dati originale e li accoppiano casualmente con i record delle loro controparti sintetiche. I dati sintetici ibridi possono essere utilizzati per analizzare e ricavare insight dai dati dei clienti, ad esempio, senza risalire ai dati sensibili di un cliente specifico.

Mixture of Experts | 12 dicembre, episodio 85

Decoding AI: Weekly News Roundup

Unisciti al nostro gruppo di livello mondiale di ingegneri, ricercatori, leader di prodotto e molti altri mentre si fanno strada nell'enorme quantità di informazioni sull'AI per darti le ultime notizie e gli ultimi insight sull'argomento.

Guarda tutti gli episodi di Mixture of Experts

Come vengono generati i dati sintetici?

Le organizzazioni possono scegliere di generare i propri dati sintetici. Possono anche utilizzare soluzioni come il Synthetic Data Vault, una libreria Python per la creazione di dati sintetici, o altri algoritmi, framework, pacchetti e strumenti open source. I set di dati predefiniti, come i set di dati sintetici IBM, sono un'altra opzione.

Ecco alcune tecniche comuni per la generazione di dati sintetici:

Metodi statistici
Reti generative avversarie (GAN)
Modelli di trasformatori
Autoencoder variazionali (VAE)
Modellazione basata su agenti

Metodi statistici

Queste metodologie sono adatte a dati con distribuzione, correlazioni e tratti ben noti e che possono quindi essere simulati attraverso modelli matematici.

Negli approcci basati sulla distribuzione, le funzioni statistiche possono essere utilizzate per definire la distribuzione dei dati. Quindi, campionando casualmente da questa distribuzione, è possibile generare nuovi punti dati.

Per le strategie basate sulla correlazione, è possibile applicare l'interpolazione o l'estrapolazione. Nei dati delle serie temporali, ad esempio, l'interpolazione lineare può creare nuovi punti dati tra quelli adiacenti, mentre l'estrapolazione lineare può generare punti dati oltre quelli esistenti.

Reti generative avversarie (GAN)

Le reti generative avversarie (GAN) implicano una coppia di reti neurali: un generatore che crea dati sintetici e un discriminatore che agisce come un avversario distinguendo i dati reali da quelli artificiali. Entrambe le reti vengono addestrate iterativamente, con il feedback del discriminatore che migliora l'output del generatore fino a quando il discriminatore non è più in grado di distinguere i dati artificiali da quelli reali. Le GAN vengono spesso utilizzate per la generazione di immagini.

Modelli trasformatori

I modelli di trasformatori, come i trasformatori generativi pre-addestrati (GPT) di OpenAI, fungono da base sia per i modelli linguistici di piccole dimensioni (SLM) che per i modelli linguistici di grandi dimensioni (LLM). I trasformatori elaborano i dati utilizzando encoder e decoder.

● Gli encoder trasformano le sequenze di input in rappresentazioni numeriche chiamate incorporamenti che acquisiscono la semantica e la posizione dei token nella sequenza di input. Un meccanismo di auto-attenzione consente ai trasformatori di "focalizzare l'attenzione" sui token più importanti nella sequenza di input, indipendentemente dalla loro posizione. I decoder utilizzano questo meccanismo di auto-attenzione e gli incorporamenti degli codificatori per generare la sequenza di output statisticamente più probabile.

I modelli trasformativi eccellono nella comprensione della struttura e dei pattern del linguaggio. In quanto tali, possono essere utilizzati per creare dati di testo artificiali o generare dati tabulari sintetici.

Autoencoder variazionali (VAE)

Gli autoencoder variazionali (VAE) sono modelli generativi che producono variazioni dei dati su cui sono addestrati. Un encoder comprime i dati di input in uno spazio di dimensioni inferiori, catturando le informazioni significative contenute nell'input. Un decoder ricostruisce quindi nuovi dati a partire da questa rappresentazione compressa. Come le GAN, i VAE possono essere utilizzati per generare immagini sintetiche.

Modellazione basata su agenti

Questa strategia di simulazione prevede la modellazione di un sistema complesso come un ambiente virtuale contenente singole entità, note anche come agenti. Gli agenti operano in base a un insieme predefinito di regole, interagendo con il loro ambiente e con altri agenti. La modellazione basata su agenti simula queste interazioni e comportamenti degli agenti per produrre dati sintetici.

Ad esempio, i modelli epidemiologici basati su agenti rappresentano gli individui di una popolazione come agenti. Dopo aver modellato le interazioni degli agenti, è possibile generare dati sintetici come il tasso di contatto e la probabilità di infezione. I dati possono quindi aiutare a prevedere la diffusione delle malattie infettive e ad analizzare gli effetti degli interventi.

Vantaggi dei dati sintetici

I dati sintetici sono una tecnologia in crescita che offre questi vantaggi alle imprese:

Personalizzazione
Efficienza
Maggiore privacy dei dati
Dati più ricchi

Personalizzazione

I team di data science possono personalizzare i dati sintetici per soddisfare le specifiche e le esigenze esatte di un'azienda. E poiché i data scientist hanno un maggiore controllo sui set di dati sintetici, gestirli e analizzarli diventa più facile.

Efficienza

La generazione di dati sintetici elimina il lungo processo di raccolta di dati reali, velocizzando la produzione e contribuendo ad accelerare i workflow. I dati sintetici vengono inoltre pre-etichettati, eliminando così la noiosa fase di etichettatura e annotazione manuali dei volumi di dati.

Maggiore privacy dei dati

I dati sintetici assomigliano ai dati del mondo reale, ma possono essere generati in modo tale che i dati personali non siano riconducibili a un particolare individuo. Questo agisce come una forma di anonimizzazione dei dati, aiutando a mantenere al sicuro le informazioni sensibili. I dati sintetici consentono inoltre alle aziende di evitare problemi di proprietà intellettuale e copyright, eliminando i web crawler che raccolgono informazioni dai siti web all'insaputa o senza il consenso degli utenti.

Dati più ricchi

I set di dati artificiali possono contribuire ad aumentare la diversità dei dati, creando o ampliando i dati per i gruppi sottorappresentati nell'addestramento dell'AI. I dati sintetici possono anche colmare le lacune quando i dati originali sono scarsi o non esistono dati reali. E includere casi limite o outlier come punti dati può ampliare l'ambito dei set di dati sintetici, riflettendo la variabilità e l'imprevedibilità del mondo reale.

Sfide dei dati sintetici

Nonostante i benefici dei dati sintetici, presentano anche alcuni aspetti negativi. Seguire le best practice per la generazione di dati sintetici può aiutare ad indirizzo questi inconvenienti e consentire alle aziende di massimizzare il valore dei dati artificiali.

Ecco alcune delle problematiche associate ai dati sintetici:

Distorsione
Collasso del modello
Compromesso tra accuratezza e privacy
Verifica

Distorsioni

I dati sintetici possono ancora mostrare le distorsioni che potrebbero essere presenti nei dati reali su cui si basano. L'utilizzo di diverse fonti di dati e l'aggiunta di più fonti di dati, anche provenienti da diverse regioni e gruppi demografici, può aiutare a mitigare le distorsioni.

Crollo dei modelli

Il collasso del modello si verifica quando un modello AI viene addestrato ripetutamente su dati generati dall'AI, provocando un calo delle prestazioni del modello. Un sano mix di set di dati di addestramento reali e artificiali può aiutare a prevenire questo problema.

Compromesso tra accuratezza e privacy

Durante il processo di generazione dei dati sintetici sorge una contrapposizione tra precisione e privacy. Dare priorità all'accuratezza potrebbe significare conservare più dati personali, mentre tenere la privacy al primo posto potrebbe comportare una riduzione della precisione. Trovare il giusto equilibrio per i casi d'uso di un'azienda è fondamentale.

Verifica

È necessario condurre ulteriori controlli e test per convalidare la qualità dei dati sintetici dopo la generazione. Questo introduce un ulteriore passaggio nel workflow, ma è fondamentale per assicurarsi che i dataset artificiali siano privi di errori, incongruenze o imprecisioni.

Casi d'uso dei dati sintetici

I dati sintetici sono versatili e possono essere generati per un'ampia gamma di applicazioni. Ecco alcuni settori in cui i dati sintetici possono essere un vantaggio:

Automotive
Trasformazione finanziaria
Sanità
Produzione industriale

Settore automobilistico

La modellazione basata su agenti può essere impiegata per generare dati artificiali relativi al flusso del traffico, contribuendo a migliorare i sistemi stradali e di trasporto. L'uso di dati sintetici può aiutare le case automobilistiche a evitare il costoso e dispendioso processo di ottenimento di dati reali sugli incidenti per i test di sicurezza dei veicoli. I produttori di veicoli autonomi possono utilizzare dati sintetici per addestrare le auto a guida autonoma ad affrontare diversi scenari.

Finanza

I dati finanziari sintetici possono essere implementati per valutare e gestire il rischio, modellare e fare forecasting e testare algoritmi di trading, tra le altre applicazioni. I dati sintetici di IBM, ad esempio, sono costituiti da dati simulati per facilitare il rilevamento delle frodi nelle carte di credito e nei sinistri assicurativi sulla casa e nelle transazioni bancarie simulate per soluzioni antiriciclaggio.

Assistenza sanitaria

I set di dati sintetici possono aiutare le aziende farmaceutiche ad accelerare lo sviluppo di farmaci. I ricercatori medici, nel frattempo, possono utilizzare dati parzialmente sintetici per studi clinici o dati completamente sintetici per creare cartelle cliniche artificiali o imaging medico per formulare trattamenti innovativi o preventivi. La modellazione basata su agenti può essere applicata anche in epidemiologia per studiare la trasmissione e gli interventi delle malattie.

Produzione industriale

Le aziende manifatturiere possono utilizzare dati sintetici per migliorare le funzionalità di ispezione visiva dei modelli di computer vision che esaminano i prodotti in tempo reale per individuare difetti e deviazioni dagli standard. I set di dati artificiali possono anche migliorare la manutenzione predittiva, con dati sintetici dei sensori che aiutano i modelli di machine learning ad anticipare meglio i guasti delle attrezzature e a consigliare misure appropriate e tempestive.

Data science e MLOps per i leader dei dati

Unisci le forze con altri leader per promuovere i tre pilastri essenziali di MLOps e un'AI affidabile: fiducia nei dati, fiducia nei modelli e fiducia nei processi.

Risorse

Migliora le tue competenze nel ML

Impara i concetti fondamentali e sviluppa le tue competenze con laboratori pratici, corsi, progetti guidati, prove e molto altro.

Sblocca la potenza dell'AI generativa + ML

Scopri come incorporare in tutta sicurezza l'AI generativa e il machine learning nella tua azienda.

Sfruttare al meglio l'AI: aumentare il ROI con la gen AI

Vuoi ottenere un ritorno migliore sui tuoi investimenti nell'AI? Scopri come lo scaling della GenAI in settori chiave può favorire il cambiamento, aiutando le tue menti migliori a creare e fornire nuove soluzioni innovative.

Come scegliere il giusto foundation model

Scopri come scegliere il foundation model di AI più adatto al tuo caso d'uso.

Esplora IBM Granite

IBM Granite è la nostra famiglia di modelli AI aperti, efficienti e affidabili, su misura per le aziende e ottimizzati per scalare le applicazioni di AI. Esplora le opzioni di linguaggio, codice, serie temporali e guardrail.

Come prosperare in questa nuova era dell'AI in tutta fiducia e sicurezza

Approfondisci i 3 elementi critici di una solida strategia AI: creare un vantaggio competitivo, scalare l'AI attraverso l'azienda e promuovere un'AI affidabile.

Report AI in Action

Abbiamo intervistato 2.000 organizzazioni in merito alle loro iniziative di AI per scoprire cosa funziona, cosa non funziona e come giocare d'anticipo.

Soluzioni correlate

IBM watsonx.ai

Addestra, convalida, adatta e implementa le funzionalità di AI generativa, foundation model e machine learning con IBM watsonx.ai, uno studio aziendale di nuova generazione per builder AI. Crea applicazioni AI in tempi ridotti e con una minima quantità di dati.

Scopri watsonx.ai

Soluzioni di intelligenza artificiale

Metti l'AI al servizio della tua azienda grazie all'esperienza leader di settore e alla gamma di soluzioni di IBM nel campo dell'AI.

Esplora le soluzioni AI

Consulenza e servizi sull'AI

Reinventa i flussi di lavoro e le operazioni critiche aggiungendo l'AI per massimizzare le esperienze, il processo decisionale in tempo reale e il valore di business.

Esplora i servizi AI

Fai il passo successivo

Ottieni l'accesso completo a funzionalità che coprono l'intero ciclo di vita dello sviluppo dell'AI. Crea soluzioni AI all'avanguardia con interfacce intuitive, workflow e accesso alle API e agli SDK standard di settore.

Note a piè di pagina

¹ 3 Bold and Actionable Predictions for the Future of GenAI, Gartner, 12 aprile 2024

Cosa sono i dati sintetici?

Cosa sono i dati sintetici?

Le ultime tendenze in materia di AI, proposte da esperti

Grazie per aver effettuato l'iscrizione!

Tipi di dati sintetici

Completamente sintetici

Parzialmente sintetici

Ibridi

Decoding AI: Weekly News Roundup

Come vengono generati i dati sintetici?

Metodi statistici

Reti generative avversarie (GAN)

Modelli trasformatori

Autoencoder variazionali (VAE)

Modellazione basata su agenti

Vantaggi dei dati sintetici

Personalizzazione

Efficienza

Maggiore privacy dei dati

Dati più ricchi

Sfide dei dati sintetici

Distorsioni

Crollo dei modelli

Compromesso tra accuratezza e privacy

Verifica

Casi d'uso dei dati sintetici

Settore automobilistico

Finanza

Assistenza sanitaria

Produzione industriale

Risorse

Note a piè di pagina