I dati sintetici sono dati artificiali progettati per imitare dati reali. Vengono generati tramite metodi statistici o utilizzando tecniche di intelligenza artificiale (AI) come il deep learning e l'AI generativa.
Nonostante siano generati artificialmente, i dati sintetici mantengono le proprietà statistiche sottostanti dei dati originali su cui si basano. Pertanto, i set di dati sintetici possono integrare o addirittura sostituire i set di dati reali.
I dati sintetici possono fungere da segnaposto per i dati di test e vengono utilizzati principalmente per addestrare i modelli di machine learning , fungendo da potenziale soluzione per la crescente necessità di dati di addestramento del mondo reale di alta qualità per i modelli AI. Tuttavia, i dati sintetici stanno prendendo piede anche in settori come la finanza e l'assistenza sanitaria, in cui l'offerta di dati è limitata, richiedono tempo per essere ottenuti o è difficile accedervi a causa di problemi di privacy dei dati e requisiti di sicurezza. Infatti, la società di ricerca Gartner prevede che entro il 2026, il 75% delle aziende utilizzerà l' AI generativa per creare dati sintetici sui clienti.1
I dati sintetici possono essere in forma multimediale, tabellare o testuale. I dati di testo sintetici possono essere utilizzati per l'elaborazione del linguaggio naturale (NLP), mentre i dati tabellari sintetici possono essere utilizzati per creare tabelle di database relazionali. I dati multimediali sintetici, come video, immagini o altri dati non strutturati, possono essere applicati per compiti di computer vision come la classificazione delle immagini, il riconoscimento delle immagini e il rilevamento degli oggetti.
I dati sintetici possono essere classificati anche in base al loro livello di sintesi:
I dati completamente sintetici comportano la generazione di dati completamente nuovi che non includono informazioni del mondo reale. Stimano gli attributi, i modelli e le relazioni alla base dei dati reali per emularli il più fedelmente possibile.
Le organizzazioni finanziarie, ad esempio, potrebbero non avere esempi di transazioni sospette per addestrare efficacemente i modelli AI nel rilevamento delle frodi. Possono quindi generare dati completamente sintetici che rappresentano transazioni fraudolente per migliorare l'addestramento del modello, che è simile all'approccio della società di servizi finanziari J.P. Morgan.
I dati parzialmente sintetici derivano da informazioni del mondo reale ma sostituiscono parti del set di dati originale, in genere quelle contenenti informazioni sensibili, con valori artificiali. Questa tecnica di tutela della privacy aiuta a proteggere i dati personali pur mantenendo le caratteristiche dei dati reali.
I dati parzialmente sintetici possono essere particolarmente utili nella ricerca clinica, ad esempio, dove i dati reali sono fondamentali per i risultati, ma la salvaguardia delle informazioni di identificazione personale (PII) e delle cartelle cliniche dei pazienti è altrettanto critica.
I dati sintetici ibridi combinano i set di dati reali con quelli completamente sintetici. Prendono i record dal set di dati originale e li accoppiano casualmente con i record delle loro controparti sintetiche. I dati sintetici ibridi possono essere utilizzati per analizzare e ricavare insight dai dati dei clienti, ad esempio, senza risalire ai dati sensibili di un cliente specifico.
Le organizzazioni possono scegliere di generare i propri dati sintetici. Possono anche utilizzare soluzioni come il Synthetic Data Vault, una libreria Python per la creazione di dati sintetici, o altri algoritmi, framework, pacchetti e strumenti open source. I set di dati predefiniti, come i set di dati sintetici IBM, sono un'altra opzione.
Ecco alcune tecniche comuni per la generazione di dati sintetici:
Queste metodologie sono adatte a dati con distribuzione, correlazioni e tratti ben noti e che possono quindi essere simulati attraverso modelli matematici.
Negli approcci basati sulla distribuzione, le funzioni statistiche possono essere utilizzate per definire la distribuzione dei dati. Quindi, campionando casualmente da questa distribuzione, è possibile generare nuovi punti dati.
Per le strategie basate sulla correlazione, è possibile applicare l'interpolazione o l'estrapolazione. Nei dati delle serie temporali, ad esempio, l'interpolazione lineare può creare nuovi punti dati tra quelli adiacenti, mentre l'estrapolazione lineare può generare punti dati oltre quelli esistenti.
Le reti generative avversarie (GAN) implicano una coppia di reti neurali: un generatore che crea dati sintetici e un discriminatore che agisce come un avversario distinguendo i dati reali da quelli artificiali. Entrambe le reti vengono addestrate iterativamente, con il feedback del discriminatore che migliora l'output del generatore fino a quando il discriminatore non è più in grado di distinguere i dati artificiali da quelli reali. Le GAN vengono spesso utilizzate per la generazione di immagini.
I modelli di trasformatori, come i trasformatori generativi pre-addestrati (GPT) di OpenAI, fungono da base sia per i modelli linguistici di piccole dimensioni (SLM) che per i modelli linguistici di grandi dimensioni (LLM). I trasformatori elaborano i dati utilizzando encoder e decoder.
● Gli encoder trasformano le sequenze di input in rappresentazioni numeriche chiamate incorporamenti che acquisiscono la semantica e la posizione dei token nella sequenza di input. Un meccanismo di auto-attenzione consente ai trasformatori di "focalizzare l'attenzione" sui token più importanti nella sequenza di input, indipendentemente dalla loro posizione. I decoder utilizzano questo meccanismo di auto-attenzione e gli incorporamenti degli codificatori per generare la sequenza di output statisticamente più probabile.
I modelli trasformativi eccellono nella comprensione della struttura e dei pattern del linguaggio. In quanto tali, possono essere utilizzati per creare dati di testo artificiali o generare dati tabulari sintetici.
Gli autoencoder variazionali (VAE) sono modelli generativi che producono variazioni dei dati su cui sono addestrati. Un encoder comprime i dati di input in uno spazio di dimensioni inferiori, catturando le informazioni significative contenute nell'input. Un decoder ricostruisce quindi nuovi dati a partire da questa rappresentazione compressa. Come le GAN, i VAE possono essere utilizzati per generare immagini sintetiche.
Questa strategia di simulazione prevede la modellazione di un sistema complesso come un ambiente virtuale contenente singole entità, note anche come agenti. Gli agenti operano in base a un insieme predefinito di regole, interagendo con il loro ambiente e con altri agenti. La modellazione basata su agenti simula queste interazioni e comportamenti degli agenti per produrre dati sintetici.
Ad esempio, i modelli epidemiologici basati su agenti rappresentano gli individui di una popolazione come agenti. Dopo aver modellato le interazioni degli agenti, è possibile generare dati sintetici come il tasso di contatto e la probabilità di infezione. I dati possono quindi aiutare a prevedere la diffusione delle malattie infettive e ad analizzare gli effetti degli interventi.
I dati sintetici sono una tecnologia in crescita che offre questi vantaggi alle imprese:
I team di data science possono personalizzare i dati sintetici per soddisfare le specifiche e le esigenze esatte di un'azienda. E poiché i data scientist hanno un maggiore controllo sui set di dati sintetici, gestirli e analizzarli diventa più facile.
La generazione di dati sintetici elimina il lungo processo di raccolta di dati reali, velocizzando la produzione e contribuendo ad accelerare i workflow. I dati sintetici vengono inoltre pre-etichettati, eliminando così la noiosa fase di etichettatura e annotazione manuali dei volumi di dati.
I dati sintetici assomigliano ai dati del mondo reale, ma possono essere generati in modo tale che i dati personali non siano riconducibili a un particolare individuo. Questo agisce come una forma di anonimizzazione dei dati, aiutando a mantenere al sicuro le informazioni sensibili. I dati sintetici consentono inoltre alle aziende di evitare problemi di proprietà intellettuale e copyright, eliminando i web crawler che raccolgono informazioni dai siti web all'insaputa o senza il consenso degli utenti.
I set di dati artificiali possono contribuire ad aumentare la diversità dei dati, creando o ampliando i dati per i gruppi sottorappresentati nell'addestramento dell'AI. I dati sintetici possono anche colmare le lacune quando i dati originali sono scarsi o non esistono dati reali. E includere casi limite o outlier come punti dati può ampliare l'ambito dei set di dati sintetici, riflettendo la variabilità e l'imprevedibilità del mondo reale.
Nonostante i benefici dei dati sintetici, presentano anche alcuni aspetti negativi. Seguire le best practice per la generazione di dati sintetici può aiutare ad indirizzo questi inconvenienti e consentire alle aziende di massimizzare il valore dei dati artificiali.
Ecco alcune delle problematiche associate ai dati sintetici:
I dati sintetici possono ancora mostrare le distorsioni che potrebbero essere presenti nei dati reali su cui si basano. L'utilizzo di diverse fonti di dati e l'aggiunta di più fonti di dati, anche provenienti da diverse regioni e gruppi demografici, può aiutare a mitigare le distorsioni.
Il collasso del modello si verifica quando un modello AI viene addestrato ripetutamente su dati generati dall'AI, provocando un calo delle prestazioni del modello. Un sano mix di set di dati di addestramento reali e artificiali può aiutare a prevenire questo problema.
Durante il processo di generazione dei dati sintetici sorge una contrapposizione tra precisione e privacy. Dare priorità all'accuratezza potrebbe significare conservare più dati personali, mentre tenere la privacy al primo posto potrebbe comportare una riduzione della precisione. Trovare il giusto equilibrio per i casi d'uso di un'azienda è fondamentale.
È necessario condurre ulteriori controlli e test per convalidare la qualità dei dati sintetici dopo la generazione. Questo introduce un ulteriore passaggio nel workflow, ma è fondamentale per assicurarsi che i dataset artificiali siano privi di errori, incongruenze o imprecisioni.
I dati sintetici sono versatili e possono essere generati per un'ampia gamma di applicazioni. Ecco alcuni settori in cui i dati sintetici possono essere un vantaggio:
La modellazione basata su agenti può essere impiegata per generare dati artificiali relativi al flusso del traffico, contribuendo a migliorare i sistemi stradali e di trasporto. L'uso di dati sintetici può aiutare le case automobilistiche a evitare il costoso e dispendioso processo di ottenimento di dati reali sugli incidenti per i test di sicurezza dei veicoli. I produttori di veicoli autonomi possono utilizzare dati sintetici per addestrare le auto a guida autonoma ad affrontare diversi scenari.
I dati finanziari sintetici possono essere implementati per valutare e gestire il rischio, modellare e fare forecasting e testare algoritmi di trading, tra le altre applicazioni. I dati sintetici di IBM, ad esempio, sono costituiti da dati simulati per facilitare il rilevamento delle frodi nelle carte di credito e nei sinistri assicurativi sulla casa e nelle transazioni bancarie simulate per soluzioni antiriciclaggio.
I set di dati sintetici possono aiutare le aziende farmaceutiche ad accelerare lo sviluppo di farmaci. I ricercatori medici, nel frattempo, possono utilizzare dati parzialmente sintetici per studi clinici o dati completamente sintetici per creare cartelle cliniche artificiali o imaging medico per formulare trattamenti innovativi o preventivi. La modellazione basata su agenti può essere applicata anche in epidemiologia per studiare la trasmissione e gli interventi delle malattie.
Le aziende manifatturiere possono utilizzare dati sintetici per migliorare le funzionalità di ispezione visiva dei modelli di computer vision che esaminano i prodotti in tempo reale per individuare difetti e deviazioni dagli standard. I set di dati artificiali possono anche migliorare la manutenzione predittiva, con dati sintetici dei sensori che aiutano i modelli di machine learning ad anticipare meglio i guasti delle attrezzature e a consigliare misure appropriate e tempestive.
1 3 Bold and Actionable Predictions for the Future of GenAI, Gartner, 12 aprile 2024
Ottieni insight unici sul landscape in evoluzione delle soluzioni ABI, in particolare sui risultati, le ipotesi e le raccomandazioni chiave per i responsabili dei dati e dell’analytics.
Semplifica l’accesso ai dati e automatizza la governance dei dati. Scopri la potenza dell’integrazione di una strategia di data lakehouse nella tua architettura di dati, con ottimizzazione dei costi dei workload e scalabilità dell’AI e dell’analytics, con tutti i tuoi dati, ovunque.
Esplora la guida per i leader dei dati che desiderano creare un’organizzazione basata sui dati e ottenere un vantaggio aziendale.
Scopri come un approccio di data lakehouse aperto può fornire dati affidabili e un’esecuzione più rapida dell’analytics e dei progetti di AI.
1 3 Bold and Actionable Predictions for the Future of GenAI, Gartner, 12 aprile 2024
IBM web domains
ibm.com, ibm.org, ibm-zcouncil.com, insights-on-business.com, jazz.net, mobilebusinessinsights.com, promontory.com, proveit.com, ptech.org, s81c.com, securityintelligence.com, skillsbuild.org, softlayer.com, storagecommunity.org, think-exchange.com, thoughtsoncloud.com, alphaevents.webcasts.com, ibm-cloud.github.io, ibmbigdatahub.com, bluemix.net, mybluemix.net, ibm.net, ibmcloud.com, galasa.dev, blueworkslive.com, swiss-quantum.ch, blueworkslive.com, cloudant.com, ibm.ie, ibm.fr, ibm.com.br, ibm.co, ibm.ca, community.watsonanalytics.com, datapower.com, skills.yourlearning.ibm.com, bluewolf.com, carbondesignsystem.com, openliberty.io