Quando senti la parola "sintetico", potresti associarla a qualcosa di artificiale o industriale. Pensiamo ad esempio alle fibre sintetiche come il poliestere e il nylon, prodotte dall'uomo attraverso processi chimici.
Sebbene le fibre sintetiche siano più convenienti e più facili da produrre in serie, la loro qualità può competere con quella delle fibre naturali. Sono spesso progettate per imitare le loro controparti naturali e sono pensate per usi specifici, sia che si tratti dell'elastico elastan, dell'acrilico che trattiene il calore o del resistente poliestere.
Lo stesso vale per i dati sintetici. Questa informazione generata artificialmente può integrare o addirittura sostituire i dati reali del mondo durante l'addestramento o il test dei modelli di intelligenza artificiale (AI). Rispetto ai set di dati reali che possono essere costosi da ottenere, difficili da accedere, richiedere molto tempo per l'etichettatura e avere quantità limitate, i set di dati sintetici possono essere sintetizzati attraverso simulazioni al computer o modelli generativi. Questo li rende più economici da produrre on-demand in volumi quasi illimitati e personalizzati in base alle esigenze di un'organizzazione.
Nonostante i benefici, i dati sintetici presentano anche delle problematiche. Il processo di generazione può essere complesso, poiché i data scientist devono creare dati realistici pur mantenendo qualità e riservatezza.
Tuttavia, i dati sintetici sono una realtà destinata a non scomparire. La società di ricerca Gartner prevede che, entro il 2026, il 75% delle aziende utilizzerà l'AI generativa per creare dati sintetici sui clienti.1
Per aiutare le aziende a ottenere il massimo dai dati artificiali, ecco 8 best practice per la generazione di dati sintetici:
Scopri perché la tua azienda necessita di dati sintetici e i casi d'uso in cui potrebbero essere più utili dei dati reali. Nel settore sanitario, ad esempio, le cartelle cliniche dei pazienti o le immagini mediche possono essere generate artificialmente, senza contenere dati sensibili o informazioni di identificazione personale(PII). Ciò consente anche una condivisione dei dati sicura tra ricercatori e team di data science .
I dati sintetici possono essere utilizzati come dati di prova durante lo sviluppo del software, sostituendo i dati di produzione sensibili ma emulandone comunque le caratteristiche. Inoltre, consentono alle aziende di evitare problemi di copyright e proprietà intellettuale, generando dati anziché utilizzare web crawler per risalire alle informazioni e acquisirle da siti web all'insaputa o senza il consenso degli utenti.
Inoltre, i dati artificiali possono essere un tipo di data augmentation. Possono essere utilizzati per aumentare la diversità dei dati, in particolare per i gruppi poco rappresentati nell'addestramento dei modelli AI. Per finire, quando le informazioni sono insufficienti, i dati sintetici possono colmare le lacune.
La società di servizi finanziari J.P. Morgan, ad esempio, ha avuto difficoltà ad addestrare modelli con tecnologia AI per il rilevamento delle frodi a causa della mancanza di casi fraudolenti rispetto a quelli non fraudolenti. L'organizzazione ha utilizzato la generazione di dati sintetici per creare altri esempi di transazioni fraudolente (link esterno a ibm.com), migliorando così l'addestramento dei modelli.
La qualità dei dati sintetici è buona solo quanto i dati reali che stanno alla base. Quando prepari i set di dati originali per la generazione di dati sintetici mediante algoritmi di machine learning (ML), assicurati di verificare e correggere eventuali errori, imprecisioni e incongruenze. Rimuovi eventuali duplicati e immetti i missing value.
Considera l'aggiunta di casi edge o outlier ai dati originali. Questi dati possono rappresentare eventi non comuni, scenari rari o casi estremi che rispecchiano l'imprevedibilità e la variabilità del mondo reale.
"Dipende tutto dagli esempi di partenza", afferma Akash Srivastava, chief architect di InstructLab (link esterno a ibm.com), un progetto open source di IBM e Red Hat che adotta un approccio collaborativo per aggiungere nuove conoscenze e competenze a un modello, alimentato dal nuovo metodo di generazione di dati sintetici e dal protocollo di addestramento graduale di IBM. "Gli esempi attraverso i quali si alimenta la generazione devono imitare il caso d'uso del mondo reale".
I dati sintetici tendono ancora a ereditare e a rispecchiare i bias che potrebbero essere presenti nei dati originali su cui si basano. La combinazione di informazioni provenienti da più fonti, inclusi diversi gruppi demografici e regioni, può aiutare a mitigare le distorsioni nei dati generati.
Diverse fonti di dati possono anche migliorare la qualità dei set di dati sintetici. Diverse fonti possono offrire dettagli essenziali o contesti vitali che mancano a una singola fonte o solo a una manciata di fonti. Inoltre, l'integrazione della retrieval-augmented generation nel processo di generazione dei dati sintetici può fornire l'accesso a dati aggiornati e specifici del dominio che possono aumentare la precisione e migliorare ulteriormente la qualità.
La scelta della tecnica giusta per la generazione di dati sintetici dipende da alcuni fattori, tra cui il tipo di dati e la complessità. I dati relativamente semplici potrebbero trarre beneficio dai metodi statistici. I set di dati più complessi, ad esempio dati strutturati come dati tabellari o dati non strutturati come immagini o video, potrebbero richiedere modelli di deep learning . Le imprese possono anche scegliere di combinare le tecniche di sintesi in base alle proprie esigenze.
Ecco alcuni meccanismi comuni per la generazione di dati sintetici:
I data scientist possono analizzare le distribuzioni statistiche nei dati reali e generare campioni sintetici che rispecchiano tali distribuzioni. Tuttavia, questo richiede un livello di conoscenza ed esperienza significativo e non tutti i dati rientrano in una distribuzione nota.
Le reti generative avversarie (GAN) sono composte da due reti neurali: un generatore che crea dati sintetici e un discriminatore che agisce come avversario, discriminando tra dati artificiali e reali. Entrambe le reti vengono addestrate in modo iterativo, con il feedback del discriminatore che migliora l'output del generatore fino a quando il discriminatore non è più in grado di distinguere i dati artificiali da quelli reali.
Le GAN possono essere utilizzate per generare immagini sintetiche per la computer vision e attività di classificazione delle immagini.
Gli autoencoder variazionali (VAE) sono modelli di deep learning che generano variazioni dei dati su cui vengono addestrati. Un encoder comprime i dati di input in uno spazio di dimensioni inferiori, catturando le informazioni significative contenute nell'input. Un decoder ricostruisce quindi nuovi dati a partire da questa rappresentazione compressa. Come le GAN, le VAE possono essere utilizzate per la generazione di immagini.
I modelli trasformativi, come i trasformatori generativi pre-addestrati (GPT), eccellono nella comprensione della struttura e dei pattern nel linguaggio. Possono essere utilizzati per generare dati di testo sintetici per applicazioni di elaborazione del linguaggio naturale o per creare dati tabellari artificiali per attività di classificazione o regressione.
È importante considerare il collasso del modello, in cui le prestazioni di un modello diminuiscono quando esso viene ripetutamente addestrato sui dati generati dall'AI. Ecco perché è fondamentale fondare il processo di generazione dei dati sintetici su dati reali.
InstructLab, ad esempio, basa la generazione di dati sintetici su una tassonomia che definisce il dominio o gli argomenti da cui provengono i dati originali. Ciò impedisce al modello di decidere su quali dati debba essere addestrato.
"Non si chiede al modello di continuare ad andare in loop e di collassare. Evitiamo del tutto il collasso dissociando il modello dal processo di campionamento", afferma Srivastava.
I dati di alta qualità sono fondamentali per le prestazioni del modello. Verifica la qualità dei dati sintetici utilizzando metriche basate sulla fedeltà e sull'utilità. La fedeltà si riferisce al modo in cui i set di dati sintetici assomigliano ai set di dati del mondo reale. L'utilità valuta quanto bene i dati sintetici possano essere utilizzati per addestrare modelli di deep learning o machine learning (ML).
La misurazione della fedeltà comporta il confronto dei dati sintetici con i dati originali, spesso utilizzando metodi statistici e visualizzazioni come gli istogrammi. Questo aiuta a determinare se i set di dati generati conservano le proprietà statistiche dei set di dati reali, come distribuzione, media, mediano, intervallo e varianza, tra gli altri.
La valutazione della somiglianza correlazionale attraverso i coefficienti di correlazione e di contingenza, ad esempio, è essenziale anche per aiutare a garantire che le dipendenze e le relazioni tra i punti dati siano mantenute e rappresentino accuratamente i modelli del mondo reale. Le reti neurali, i modelli generativi e i modelli linguistici sono in genere abili nel catturare le relazioni nei dati tabellari e nelle serie temporali.
La misurazione dell'utilità consiste nell'utilizzare dati sintetici come dati di addestramento per i modelli di apprendimento automatico, quindi nel confrontare le prestazioni del modello con l'addestramento attraverso dati reali. Ecco alcune metriche comuni per il benchmarking:
L'accuratezza, o precisione, calcola la percentuale di previsioni corrette.
Il richiamo quantifica le previsioni effettivamente corrette.
Il punteggio F1 unisce precisione e richiamo in una singola metrica.
Sia l'inception score che la Fréchet Inception Distance (FID) valutano la qualità delle immagini generate.
Gli strumenti o i provider di dati sintetici potrebbero già avere queste metriche disponibili, ma è anche possibile utilizzare altri pacchetti di analytics come SDMetrics (link esterno a ibm.com), una libreria open source Python per la valutazione dei dati sintetici tabellari.
Il tocco umano è ancora fondamentale quando si convalidano i dati artificiali, magari anche solo prendendo 5-10 campioni casuali dal set di dati sintetici per valutarli personalmente. "È necessario inserire un umano nel ciclo di verifica", afferma Srivastava. "Si tratta di sistemi molto complicati e, come in ogni sistema complicato, ci sono molte fasi delicate in cui le cose potrebbero andare storte. È bene affidarsi alle metriche, affidarsi ai benchmark, testare rigorosamente le pipeline, ma bisogna sempre prendere alcuni campioni casuali e verificare manualmente che stiano fornendo il tipo di dati desiderati".
Uno dei vantaggi dell'utilizzo dei dati sintetici è che non contengono dati sensibili o PII. Tuttavia, le aziende devono comunque verificare che i nuovi dati generati siano conformi alle normative sulla privacy. Ad esempio, il Regolamento generale sulla protezione dei dati (GDPR) dell'Unione Europea o l'HIPAA (Health Insurance Portability and Accountability Act) degli Stati Uniti.
Tratta i dati sintetici come dati proprietari, applicando misure di sicurezza integrate e controlli degli accessi per prevenire attacchi informatici e fughe di dati. Le misure di sicurezza devono essere applicate anche durante il processo di generazione per prevenire il rischio che i dati sintetici siano sottoposti a reverse engineering e ricondotti al loro equivalente nel mondo reale, rivelando informazioni sensibili durante l'analisi dei dati. Queste misure di sicurezza includono tecniche come il mascheramento, per nascondere o mascherare i dati sensibili, l'anonimizzazione per ripulire o rimuovere le PII e la privacy differenziale per aggiungere "rumore" o introdurre casualità al set di dati.
"Come minimo, sono necessari il mascheramento o la rimozione delle PII, oppure si può fare un ulteriore passo avanti e utilizzare metodi di privacy differenziale", afferma Srivastava. "Se non utilizzi modelli locali, tutto questo diventa ancora più importante. Di fatto, se invii [dati] a un fornitore esterno, fare attenzione a questi aspetti è ancora più critico".
I dati sintetici non possono solitamente essere ottimizzati contemporaneamente per la fedeltà, l'utilità e la privacy: spesso dovrà esserci un compromesso. Il mascheramento o l'anonimizzazione potrebbero ridurre nominalmente l'utilità, mentre la privacy differenziale potrebbe ridurre leggermente la precisione. Tuttavia, la mancata implementazione di una misura di privacy può potenzialmente esporre le informazioni personali. Le organizzazioni devono bilanciare e dare priorità a ciò che è cruciale per i loro casi d'uso specifici.
Tieni traccia del workflow di generazione dei dati sintetici, ad esempio le strategie per la pulizia e la preparazione dei set di dati originali, i meccanismi per la generazione dei dati e il mantenimento della privacy e i risultati della verifica. Includi la logica alla base delle tue scelte e decisioni ai fini della responsabilità e della trasparenza.
La documentazione è particolarmente utile quando si effettuano recensioni periodiche del suo processo di generazione di dati sintetici. Questi record fungono da audit trail che possono aiutare a valutare l'efficacia e la riproducibilità del workflow.
Monitora regolarmente come vengono utilizzati i dati sintetici e le loro prestazioni per identificare eventuali comportamenti imprevisti che potrebbero emergere o opportunità di miglioramento. Adatta e perfeziona il processo di generazione in base alle necessità.
Proprio come le fibre sono alla base dei tessuti, i dati sono l'elemento costitutivo dei modelli AI. Sebbene la generazione di dati sintetici sia ancora in fase embrionale, i progressi nel processo di generazione possono aiutare a migliorarli in futuro fino a raggiungere la qualità, l'affidabilità e l'utilità dei dati reali, in modo simile a come le fibre sintetiche sono equiparabili alle fibre naturali.
1 3 Bold and Actionable Predictions for the Future of GenAI (link esterno a ibm.com), Gartner, 12 aprile 2024
Per prosperare, le aziende devono utilizzare i dati per fidelizzare i clienti, automatizzare i processi aziendali e innovare con soluzioni basate sull'AI.
Sblocca il valore dei dati aziendali con IBM Consulting e crea un'organizzazione basata su insight in grado di generare vantaggi aziendali.
Introduzione a Cognos Analytics 12.0, insight basati sull'AI per prendere decisioni migliori.