Valutazione dei dati sintetici

L'efficacia dei dati sintetici dipende dalla loro qualità, il che richiede lo sviluppo e l'utilizzo di parametri di valutazione adeguati. A questo proposito, le metriche relative ai dati sintetici svolgono un ruolo fondamentale nella valutazione della fedeltà, della diversità e dell'utilità dei dati generati.

Nel campo della scienza dei dati e dell'apprendimento automatico, la disponibilità di dati di alta qualità è fondamentale per la creazione di modelli accurati e affidabili. Tuttavia, in molti scenari reali, ottenere dati sufficienti e diversificati può rivelarsi un compito arduo a causa di vari vincoli, quali le preoccupazioni relative alla privacy, la scarsità di dati o i costi elevati dei processi di acquisizione dei dati. Per affrontare queste sfide, il concetto di generazione di dati sintetici ha acquisito sempre più popolarità, offrendo una soluzione promettente per integrare o sostituire i dati reali con dati generati artificialmente.

Synthetic Data Generator utilizza parametri relativi alla qualità, alla riservatezza e all'utilità per aiutarti a valutare i tuoi dati sintetici.

Come valutare i propri dati sintetici

Per valutare i dati sintetici, è possibile collegare il nodo "Evaluate" tra un nodo "Import" e un nodo "Generate". Come connettersi per valutare i propri dati sintetici

È inoltre possibile collegare il nodo "Evaluate" tra due nodi "Import" o tra due nodi "Generate".

Dopo aver collegato il nodo Evaluate, fare clic sul pulsante Modifica. Come modificare il nodo "Valuta"

Valutare le opzioni dei nodi

I seguenti sottotemi spiegano come scegliere le opzioni per la valutazione dei dati sintetici.

Importante: nei dati sintetici possono verificarsi record duplicati. È possibile selezionare l'opzione "Rimuovi record duplicati", che eliminerà i record duplicati qualora superino il 5% del set di dati, conservando solo la prima occorrenza.
Importante: se i nodi non sono stati collegati correttamente, verrà visualizzato il seguente messaggio di errore: È necessario inserire una linea di base

Metriche sulla qualità

Punteggio di fedeltà

Aggrega più metriche che riflettono la similarità tra i dati reali e i dati sintetici delle distribuzioni per le singole colonne, insieme alla similarità delle correlazioni per tutte le coppie di colonne.

Distinguibilità dei dati

Acquisisce la capacità di classificatore binario di separare i dati reali dai dati sintetici. Quanto più è difficile addestrare un classificatore di questo tipo, tanto migliore sarà la qualità dei dati sintetici in relazione alla loro capacità di riflettere le proprietà statistiche dei dati reali.

Metriche sulla privacy

Punteggio di perdita

Misura la percentuale di righe nei dati sintetici che sono identiche ad alcune righe nei dati reali.

Punteggio di prossimità

Calcolato dalla distanza tra i punti nei dati sintetici e nei dati reali. Quanto più ridotta è questa distanza, tanto più semplice diventa isolare alcune righe dai dati reali, aumentando il rischio per la privacy.

Metriche sulle utilità

Utilità predittiva

Misura l'utilità dei dati sintetici per le attività downstream predittive. Valuta le prestazioni dei modelli predittivi addestrati a partire dai dati sintetici per prevedere con precisione un obiettivo selezionato, utilizzando dati reali come dati di test.

Livello di valutazione

Valutazione semplice

In modalità di valutazione semplice, le metriche vengono eseguite su un unico modello ML (machine learning).

Valutazione completa

In modalità di valutazione completa, le metriche vengono analizzate e ne viene calcolata la media rispetto a diversi modelli di ML (machine learning), ove possibile.