Valutazione dei dati sintetici
L'efficacia dei dati sintetici dipende dalla loro qualità, il che richiede lo sviluppo e l'utilizzo di parametri di valutazione adeguati. A questo proposito, le metriche relative ai dati sintetici svolgono un ruolo fondamentale nella valutazione della fedeltà, della diversità e dell'utilità dei dati generati.
Nel campo della scienza dei dati e dell'apprendimento automatico, la disponibilità di dati di alta qualità è fondamentale per la creazione di modelli accurati e affidabili. Tuttavia, in molti scenari reali, ottenere dati sufficienti e diversificati può rivelarsi un compito arduo a causa di vari vincoli, quali le preoccupazioni relative alla privacy, la scarsità di dati o i costi elevati dei processi di acquisizione dei dati. Per affrontare queste sfide, il concetto di generazione di dati sintetici ha acquisito sempre più popolarità, offrendo una soluzione promettente per integrare o sostituire i dati reali con dati generati artificialmente.
Synthetic Data Generator utilizza parametri relativi alla qualità, alla riservatezza e all'utilità per aiutarti a valutare i tuoi dati sintetici.
Come valutare i propri dati sintetici
Per valutare i dati sintetici, è possibile collegare il nodo "Evaluate" tra un nodo "Import" e un nodo "Generate". 
È inoltre possibile collegare il nodo "Evaluate" tra due nodi "Import" o tra due nodi "Generate".
Dopo aver collegato il nodo Evaluate, fare clic sul pulsante Modifica. 

I seguenti sottotemi spiegano come scegliere le opzioni per la valutazione dei dati sintetici.
Metriche sulla qualità
Punteggio di fedeltà
Aggrega più metriche che riflettono la similarità tra i dati reali e i dati sintetici delle distribuzioni per le singole colonne, insieme alla similarità delle correlazioni per tutte le coppie di colonne.
Distinguibilità dei dati
Acquisisce la capacità di classificatore binario di separare i dati reali dai dati sintetici. Quanto più è difficile addestrare un classificatore di questo tipo, tanto migliore sarà la qualità dei dati sintetici in relazione alla loro capacità di riflettere le proprietà statistiche dei dati reali.
Metriche sulla privacy
Punteggio di perdita
Misura la percentuale di righe nei dati sintetici che sono identiche ad alcune righe nei dati reali.
Punteggio di prossimità
Calcolato dalla distanza tra i punti nei dati sintetici e nei dati reali. Quanto più ridotta è questa distanza, tanto più semplice diventa isolare alcune righe dai dati reali, aumentando il rischio per la privacy.
Metriche sulle utilità
Utilità predittiva
Misura l'utilità dei dati sintetici per le attività downstream predittive. Valuta le prestazioni dei modelli predittivi addestrati a partire dai dati sintetici per prevedere con precisione un obiettivo selezionato, utilizzando dati reali come dati di test.
Livello di valutazione
Valutazione semplice
In modalità di valutazione semplice, le metriche vengono eseguite su un unico modello ML (machine learning).
Valutazione completa
In modalità di valutazione completa, le metriche vengono analizzate e ne viene calcolata la media rispetto a diversi modelli di ML (machine learning), ove possibile.