Evaluación de datos sintéticos
La eficacia de los datos sintéticos depende de su calidad, lo que requiere el desarrollo y la utilización de métricas adecuadas para su evaluación. En este sentido, los indicadores de datos sintéticos desempeñan un papel fundamental a la hora de evaluar la fidelidad, la diversidad y la utilidad de los datos generados.
En el ámbito de la ciencia de datos y el aprendizaje automático, disponer de datos de alta calidad es fundamental para crear modelos precisos y sólidos. Sin embargo, en muchas situaciones reales, obtener datos suficientes y variados puede resultar una tarea complicada debido a diversas limitaciones, como cuestiones de privacidad, la escasez de datos o los costosos procesos de recopilación de datos. Para hacer frente a estos retos, ha cobrado importancia el concepto de generación de datos sintéticos, que ofrece una solución prometedora para complementar o sustituir los datos del mundo real por datos generados artificialmente.
Synthetic Data Generator utiliza indicadores de calidad, privacidad y utilidad para ayudarte a evaluar tus datos sintéticos.
Cómo evaluar tus datos sintéticos
Para evaluar tus datos sintéticos, puedes conectar el nodo «Evaluate» entre un nodo «Import» y un nodo «Generate ». 
También puedes conectar tu nodo «Evaluate» entre dos nodos «Import» o entre dos nodos «Generate ».
Una vez que hayas conectado tu nodo «Evaluate », haz clic en el botón «Editar ». 

En los siguientes apartados se explica cómo seleccionar las opciones para evaluar tus datos sintéticos.
Métricas de calidad
Puntuación de fidelidad
Agrega varias métricas que reflejan la similitud entre datos reales y datos sintéticos de distribuciones para columnas individuales, junto con la similitud de correlaciones para todos los pares de columnas.
Distinción de datos
Captura la capacidad de un clasificador binario para separar los datos reales de los datos sintéticos. Cuanto más difícil sea entrenar un clasificador de este tipo, mejor será la calidad de los datos sintéticos en cuanto a su capacidad para reflejar las propiedades estadísticas de los datos reales.
Métricas de privacidad
Puntuación de fuga
Mide la proporción de filas de los datos sintéticos que son idénticas a algunas filas de los datos reales.
Puntuación de proximidad
Se calcula a partir de la distancia entre los puntos de los datos sintéticos y los datos reales. Cuanto menor es esta distancia, más fácil es aislar algunas filas de los datos reales, lo que aumenta el riesgo de privacidad.
Métricas de utilidad
Utilidad predictiva
Mide la utilidad de los datos sintéticos para las tareas predictivas en sentido descendente. Evalúa el rendimiento de los modelos predictivos entrenados a partir de datos sintéticos para predecir con precisión un objetivo seleccionado, utilizando datos reales como datos de prueba.
Nivel de evaluación
Evaluación simple
En la modalidad de evaluación simple, las métricas se ejecutan en un único modelo ML (aprendizaje automático).
Evaluación completa
En el modo de evaluación completa, las métricas se analizan y se promedian en función de varios modelos de aprendizaje automático (ML) siempre que sea posible.