Evaluación de datos sintéticos

La eficacia de los datos sintéticos depende de su calidad, lo que requiere el desarrollo y la utilización de métricas adecuadas para su evaluación. En este sentido, los indicadores de datos sintéticos desempeñan un papel fundamental a la hora de evaluar la fidelidad, la diversidad y la utilidad de los datos generados.

En el ámbito de la ciencia de datos y el aprendizaje automático, disponer de datos de alta calidad es fundamental para crear modelos precisos y sólidos. Sin embargo, en muchas situaciones reales, obtener datos suficientes y variados puede resultar una tarea complicada debido a diversas limitaciones, como cuestiones de privacidad, la escasez de datos o los costosos procesos de recopilación de datos. Para hacer frente a estos retos, ha cobrado importancia el concepto de generación de datos sintéticos, que ofrece una solución prometedora para complementar o sustituir los datos del mundo real por datos generados artificialmente.

Synthetic Data Generator utiliza indicadores de calidad, privacidad y utilidad para ayudarte a evaluar tus datos sintéticos.

Cómo evaluar tus datos sintéticos

Para evaluar tus datos sintéticos, puedes conectar el nodo «Evaluate» entre un nodo «Import» y un nodo «Generate ». Cómo conectarse para evaluar sus datos sintéticos

También puedes conectar tu nodo «Evaluate» entre dos nodos «Import» o entre dos nodos «Generate ».

Una vez que hayas conectado tu nodo «Evaluate », haz clic en el botón «Editar ». Cómo editar el nodo «Evaluar»

Evaluar las opciones de los nodos

En los siguientes apartados se explica cómo seleccionar las opciones para evaluar tus datos sintéticos.

Importante: En los datos sintéticos pueden aparecer registros duplicados. Puedes seleccionar la opción «Eliminar registros duplicados», que eliminará los registros duplicados si superan el 5 % del conjunto de datos, conservando únicamente la primera aparición.

Importante: Si no has conectado los nodos correctamente, aparecerá el siguiente error: Se requiere una línea de referencia

Métricas de calidad

Puntuación de fidelidad

Agrega varias métricas que reflejan la similitud entre datos reales y datos sintéticos de distribuciones para columnas individuales, junto con la similitud de correlaciones para todos los pares de columnas.

Distinción de datos

Captura la capacidad de un clasificador binario para separar los datos reales de los datos sintéticos. Cuanto más difícil sea entrenar un clasificador de este tipo, mejor será la calidad de los datos sintéticos en cuanto a su capacidad para reflejar las propiedades estadísticas de los datos reales.

Métricas de privacidad

Puntuación de fuga

Mide la proporción de filas de los datos sintéticos que son idénticas a algunas filas de los datos reales.

Puntuación de proximidad

Se calcula a partir de la distancia entre los puntos de los datos sintéticos y los datos reales. Cuanto menor es esta distancia, más fácil es aislar algunas filas de los datos reales, lo que aumenta el riesgo de privacidad.

Métricas de utilidad

Utilidad predictiva

Mide la utilidad de los datos sintéticos para las tareas predictivas en sentido descendente. Evalúa el rendimiento de los modelos predictivos entrenados a partir de datos sintéticos para predecir con precisión un objetivo seleccionado, utilizando datos reales como datos de prueba.

Nivel de evaluación

Evaluación simple

En la modalidad de evaluación simple, las métricas se ejecutan en un único modelo ML (aprendizaje automático).

Evaluación completa

En el modo de evaluación completa, las métricas se analizan y se promedian en función de varios modelos de aprendizaje automático (ML) siempre que sea posible.