Nodo mímico

En Synthetic Data Generator, puede utilizar el nodo Mimic para establecer sus requisitos para que los datos sintéticos se parezcan a los datos semilla de muestra.

El nodo Mimic analiza la distribución estadística de cada campo en los datos semilla de la muestra, y genera (o actualiza) un nodo Generate con la distribución que mejor se ajuste asignada a cada campo. A continuación, el nodo Generar puede generar automáticamente datos sintéticos basados en el análisis.

Descripción
Utilice el nodo Mimic en un flujo Synthetic Data Generator para configurar hasta qué punto los datos sintéticos se asemejan a las propiedades y distribuciones estadísticas del conjunto de datos original. El nodo utiliza algoritmos avanzados para aprender los patrones y relaciones subyacentes en los datos de entrada y crear registros realistas pero artificiales.
También puede configurar la función de privacidad diferencial. Para obtener más información, consulte Uso de la privacidad diferencial.
Utilización del nodo
Utilice el nodo Imitar después de un nodo Importar o un nodo Anonimizar. Cuando se ejecuta el nodo Mimic, se crea un nodo Generate si aún no existe.
Puede incluir el nodo Mimic varias veces en un flujo Synthetic Data Generator si desea generar datos sintéticos utilizando diferentes configuraciones en el mismo conjunto de datos. Un nodo Import of Anonymize puede ramificarse a varios nodos Mimic.
Obligatorio u opcional
El nodo Mimic es obligatorio a menos que esté generando datos sintéticos utilizando un esquema de datos personalizado. Debe conectar un nodo Importar o un nodo Anonimizar al nodo Imitar.

Columnas configuradas como sin tipo

El nodo Mimic siempre excluye las columnas configuradas como Typeless del conjunto de datos durante el preprocesamiento de datos. Las columnas que se excluyen no aparecen en el nodo Generar. Los algoritmos de aprendizaje automático suelen ignorar los campos sin tipo, ya que es posible que no tengan ningún valor predictivo ni patrón discernible que pueda determinarse mediante análisis estadístico.

Si desea mantener una columna configurada como «Sin tipo» en el conjunto de datos, puede habilitar «Sin tipo» como «Realista» en la configuración del nodo Mimic y, a continuación, editar la columna en el nodo Generate para establecer el diccionario de esa columna. Los datos de la columna se tratan entonces como ese tipo de diccionario.

Scripting con el nodo Mimc

Puede utilizar lenguajes de scripting, como Python, para establecer de forma progamática las propiedades de los nodos.

Propiedades del nodo Mimc

Las siguientes propiedades son específicas del nodo Mimc. Para obtener información sobre las propiedades comunes de los nodos, consulte Propiedades de flujos y nodos.

Tabla 1. Propiedades de nodo para los scripts
Nombre de propiedad Tipo de datos Descripción de la propiedad
bins Entero En el caso de los campos continuos, la distribución Empírica es la función de distribución acumulada de los datos históricos.
custom_gen_node_name Booleano Puede generar el nombre del nodo generado (o actualizado) Generar automáticamente seleccionando Auto.
delta Entero Probabilidad máxima admisible de fuga de privacidad. El valor debe ser <= 1/n*n donde n es el tamaño de la muestra a la vez. O épsilon o delta tiene que ser mayor que 0
epsilon Entero Determina el presupuesto de privacidad. Los valores más pequeños proporcionan una mayor protección de la privacidad y pérdida de precisión.
frequency_weight_field campo Especifique el campo de ponderación si el conjunto de datos contiene uno. El campo de ponderación se excluye luego del proceso de ajuste de la distribución.
gen_node_name Serie Especifique un nombre personalizado para el nodo Generar generado (o actualizado).
good_fit_type Serie Para campos continuos, especifique la prueba AnderDarling o la prueba KolmogSmirn de bondad de ajuste para clasificar las distribuciones al ajustar las distribuciones a los campos.
locale Serie La configuración regional determina qué tipos de diccionario están disponibles para la generación de campos, puede tener un valor de ["de_DE", "en_US", "es_ES", "fr_FR", "it_IT", "ja_JP", "ko_KR", "pl_PL", "pt_BR", "ru_RU", "zh_CN"]
missing_value_imputation Booleano Establezca True para utilizar la imputación para reemplazar los datos que faltan. Imputar significa sustituir los datos que faltan por una estimación y, a continuación, analizar el conjunto completo de datos como si los valores imputados fueran datos reales.
missing_value_imputation_continuous_strategy Serie Cuando se sustituyen valores omitidos para un campo continuo, puede establecerse como mean o fixed. Por defecto es 'media'.
missing_value_imputation_continuous_replace_value Entero Cuando fixed está configurado para missing_value_imputation_continuous_strategy, puede establecer un valor aquí.
missing_value_imputation_nominal_strategy Serie Cuando se sustituyen los valores que faltan para un campo nominal, puede establecerse como mode o fixed. Por defecto es la media.
missing_value_imputation_nominal_replace_value Entero Cuando fixed está configurado para missing_value_imputation_nominal_strategy, puede establecer un valor aquí.
missing_value_imputation_ordinal_strategy Serie Cuando se sustituyen valores perdidos de un campo ordinal, se puede establecer como medium o fixed. Por defecto es la media.
missing_value_imputation_ordinal_replace_value Entero Cuando fixed está configurado para missing_value_imputation_ordinal_strategy, puede establecer un valor aquí.
missing_value_imputation_strategies Propiedad estructurada Cuando se establece True para missing_value_imputation, puede utilizar esta propiedad para reemplazar los valores que faltan para campos específicos. Véase el script de ejemplo.
random_seed Entero Permite reproducir la salida sintética privada diferencial
typeless_as_realistic Booleano Establézcalo en True para tratar el campo sin tipo como un tipo de diccionario.
use_diff_privacy Booleano Establézcalo en True para asegurarse de que no se exponen datos sensibles en los datos sintéticos generados controlando los parámetros de presupuesto de privacidad (epsilon) y fuga (delta).
used_cases_type Serie Especifica el número de casos que se deben utilizar al ajustar las distribuciones a los campos del conjunto de datos. Utilice AllCases o FirstNCases.
used_cases Entero El número de casos.

Script de ejemplo

A continuación se muestra un ejemplo de las propiedades utilizadas en un script.

mimicnode.setPropertyValue("missing_value_imputation", "True")
mimicnode.setPropertyValue("missing_value_imputation_strategies","[['Age','Fixed','60']]")