Nodo mímico

En Synthetic Data Generator, puede utilizar el nodo Mimic para establecer sus requisitos para que los datos sintéticos se parezcan a los datos semilla de muestra.

El nodo Mimic analiza la distribución estadística de cada campo en los datos semilla de la muestra, y genera (o actualiza) un nodo Generate con la distribución que mejor se ajuste asignada a cada campo. A continuación, el nodo Generar puede generar automáticamente datos sintéticos basados en el análisis.

Descripción: Utilice el nodo Mimic en un flujo Synthetic Data Generator para configurar hasta qué punto los datos sintéticos se asemejan a las propiedades y distribuciones estadísticas del conjunto de datos original. El nodo utiliza algoritmos avanzados para aprender los patrones y relaciones subyacentes en los datos de entrada y crear registros realistas pero artificiales.; También puede configurar la función de privacidad diferencial. Para obtener más información, consulte Uso de la privacidad diferencial.
Utilización del nodo: Utilice el nodo Imitar después de un nodo Importar o un nodo Anonimizar. Cuando se ejecuta el nodo Mimic, se crea un nodo Generate si aún no existe.; Puede incluir el nodo Mimic varias veces en un flujo Synthetic Data Generator si desea generar datos sintéticos utilizando diferentes configuraciones en el mismo conjunto de datos. Un nodo Import of Anonymize puede ramificarse a varios nodos Mimic.
Obligatorio u opcional: El nodo Mimic es obligatorio a menos que esté generando datos sintéticos utilizando un esquema de datos personalizado. Debe conectar un nodo Importar o un nodo Anonimizar al nodo Imitar.

Columnas configuradas como sin tipo

El nodo Mimic siempre excluye las columnas configuradas como Typeless del conjunto de datos durante el preprocesamiento de datos. Las columnas que se excluyen no aparecen en el nodo Generar. Los algoritmos de aprendizaje automático suelen ignorar los campos sin tipo, ya que es posible que no tengan ningún valor predictivo ni patrón discernible que pueda determinarse mediante análisis estadístico.

Si desea mantener una columna configurada como «Sin tipo» en el conjunto de datos, puede habilitar «Sin tipo» como «Realista» en la configuración del nodo Mimic y, a continuación, editar la columna en el nodo Generate para establecer el diccionario de esa columna. Los datos de la columna se tratan entonces como ese tipo de diccionario.

Scripting con el nodo Mimc

Puede utilizar lenguajes de scripting, como Python, para establecer de forma progamática las propiedades de los nodos.

Propiedades del nodo Mimc

Las siguientes propiedades son específicas del nodo Mimc. Para obtener información sobre las propiedades comunes de los nodos, consulte Propiedades de flujos y nodos.

Tabla 1. Propiedades de nodo para los scripts
Nombre de propiedad	Tipo de datos	Descripción de la propiedad
`bins`	Entero	En el caso de los campos continuos, la distribución Empírica es la función de distribución acumulada de los datos históricos.
`custom_gen_node_name`	Booleano	Puede generar el nombre del nodo generado (o actualizado) Generar automáticamente seleccionando `Auto`.
`delta`	Entero	Probabilidad máxima admisible de fuga de privacidad. El valor debe ser <= 1/nn* donde n es el tamaño de la muestra a la vez. O épsilon o delta tiene que ser mayor que 0
`epsilon`	Entero	Determina el presupuesto de privacidad. Los valores más pequeños proporcionan una mayor protección de la privacidad y pérdida de precisión.
`frequency_weight_field`	campo	Especifique el campo de ponderación si el conjunto de datos contiene uno. El campo de ponderación se excluye luego del proceso de ajuste de la distribución.
`gen_node_name`	Serie	Especifique un nombre personalizado para el nodo Generar generado (o actualizado).
`good_fit_type`	Serie	Para campos continuos, especifique la prueba `AnderDarling` o la prueba `KolmogSmirn` de bondad de ajuste para clasificar las distribuciones al ajustar las distribuciones a los campos.
`locale`	Serie	La configuración regional determina qué tipos de diccionario están disponibles para la generación de campos, puede tener un valor de ["de_DE", "en_US", "es_ES", "fr_FR", "it_IT", "ja_JP", "ko_KR", "pl_PL", "pt_BR", "ru_RU", "zh_CN"]
`missing_value_imputation`	Booleano	Establezca `True` para utilizar la imputación para reemplazar los datos que faltan. Imputar significa sustituir los datos que faltan por una estimación y, a continuación, analizar el conjunto completo de datos como si los valores imputados fueran datos reales.
`missing_value_imputation_continuous_strategy`	Serie	Cuando se sustituyen valores omitidos para un campo continuo, puede establecerse como `mean` o `fixed`. Por defecto es 'media'.
`missing_value_imputation_continuous_replace_value`	Entero	Cuando `fixed` está configurado para `missing_value_imputation_continuous_strategy`, puede establecer un valor aquí.
`missing_value_imputation_nominal_strategy`	Serie	Cuando se sustituyen los valores que faltan para un campo nominal, puede establecerse como `mode` o `fixed`. Por defecto es la media.
`missing_value_imputation_nominal_replace_value`	Entero	Cuando `fixed` está configurado para `missing_value_imputation_nominal_strategy`, puede establecer un valor aquí.
`missing_value_imputation_ordinal_strategy`	Serie	Cuando se sustituyen valores perdidos de un campo ordinal, se puede establecer como `medium` o `fixed`. Por defecto es la media.
`missing_value_imputation_ordinal_replace_value`	Entero	Cuando `fixed` está configurado para `missing_value_imputation_ordinal_strategy`, puede establecer un valor aquí.
`missing_value_imputation_strategies`	Propiedad estructurada	Cuando se establece `True` para `missing_value_imputation`, puede utilizar esta propiedad para reemplazar los valores que faltan para campos específicos. Véase el script de ejemplo.
`random_seed`	Entero	Permite reproducir la salida sintética privada diferencial
`typeless_as_realistic`	Booleano	Establézcalo en `True` para tratar el campo sin tipo como un tipo de diccionario.
`use_diff_privacy`	Booleano	Establézcalo en `True` para asegurarse de que no se exponen datos sensibles en los datos sintéticos generados controlando los parámetros de presupuesto de privacidad (`epsilon`) y fuga (`delta`).
`used_cases_type`	Serie	Especifica el número de casos que se deben utilizar al ajustar las distribuciones a los campos del conjunto de datos. Utilice `AllCases` o `FirstNCases`.
`used_cases`	Entero	El número de casos.

Script de ejemplo

A continuación se muestra un ejemplo de las propiedades utilizadas en un script.

mimicnode.setPropertyValue("missing_value_imputation", "True")
mimicnode.setPropertyValue("missing_value_imputation_strategies","[['Age','Fixed','60']]")