Nodo mímico
En Synthetic Data Generator, puede utilizar el nodo Mimic para establecer sus requisitos para que los datos sintéticos se parezcan a los datos semilla de muestra.
El nodo Mimic analiza la distribución estadística de cada campo en los datos semilla de la muestra, y genera (o actualiza) un nodo Generate con la distribución que mejor se ajuste asignada a cada campo. A continuación, el nodo Generar puede generar automáticamente datos sintéticos basados en el análisis.
- Descripción
- Utilice el nodo Mimic en un flujo Synthetic Data Generator para configurar hasta qué punto los datos sintéticos se asemejan a las propiedades y distribuciones estadísticas del conjunto de datos original. El nodo utiliza algoritmos avanzados para aprender los patrones y relaciones subyacentes en los datos de entrada y crear registros realistas pero artificiales.
- También puede configurar la función de privacidad diferencial. Para obtener más información, consulte Uso de la privacidad diferencial.
- Utilización del nodo
- Utilice el nodo Imitar después de un nodo Importar o un nodo Anonimizar. Cuando se ejecuta el nodo Mimic, se crea un nodo Generate si aún no existe.
- Puede incluir el nodo Mimic varias veces en un flujo Synthetic Data Generator si desea generar datos sintéticos utilizando diferentes configuraciones en el mismo conjunto de datos. Un nodo Import of Anonymize puede ramificarse a varios nodos Mimic.
- Obligatorio u opcional
- El nodo Mimic es obligatorio a menos que esté generando datos sintéticos utilizando un esquema de datos personalizado. Debe conectar un nodo Importar o un nodo Anonimizar al nodo Imitar.
Columnas configuradas como sin tipo
El nodo Mimic siempre excluye las columnas configuradas como Typeless del conjunto de datos durante el preprocesamiento de datos. Las columnas que se excluyen no aparecen en el nodo Generar. Los algoritmos de aprendizaje automático suelen ignorar los campos sin tipo, ya que es posible que no tengan ningún valor predictivo ni patrón discernible que pueda determinarse mediante análisis estadístico.
Si desea mantener una columna configurada como «Sin tipo» en el conjunto de datos, puede habilitar «Sin tipo» como «Realista» en la configuración del nodo Mimic y, a continuación, editar la columna en el nodo Generate para establecer el diccionario de esa columna. Los datos de la columna se tratan entonces como ese tipo de diccionario.
Scripting con el nodo Mimc
Puede utilizar lenguajes de scripting, como Python, para establecer de forma progamática las propiedades de los nodos.
Propiedades del nodo Mimc
Las siguientes propiedades son específicas del nodo Mimc. Para obtener información sobre las propiedades comunes de los nodos, consulte Propiedades de flujos y nodos.
| Nombre de propiedad | Tipo de datos | Descripción de la propiedad |
|---|---|---|
bins |
Entero | En el caso de los campos continuos, la distribución Empírica es la función de distribución acumulada de los datos históricos. |
custom_gen_node_name |
Booleano | Puede generar el nombre del nodo generado (o actualizado) Generar automáticamente seleccionando Auto. |
delta |
Entero | Probabilidad máxima admisible de fuga de privacidad. El valor debe ser <= 1/n*n donde n es el tamaño de la muestra a la vez. O épsilon o delta tiene que ser mayor que 0 |
epsilon |
Entero | Determina el presupuesto de privacidad. Los valores más pequeños proporcionan una mayor protección de la privacidad y pérdida de precisión. |
frequency_weight_field |
campo | Especifique el campo de ponderación si el conjunto de datos contiene uno. El campo de ponderación se excluye luego del proceso de ajuste de la distribución. |
gen_node_name |
Serie | Especifique un nombre personalizado para el nodo Generar generado (o actualizado). |
good_fit_type |
Serie | Para campos continuos, especifique la prueba AnderDarling o la prueba KolmogSmirn de bondad de ajuste para clasificar las distribuciones al ajustar las distribuciones a los campos. |
locale |
Serie | La configuración regional determina qué tipos de diccionario están disponibles para la generación de campos, puede tener un valor de ["de_DE", "en_US", "es_ES", "fr_FR", "it_IT", "ja_JP", "ko_KR", "pl_PL", "pt_BR", "ru_RU", "zh_CN"] |
missing_value_imputation |
Booleano | Establezca True para utilizar la imputación para reemplazar los datos que faltan. Imputar significa sustituir los datos que faltan por una estimación y, a continuación, analizar el conjunto completo de datos como si los valores imputados fueran datos reales. |
missing_value_imputation_continuous_strategy |
Serie | Cuando se sustituyen valores omitidos para un campo continuo, puede establecerse como mean o fixed. Por defecto es 'media'. |
missing_value_imputation_continuous_replace_value |
Entero | Cuando fixed está configurado para missing_value_imputation_continuous_strategy, puede establecer un valor aquí. |
missing_value_imputation_nominal_strategy |
Serie | Cuando se sustituyen los valores que faltan para un campo nominal, puede establecerse como mode o fixed. Por defecto es la media. |
missing_value_imputation_nominal_replace_value |
Entero | Cuando fixed está configurado para missing_value_imputation_nominal_strategy, puede establecer un valor aquí. |
missing_value_imputation_ordinal_strategy |
Serie | Cuando se sustituyen valores perdidos de un campo ordinal, se puede establecer como medium o fixed. Por defecto es la media. |
missing_value_imputation_ordinal_replace_value |
Entero | Cuando fixed está configurado para missing_value_imputation_ordinal_strategy, puede establecer un valor aquí. |
missing_value_imputation_strategies |
Propiedad estructurada | Cuando se establece True para missing_value_imputation, puede utilizar esta propiedad para reemplazar los valores que faltan para campos específicos. Véase el script de ejemplo. |
random_seed |
Entero | Permite reproducir la salida sintética privada diferencial |
typeless_as_realistic |
Booleano | Establézcalo en True para tratar el campo sin tipo como un tipo de diccionario. |
use_diff_privacy |
Booleano | Establézcalo en True para asegurarse de que no se exponen datos sensibles en los datos sintéticos generados controlando los parámetros de presupuesto de privacidad (epsilon) y fuga (delta). |
used_cases_type |
Serie | Especifica el número de casos que se deben utilizar al ajustar las distribuciones a los campos del conjunto de datos. Utilice AllCases o FirstNCases. |
used_cases |
Entero | El número de casos. |
Script de ejemplo
A continuación se muestra un ejemplo de las propiedades utilizadas en un script.
mimicnode.setPropertyValue("missing_value_imputation", "True")
mimicnode.setPropertyValue("missing_value_imputation_strategies","[['Age','Fixed','60']]")