Opciones del nodo Partición

Campo de partición. Especifica el nombre del campo creado por el nodo.

Particiones. Puede dividir los datos en dos muestras (Entrenamiento y comprobación) o en tres (Entrenamiento, comprobación y validación).

  • Entrenamiento y comprobación. Divide los datos en dos particiones de muestra, lo que permite entrenar el modelo con una muestra y comprobarlo con otra.
  • Entrenamiento, comprobación y validación. Divide los datos en tres particiones de muestra, lo que permite entrenar el modelo con una muestra, comprobarlo y ajustarlo con otra y validar los resultados con otra. Así se reduce el tamaño de cada partición en consecuencia y puede ser más adecuado al trabajar con un conjunto de datos muy grande.

Tamaño de partición. Especifica el tamaño relativo de cada partición. Si la suma de los tamaños de partición es inferior al 100%, los registros no incluidos en una partición se descartarán. Por ejemplo, si un usuario tiene 10 millones de registros y tamaños de partición del 5% para el entrenamiento y el 10% para la prueba, después de ejecutar el nodo, debería haber unos 500.000 registros de entrenamiento y un millón de registros de prueba, con el resto descartado.

Valores. Especifica los valores utilizados para representar cada muestra de partición de los datos.

  • Utiliza valores definidos por el sistema (1", "2" y "3"). Utiliza un número entero para representar cada partición; por ejemplo, todos los registros que se encuentran en la muestra de entrenamiento tienen un valor de 1 para el campo de partición. Así se garantiza que los datos sean intercambiables entre configuraciones regionales y que si el campo de partición se reinstancia en otro lugar (por ejemplo, al leer los datos de una base de datos), se mantendrá el orden de clasificación (así, 1 seguirá representando la partición de entrenamiento). Sin embargo, los valores requieren alguna interpretación.
  • Añadir etiquetas a los valores definidos por el sistema. Combina el número entero con una etiqueta; por ejemplo, los registros de partición de entrenamiento tienen un valor de 1_Entrenamiento. Así es posible identificar la identidad de los valores y mantener el orden de clasificación. Sin embargo, los valores son específicos de una configuración regional específica.
  • Utilizar etiquetas como valores. Utiliza la etiqueta sin números enteros; por ejemplo, Entrenamiento. Esto permite especificar los valores al editar las etiquetas. Sin embargo, los datos de configuración se vuelven específicos de la configuración regional y, al volver a crear una instancia de una columna de partición, los valores se colocan en su orden natural, que puede no corresponder con su orden "semántico".

Semilla. Sólo está disponible cuando se selecciona Asignación de partición repetible. Cuando se muestran o particionan registros a partir de un porcentaje aleatorio, esta opción permite duplicar los mismos resultados en otra sesión. Al especificar el valor inicial utilizado por el generador de números aleatorios, puede garantizar que se asignan los mismos registros cada vez que se ejecuta el nodo. Introduzca el valor de semilla deseado, o pulse en el botón Generar para generar automáticamente un valor aleatorio. Si no se selecciona esta opción, se generará una muestra diferente cada vez que se ejecute el nodo.

Nota: Cuando se utiliza la opción Semilla con registros leídos de una base de datos, puede ser necesario un nodo Ordenar, antes del muestreo con el fin de garantizar el mismo resultado cada vez que se ejecute el nodo. Esto se debe a que la semilla aleatoria depende del orden de registros, sin estar garantizado que sea el mismo en una base de datos relacional. Consulte el tema Nodo Ordenar para obtener más información. Las

Utilice un campo exclusivo para asignar particiones. Sólo está disponible cuando se selecciona Asignación de partición repetible. (Solamente para bases de datos de nivel 1.) Marque este cuadro para utilizar retroacción SQL para asignar registros a particiones. En la lista desplegable, seleccione un campo con valores exclusivos (como un campo ID) para garantizar que los registros se asignan de forma aleatoria pero repetible.

Los niveles de la base de datos se explican en la descripción del nodo de origen de base de datos. Consulte el tema Nodo de origen Base de datos para obtener más información. Las

Generación de nodos Seleccionar

Mediante el menú Generar del nodo Partición se puede generar automáticamente un nodo Seleccionar para cada partición. Por ejemplo, se pueden seleccionar todos los registros de la partición de prueba para obtener una evaluación o análisis más profundos al utilizar solamente esta partición.