Conceptos de muestreo aleatorio

En general, se admiten los tipos de muestreo aleatorio, por filas y por bloques en IBM Knowledge Catalog. Varias condiciones definen cómo se compone la muestra.

En el caso de los activos de datos conectados, se comprueba si el conector admite el envío de muestreos a la fuente de datos. Si se admite el tipo de muestreo, este se realiza en la fuente de datos.

Si el conector no admite ninguno de estos tipos de muestreo, la muestra se genera de la siguiente manera:

  • Si se dispone del número total de registros (real o aproximado) en el activo de datos, se utiliza el muestreo de Bernoulli.

    1. El porcentaje de registros que se van a muestrear se calcula utilizando esta fórmula: ( tamaño _ de_muestra_solicitado/número_total_de_registros)*100
    2. Los registros se leen en lotes de 10 000 y, mediante la aleatorización, se seleccionan registros de cada lote con el porcentaje calculado.

    De forma predeterminada, el recuento total de registros no se recupera durante la creación de perfiles. Un administrador puede habilitar esta opción para la Cloud Pak for Data implementación.

  • Si no se dispone del número total de registros, no se puede calcular el porcentaje para el muestreo de Bernoulli. En ese caso, se selecciona el 80 % de los registros de cada lote de 10 000 registros leídos para la muestra hasta alcanzar el tamaño de muestra requerido.

    Por ejemplo, si tienes una tabla con 10 000 000 registros y necesitas una muestra aleatoria de 50 000 registros, se extraerá el 80 % de los registros de cada lote de 10 000 registros, lo que en este caso supone 8000 registros por lote. Por lo tanto, para obtener una muestra de 50 000 registros, se leen aproximadamente 7 lotes de 10 000 registros.

Más información