Nodo Muestrear

Puede utilizar los nodos Muestrear para seleccionar un subconjunto de análisis o especificar una proporción de registros que descartar. Se admite una variedad de tipos de muestras, entre las que se incluyen las muestras estratificadas, agrupadas en clústeres y no aleatorias (estructuradas). El muestreo se puede utilizar por varias razones:

Para mejorar el rendimiento por modelos de estimación en un subconjunto de datos. Los modelos estimados de una muestra son normalmente tan precisos como los derivados del conjunto de datos completo y pueden serlo más si el rendimiento mejorado permite experimentar con diferentes métodos que de lo contrario no intentaría.
Para seleccionar grupos de registros relacionados o transacciones de análisis, como la selección de todos los elementos en un carro de la compra en línea (o cesta de la compra) o todas las propiedades en una vecindad específica.
Para identificar las unidades o los casos de inspección aleatoria en busca de la garantía de calidad, la prevención de fraudes o la seguridad.

Nota: Si simplemente desea realizar una partición de sus datos en muestras de comprobación y entrenamiento con fines de validación, puede utilizar un nodo Partición. Consulte Nodo Partición para obtener más información.

Tipos de muestras

Muestras agrupadas en clústeres. Grupos o clústeres de muestra en lugar de unidades individuales. Por ejemplo, supongamos que tiene un archivo de datos con un registro por alumno. Si ha agrupado por colegio y el tamaño de la muestra es 50 %, se seleccionará el 50 % de colegios y se tomarán todos los alumnos de cada colegio seleccionado. Se rechazarán los alumnos de los colegios no seleccionados. Como media, esperaría una selección del 50 % de alumnos aproximadamente, pero dado que los colegios tienen distintos tamaños, el porcentaje no será exacto. De forma similar, podría agrupar elementos del carro de la compra por ID de transacciones para asegurarse de que se conservan todos los elementos de las transacciones seleccionadas. Para un ejemplo que agrupe las propiedades por ciudad, consulte la ruta de ejemplo complexsample_property.str.

Muestras estratificadas. Selecciona muestras de forma independiente dentro de subgrupos no superpuestos de población o estratos. Por ejemplo, puede asegurar que se toman hombres y mujeres en proporciones iguales o que se representan todas las regiones o grupos socioeconómicos dentro de una población urbana. También puede especificar un tamaño de muestra diferente para cada estrato (por ejemplo, si piensa que un grupo se ha representado en inferioridad de condiciones en los datos originales). Para un ejemplo que estratifique las propiedades por provincia, consulte la ruta de ejemplo complexsample_property.str.

Muestreo sistemático o 1-de cada-n. Cuando es difícil de obtener una selección aleatoria, las unidades se pueden muestrear de forma sistemática (a un intervalo fijo) o secuencial.

Ponderaciones muestrales. Las ponderaciones de muestreo se calculan automáticamente al extraer una muestra compleja y corresponde aproximadamente a la "frecuencia" que cada unidad muestreada representa en los datos originales. Por consiguiente, la suma de las ponderaciones sobre la muestra debe calcular el tamaño de los datos originales.

Marco de muestreo

Un marco de muestreo define el origen potencial de casos que se deben incluir en una muestra o estudio. En algunos casos, puede ser factible identificar cada miembro individual de una población e incluir cualquiera de ellos en una muestra, por ejemplo, cuando realizan muestreos de elementos extraídos de una línea de producción. La mayoría de las veces no podrá acceder a cada caso posible. Por ejemplo, no puede estar seguro de quién votará en una elección hasta que se haya producido la elección. En este caso, podría utilizar el registro electoral como marco de muestreo, incluso si algunas personas registradas no votan y algunas personas podrían votar a pesar de no haberse incluido en la lista en el momento que comprobó el registro. Cualquiera fuera del marco de muestreo no tiene posibilidades de poder incluirse en la muestra. La cuestión de si su marco de muestreo es lo bastante cercano a la población que intenta evaluar debe estudiarse para cada caso real.