Cuantiles (igual frecuencia o igual suma)

Con el método de intervalos de cuantil se crean campos nominales que pueden servir para dividir registros explorados en grupos de percentiles (o cuartiles, deciles, etc.) para que, de este modo, cada grupo contenga el mismo número de registros, o bien la suma de los valores de cada uno de ellos sea la misma. Los registros se clasifican en orden ascendente en función del valor del campo de intervalo especificado, y así, a los registros con los valores más bajos de la variable de intervalo seleccionada se les asigna un rango de 1, al siguiente conjunto de registros un rango de 2, y así sucesivamente. Los valores de umbral de cada intervalo se generan automáticamente según los datos y el método de mosaico empleados.

Extensión del nombre de cuantil. Permite especificar una extensión utilizada para los campos generados con p-tiles estándar. La extensión predeterminada es _TILE más N, donde N es el número de cuantil. También puede determinar si la extensión se debe añadir al principio (prefijo) o al final (sufijo) del nombre de campo. Por ejemplo, puede generar un campo nuevo denominado ingresos_INT4.

Extensión de cuantil personalizada. Permite especificar una extensión utilizada para un rango de cuantiles personalizados. El valor predeterminado es _TILN. Tenga en cuenta que, en este caso, la N no se sustituye por el número personalizado.

Los p-tiles disponibles son:

  • Cuartil. Genera cuatro intervalos, cada uno con el 25% de los casos.
  • Quintil. Genera cinco intervalos, cada uno con el 20% de los casos.
  • Decil. Genera 10 intervalos, cada uno con el 10% de los casos.
  • Veintil. Genera 20 intervalos, cada uno con el 5% de los casos.
  • Percentil. Genera 100 intervalos, cada uno con el 1% de los casos.
  • N personalizado. Seleccione esta opción para especificar el número de intervalos. Por ejemplo, un valor de 3 produciría 3 categorías agrupadas (2 puntos de corte), cada una de las cuales contendría el 33,3% los casos.

Tenga en cuenta que si hay menos valores discretos en los datos que cantidad de cuantiles especificados, no se utilizarán todos los cuantiles. En estos casos la nueva distribución suele reflejar la distribución original de los datos.

Método de mosaico. Especifica el método utilizado para asignar registros a los intervalos.

  • Recuento de registros. Trata de asignar el mismo número de registros a cada intervalo.
  • Suma de los valores. Trata de asignar registros a intervalos de forma que la suma de los valores de cada intervalo sea la misma. Al intentar dirigir los esfuerzos de ventas, por ejemplo, este método puede servir para asignar posibles clientes a grupos de deciles en función del valor de cada registro, de forma que los posibles clientes con los valores más altos se incluyan en el intervalo superior. Así, una empresa farmacéutica puede clasificar a los médicos en grupos de deciles en función del número de prescripciones que realizan. Si bien cada decil contendría aproximadamente el mismo número de scripts, el número de individuos que contribuyen en dichos scripts no sería el mismo, concentrándose los individuos que realizan más scripts en el decil 10. Observe que en este método se da por hecho que todos los valores son superiores a cero, de modo que puede arrojar resultados inesperados en caso de que no sea así.

Empates. Una condición de empate se produce cuando los valores en ambas partes de un punto de corte son idénticos. Por ejemplo, si está asignando deciles y más del 10% de los registros tienen el mismo valor para el campo de intervalo, no todos podrán encajar en el mismo intervalo a menos que se fuerce el umbral de una forma u otra. Así, los empates pueden pasar al siguiente intervalo o permanecer en el actual, pero deberán resolverse de manera que todos los registros con valores idénticos se encuentren en el mismo intervalo, aun cuando esto suponga que algunos intervalos contengan más registros de lo previsto. En consecuencia, los umbrales de los intervalos siguientes también pueden ajustarse, lo que hará que los valores se asignen de manera diferente para el mismo conjunto de números según el método empleado para solucionar el empate.

  • Añadir al siguiente. Seleccione esta opción para mover los valores de empate hacia el siguiente intervalo superior.
  • Mantener en el actual. Mantiene los valores de empate en el intervalo actual (más bajo). Este método puede dar como resultado un menor número total de intervalos creados.
  • Asignar aleatoriamente. Seleccione esta opción para relacionar los valores aleatoriamente a un intervalo. Se intenta mantener así el mismo número de registros en cada intervalo.

Ejemplo: Mosaico por recuento de registros

La tabla siguiente ilustra cómo los valores de campo simplificados se clasifican como cuartiles cuando se usa el mosaico por recuento de registros. Tenga en cuenta que los resultados variarán en función de la opción de empate seleccionada.

Tabla 1. Ejemplo de mosaico por recuento de registros
Valores Añadir al siguiente Mantener en el actual
10 1 1
13 2 1
15 3 2
15 3 2
20 4 3

El número de elementos por intervalo se calcula así:

número total de valor / número de cuantiles

En el ejemplo simplificado anterior, el número de elementos deseado por intervalo es 1,25 (5 valores / 4 cuartiles). El valor 13 (siendo el número de valor 2) divide el umbral del recuento deseado de 1,25 y, por lo tanto, se trata de forma distinta en función de la opción de empate seleccionada. En el modo Añadir al siguiente, se añade al intervalo 2. En el modo Mantener en el actual, se deja en el intervalo 1, forzando el rango de valores del intervalo 4 fuera de los valores de datos existentes. Como resultado, solamente se crearán tres intervalos y los umbrales para cada uno de ellos se ajustarán en consecuencia, como se muestra en la tabla siguiente.

Tabla 2. Resultado del ejemplo de intervalos
Intervalo Inferior Superior
1 >=10 <15
2 >=15 <20
3 >=20 <=20

Nota: la velocidad de creación de intervalos por cuantiles puede ser mayor si se activa el procesamiento paralelo.