Generación automática de categorías agrupadas

El cuadro de diálogo Crear puntos de corte permite la creación automática de categorías agrupadas en función de los criterios seleccionados.

Para utilizar el cuadro de diálogo Crear puntos de corte

  1. Seleccione en los menús de la ventana Editor de datos:

    Transformar > Agrupación visual ...

  2. Seleccione las variables numéricas de escala u ordinales para las que desee crear nuevas variables categóricas (en agrupaciones).
  3. Pulse Continuar.
  4. Seleccione (pulse) una variable de la Lista de variables exploradas.
  5. Pulse Crear puntos de corte.
  6. Seleccione los criterios de generación de los puntos de corte que definirán las categorías agrupadas.
  7. Haga clic en Aplicar.

Nota: el cuadro de diálogo Crear puntos de corte no está disponible si no se ha explorado ningún caso.

Intervalos de igual amplitud. Genera categorías agrupadas de igual amplitud (por ejemplo, 1–10, 11–20, 21–30), basándose en dos (cualesquiera) de los tres criterios siguientes:

  • Posición del primer punto de corte. Valor que define el límite superior de la categoría agrupada inferior (por ejemplo, el valor 10 indica un intervalo que incluya todos los valores hasta 10).
  • Número de puntos de corte. El número de categorías agrupadas es el número de puntos de corte más uno. Por ejemplo, 9 puntos de corte generan 10 categorías agrupadas.
  • Ancho. La amplitud de cada intervalo. Por ejemplo, el valor 10 agrupará la variable Edad en años en intervalos de 10 años.

Percentiles iguales basados en los casos explorados. Genera categorías agrupadas con un número igual de casos en cada intervalo (utilizando el algoritmo "aempirical" para el cálculo de percentiles), según uno de los criterios siguientes:

  • Número de puntos de corte. El número de categorías agrupadas es el número de puntos de corte más uno. Por ejemplo, tres puntos de corte generan cuatro intervalos percentiles (cuartiles), conteniendo cada uno el 25% de los casos.
  • Amplitud (%). Amplitud de cada intervalo, expresado como un porcentaje del número total de casos. Por ejemplo, el valor 33,3 generaría tres categorías agrupadas (dos puntos de corte), conteniendo cada una el 33,3% de los casos.

Si la variable origen contiene un número relativamente pequeño de valores distintos o un gran número de casos con el mismo valor, es posible que obtenga menos intervalos que las solicitadas. En caso de haber varios valores idénticos en un punto de corte, todos se incluyen en el mismo intervalo; por consiguiente, los porcentajes reales pueden no ser siempre iguales.

Puntos de corte en media y desviaciones estándar seleccionadas, basadas en casos explorados. Genera categorías agrupadas basándose en los valores de la media y la desviación estándar de la distribución de la variable.

  • Si no selecciona ninguno de los intervalos de desviación estándar, se crearán dos categorías agrupadas, siendo la media el punto de corte que divida los intervalos.
  • Puede seleccionar cualquier combinación de los intervalos de desviación estándar, basándose en una, dos o tres desviaciones estándar. Por ejemplo, al seleccionar las tres opciones se obtendrán ocho categorías agrupadas: seis intervalos distanciados en una desviación estándar de amplitud y dos intervalos para los casos que se encuentren a más de tres desviaciones estándar por encima y por debajo de la media.

En una distribución normal, el 68% de los casos se encuentra dentro de una distancia de una desviación estándar respecto a la media, el 95% entre dos desviaciones estándar y el 99% dentro de tres desviaciones estándar. La creación de categorías agrupadas basadas en desviaciones estándar puede ocasionar que algunos intervalos queden definidos fuera del rango real de los datos, e incluso fuera del rango de valores posibles de los datos (por ejemplo, un rango de salarios negativos).

Nota: los cálculos de los percentiles y las desviaciones estándar se basan en los casos explorados. Si limita el número de casos explorados, puede que los intervalos resultantes no incluyan la proporción de casos deseada en dichos intervalos, sobre todo si el archivo de datos se ordenó según la variable origen. Por ejemplo, si limita la exploración a los primeros 100 casos de un archivo de datos con 1000 casos y el archivo de datos está ordenado en orden descendente por edad del encuestado, en lugar de cuatro intervalos percentiles de la edad, cada uno con el 25% de los casos, podría encontrarse con que los tres primeros intervalos contuvieran cada una sólo en torno al 3,3% de los casos, mientras que el último intervalo albergaría el 90% de los casos.