Ejemplo: Gráfico de caja
Un diagrama de cajas es otra visualización que resultar útil para saber cómo se distribuyen los datos. Un diagrama de cajas contiene varias medidas estadísticas que estudiaremos tras crear la visualización.
Nota: este ejemplo usa Employee data.
- En los menús seleccione:
- En la pestaña Básico, seleccione género y salario . (Mantenga pulsada la tecla Ctrl mientras pulsa para seleccionar varios campos o variables.)
- Seleccione Diagrama de caja.
- Pulse Aceptar.

Veamos las distintas partes del gráfico de caja:
- La línea oscura que se encuentra en la mitad de las cajas es la mediana del salario. La mitad de los casos o filas tiene un valor superior a la mediana y la otra mitad tiene un valor inferior. Igual que la media, la mediana es una medida de tendencia central. A diferencia de la media, se ve menos influida por los casos o filas con valores extremos. En este ejemplo, la mediana es menor que la media (comparar con Ejemplo: gráfico de barras con un estadístico de resumen ). La diferencia entre la media y la mediana indica que hay menos casos o filas con valores extremos que elevan la media. Es decir, hay un par de trabajadores con grandes salarios.
- La parte inferior de la caja indica el percentil 25. El veinticinco por ciento de los casos o filas tienen valores por debajo del percentil 25. La parte superior de la caja representa el percentil 75. El veinticinco por ciento de los casos o filas tienen valores por encima del percentil 75. Esto significa que el 50 % de los casos o filas se encuentran dentro de la caja. La caja es mucho más pequeña para mujeres que para hombres. Es una pista que indica que el salario varía menos entre las mujeres que entre los hombres. Las partes superior e inferior de la caja suelen denominarse bisagras.
- Las barras en forma de T que salen de las cajas se denominan cercas internas o patillas o bigotes. Tienen una extensión de 1,5 veces la altura de la caja o, si no hay ningún caso o fila con valor en dicho rango, hasta los valores mínimo y máximo. Si los datos se distribuyen con normalidad, se espera que aproximadamente el 95 % de los datos se encuentre entre las cercas internas. En este ejemplo, las cercas internas tienen una extensión menor para las mujeres que para los hombres, otro indicativo de que el salario varía menos entre las mujeres que entre los hombres.
- Los puntos son valores atípicos. Se definen como valores que no están dentro de las cercas internas. Los valores atípicos son valores extremos. Los asteriscos o estrellas son valores atípicos extremos. Representan casos o filas con valores superiores a la altura de las cajas multiplicada por tres. Existen varios valores atípicos tanto para mujeres como para hombres. Recuerde que la media es superior que la mediana. La media de mayor tamaño es el resultado de estos valores atípicos.