Пример: ящичная диаграмма с усами

Ящичная диаграмма с усами является еще одним полезным средством визуализации распределения данных. На ящичной диаграмме с усами показываются несколько статистических мер, которые мы рассмотрим после построения диаграммы.

Примечание: В этом примере используются Данные о наемных работниках.

  1. Выберите в меню:

Диаграммы > Панель выбора диаграмм...

  1. На вкладке Основные выберите пол и заработок . (Используйте клавишу Ctrl, чтобы выделить несколько полей/переменных).
  2. Выберите Boxplot (Ящики).
  3. Нажмите кнопку OK.
Рис. 1. Ящики с усами
Ящичная диаграмма с усами

Ниже приводится описание разных частей ящичной диаграммы с усами:

  • Темная линия посередине ящиков - это медиана переменной salary (зарплата). Половина наблюдений/строк имеют значение выше этой медианы, а половина - ниже ее. Как и среднее значение, медиана является мерой положения центра распределения. В отличие от среднего значения, наблюдения/строки с экстремальными значениями оказывают на нее меньшее влияние. В этом примере медиана меньше среднего (сравните с разделом Пример: Столбчатая диаграмма с итожащей статистикой ). Разница между средним значением и медианой указывает на то, что существует несколько наблюдений/строк с экстремальными значениями, которые увеличивают среднее значение. То есть на то, что несколько сотрудников получают большие зарплаты.
  • Нижняя граница ящика соответствует 25-й процентили. Двадцать пять процентов наблюдений/строк имеют значения ниже 25-й процентили. Верхняя граница ящика соответствует 75-й процентили. Двадцать пять процентов наблюдений/строк имеют значения выше 75-й процентили. Это значит, что 50% наблюдений/строк лежат в пределах ящика. Ящик значительно короче для женщин, чем для мужчин. Это говорит о том, что зарплаты у женщин различаются между собой меньше, чем у мужчин. Верхнюю и нижнюю границы ящика часто называют сгибами .
  • T-образные столбцы, выходящие за пределы ящиков, называются внутренними ограничителями или усами . Их длина больше высоты ящика в 1,5 раза или, если в этом диапазоне нет ни одного значения наблюдения/строки, их длина будет соответствовать минимальному и максимальному значениям. При нормальном распределении данных в диапазоне "усов" должно лежать примерно 95% данных. В этом примере "усы" для женщин меньше, чем для мужчин, что является еще одним свидетельством того, что зарплаты у женщин различаются между собой меньше, чем у мужчин.
  • Точки - это выбросы. Выбросы - это значения, которые лежат за пределами усов. Выбросы - это экстремальные значения. Звездочки - это экстремальные выбросы. Они представляют наблюдения/строки, которые имеют значения, превышающие высоту ящиков, больше чем в три раза. Имеется несколько выбросов как для женщин, так и для мужчин. Помните, что среднее значение больше медианы. Причиной этого являются выбросы.