示例:箱图

箱图是查看数据如何分布的另一个有用的可视化。箱图包含几个统计测量,我们将在创建可视化后对其进行探索。

:本示例使用 Employee data

  1. 从菜单中选择:

图形 > 图形板模板选择器...

  1. 在“基本”选项卡上,选择性别薪水。(按住 Ctrl 并单击可选择多个字段/变量。)
  2. 选择箱图
  3. 单击确定
图 1. 箱图
箱图

让我们探索箱图的不同部分:

  • 箱图中间的深色线是 salary 的中位数。一半个案/行的值大于中位数,一半的值小于中位数。与平均值一样,中位数是集中趋势的测量。与平均值不同,它不太受带有极值的个案/行的影响。在本例中,中位数小于平均值(与 示例:带有汇总统计的条形图 相比)。平均值与中位数之间的差异表示存在几个带有提高平均值的极值的个案/行。即,有几个赚取高薪的员工。
  • 箱图的底部表示第 25 个百分位。25% 的个案/行的值低于第 25 个百分位。箱图的顶部代表第 75 个百分位。25% 的个案/行的值高于第 75 个百分位。这意味着 50% 的个案/行在箱图内。女性的箱图比男性短很多。这是女性的 salary 变化没有男性大的一个迹象。箱图的顶部和底部经常称为枢纽
  • 从箱图延伸出的 T 形条称为内围细线。这些条延伸至箱图高度的 1.5 倍,或者如果个案/行有一个在该范围内的值,则延伸至最小或最大值。如果数据呈正态分布,大约 95% 或数据期望在内围之间。在本例中,与男性相比,女性内围延伸较少,这再一次表示女性的 salary 变化比男性小。
  • 点是离群值。这些被定义为不属于内围的值。离群值是极值。星号是离群极值。这些代表拥有超过箱图高度三倍的值的个案/行。女性和男性都有几个离群值。请记住,平均值比中值大。是这些离群值导致了平均值较大。