示例:箱图
箱图是另一个可查看数据分布情况的有用的直观表示。箱图中包含了多个统计测量,我们将在创建直观表示后对其进行探索。
注:此示例使用员工数据。
- 添加“图形板”节点并打开它进行编辑。
- 在“基本”选项卡上,选择性别和当前工资。(使用 Ctrl + 单击可选择多个字段/变量。)
- 选择箱图。
- 单击运行。
图 1. 箱图

现在我们来探索箱图的各个部分:
- 盒中间的暗线是工资的中位数。一半观测值/行的值大于中位数,另一半值小于中位数。与平均值相同,中位数是集中趋势的测量。与平均值不同的是,包含极值的观测值/行对中位数的影响较小。在此示例中,中位数小于平均值(与示例:含汇总统计的条形图相比较)。平均值与中位数之间的差值表明,有一小部分包含极值的观测值/行提高了平均值。也就是说,有一小部分员工的工资非常高。
- 盒的底部表示第 25 个百分位数。25% 的观测值/行的值小于第 25 个百分位数。盒的顶部表示第 75 个百分位数。25% 的观测值/行的值大于第 75 个百分位数。这意味着 50% 的观测值/行位于该盒中。女性对应的盒比男性对应的盒短得多。这表示女性的工资变化小于男性的工资变化。框的底部和顶部通常称为折叶点。
- 从盒内延伸出的 T 条形称为内限或须。这些条形会延伸到盒高度的 1.5 倍,如果该范围内没有观测值/行的值,那么会延伸到最小值或最大值。如果数据呈正态分布,那么约有 95% 的数据落在内界限中。在该示例中,女性对应的内界限延伸长度小于男性对应的延伸长度,这同样也说明了女性的工资变化幅度小于男性的工资变化幅度。
- 这些点是离群值。这些值是指落在内界限外的值。离群值是极值。星号或星形表示极端异常值。这些值表示观测值/行具有盒高度三倍以上的值。女性和男性都对应有几个离群值。请记住平均值大于中位数。平均值之所以比较大,原因就在于这些离群值。