範例:箱型圖

盒形圖是另一種實用的視覺化方式,可用來檢視資料分配的方式。 盒形圖包含許多統計測量,讓我們在建立視覺化之後可以一一探討。

附註:本範例使用 Employee data

  1. 從功能表中選擇:

圖形 > 圖形板樣本選擇器 ...

  1. 在「基本」標籤上,選取 性別薪資 。 (按住 Ctrl 並按一下可選取多個欄位/變數。)
  2. 選取 箱形圖
  3. 按一下確定
圖 1. 箱型圖
箱型圖

我們來看看盒形圖的不同之處:

  • 盒狀中央的深色線是薪資的中位數。 觀察值/列半數的值大於中位數,而半數的值小於中位數。 和平均數相似的是,中位數是集中趨勢的量數。 和平均數不同的是,中位數較不會受到有極端數值的觀察值/列影響。 在此範例中,中位數低於平均數 (與 範例: 具有摘要統計量的長條圖 相比)。 平均數與中位數的差異表示有一些觀察值/列具有極端數值,因此拉高平均值。 也就是說,有少數員工的薪資很高。
  • 盒狀的底端表示第 25 個百分位數。 百分之二十五的觀察值/列的值低於第 25 個百分位數。 盒狀的頂端表示第 75 個百分位數。 百分之七十五的觀察值/列的值高於第 75 個百分位數。 這就表示,盒狀當中的就是 50% 的觀察值/列。 女性的盒狀遠比男性的短。 這是女性薪資變動比男性少的一個線索。 盒狀的上下通常稱為樞紐
  • 從盒狀延伸的 T 長條稱為內籬。 這些長條會延伸至盒狀高度的 1.5 倍,或若該範圍內都沒有觀察值/列的值,則會是值的最大值或最小值。 若資料呈常態分配,內籬中應該有約 95% 的資料。 在此範例中,內籬延伸情況女性少於男性,這是女性薪資變化較少的另一個指標。
  • 這些點是偏離值。 即被定義為未落在內籬中的值。 偏離值就是極端數值。 星號或星形圖案表示極端偏離值。 這些觀察值/列的值超過盒狀高度三倍以上。 男性和女性都有許多偏離值。 請記住,本範例的平均數大於中位數。 平均數較大就是由於這些偏離值所影響的。