例: 箱ひげ図

箱ひげ図も、データがどのように分布しているかを表示するための、役立つ視覚化です。 箱ひげ図には、視覚化の作成後に説明するいくつかの統計指標が含まれています。

: この例では、従業員データ を使用します。

  1. メニューから次の項目を選択します。

「グラフ」 > 「グラフボード テンプレート選択」

  1. 「基本」タブで、genderおよび salary を選択します。 (複数のフィールド/変数を選択するには、Ctrl を押しながらクリックします)。
  2. 「箱ひげ図」を選択します。
  3. 「OK」をクリックします。
図 1. 箱ひげ図
箱ひげ図

ここで、Boxplot の各部について説明します。

  • 箱の中央にある暗い線は、salary の中央値です。 ケース/行の半数は中央値よりも大きな値を持ち、残りの半数は中央値よりも小さな値を持っています。 平均値と同様に、中央値も中心傾向の指標です。 平均値と異なり、極端な値を持つケース/行にはあまり影響を受けません。 この例では、中央値が平均値よりも低くなっています (例: 要約統計が含まれた棒グラフと比較してください)。 平均値と中央値にこのような差が見られる場合は、平均値を押し上げる極値を持つケース/行が少ないことを示しています。 つまり、給与が高い従業員の数が少ないということです。
  • 箱の最下部は 25 パーセンタイルを示しています。 25% のケース/行が、この 25 パーセンタイルよりも低い値を持っています。 箱の最上部は 75 パーセンタイルを表しています。 25% のケース/行が、この 75 パーセンタイルよりも高い値を持っています。 つまり、50% のケース/行が箱の内側に入っています。 女性の箱は、男性の箱よりもずっと短くなっています。 これは、男性よりも女性の方が salary の変動が小さいことを示す 1 つのヒントとなります。 箱の上部と下部は、多くの場合、「ヒンジ」と呼ばれます。
  • 箱から伸びている T 字の棒は、「内柵」または「ひげ」と呼ばれます。 これは、箱の高さの 1.5 倍まで、もしくは、その範囲の値を持つケース/行がない場合、最小値または最大値まで伸びます。 データが正規分布に従う場合は、データの約 95% が内堀の間に入ると予測されます。 この例では、男性と比較して女性の方が、内柵の伸びが短くなっており、これも、男性よりも女性の方が salary の変動が小さいことを示しています。
  • 点は外れ値です。 これは、内柵に収まらない値として定義されます。 外れ値は極端な値です。 アスタリスクまたは星形は、極端な外れ値です。 これらは、箱の高さの 3 倍を超える値を持つケース/行を表しています。 女性と男性の両方に、いくつかの外れ値があります。 平均値が中央値よりも大きいことに注意してください。 平均値が中央値よりも大きくなったのは、これらの外れ値が原因です。