例: Boxplot
Boxplot も、データの分布を表示するために便利な視覚化です。Boxplot にはいくつかの統計指標が表示されます。 これらの指標については、視覚化を作成した後に説明します。
注 : この例では Employee data を使用します。
- グラフボード・ノードを追加して、編集用にそれを開きます。
- 「基本」タブで、Gender および Current Salary を選択します。 (複数のフィールド/変数を選択するには、Ctrl とクリックを使用します)。
- 「Boxplot」を選択します。
- 「実行」をクリックします。

ここで、Boxplot の各部について説明します。
- 箱の中央にある濃い線は salary の中央値です。ケース/行の半数は中央値よりも大きな値を持ち、残りの半数は中央値よりも小さな値を持っています。平均値と同様に、中央値も中心傾向の指標です。平均値と異なるのは、極値を伴うケース/行による影響が小さいことです。この例では、中央値は、平均値よりも小さくなっています (例: 要約統計量を使用した棒グラフと比較してください)。平均値と中央値にこのような差が見られる場合は、平均値を押し上げる極値を持つケース/行が少ないことを示しています。つまり、給与が高い従業員の数が少ないということです。
- 箱の最下部は 25 パーセンタイルを示しています。25% のケース/行が、この 25 パーセンタイルよりも低い値を持っています。箱の最上部は 75 パーセンタイルを表しています。25% のケース/行が、この 75 パーセンタイルよりも高い値を持っています。つまり、50% のケース/行が箱の内側に入っています。女性の箱は、男性の箱よりもずっと短くなっています。このことから、女性の salary のばらつきが男性よりも小さいことが分かります。多くの場合、箱の上端と下端をヒンジと呼びます。
- 箱から延びている T 形の棒を内堀またはひげと呼びます。これらは、箱の高さの 1.5 倍 (その範囲内の値を持つケース/行がない場合は、最小値または最大値) まで延びています。データが正規分布に従う場合は、データの約 95% が内堀の間に入ると予測されます。この例では、女性の内堀の範囲が男性と比べて狭くなっており、このことからも女性の salary のばらつきが男性よりも小さいことが分かります。
- 図中の各点は外れ値です。この値は、内堀の間に入らない値として定義されます。外れ値とは、極端な値のことです。アスタリスク (星形) は、外れ値の中でも極端な値です。これは、箱の高さの 3 倍を超える値を持つケース/行を表しています。女性と男性の両方に、いくつかの外れ値があります。ここで、平均値が中央値よりも大きかったことを思い出してください。平均値が中央値よりも大きくなったのは、これらの外れ値が原因です。