用語集

A

Asymptotic Significance (漸近有意確率)

状況によっては、検定統計量の分布がうまく定義されないことがあります。ただし、多くの場合は、統計量の計算に使用する観測値の数が増えるに従って、分布は既知の分布に近づきます。その後、このうまく定義された分布を使用して、検定統計量の有意確率の値を計算します。

B

Bernoulli (Bernoulli)

ベルヌーイ分布は 0 および 1 の値を取ります。ベルヌーイ変量は、指定された確率パラメーターに等しい確率で 1 の値を取ります。

boxplot (箱ひげ図)

箱ひげ図は、変数の分布の特徴を図示し、中央値および四分位を示します。外れ値がある場合は、特殊な記号でその位置を示します。

C

カテゴリー (categorical)

値の個数が離散的な変数の一種。順序変数と名義型変数があります。多くの場合、カテゴリー変数は、変数や因子をグループ化するために使用します。

セル

セルは、1 つ以上の因子のレベルの交差分類です。例えば、顧客の因子として地域、配偶者の有無、教育レベルを使用している場合、北部販売地域にいる既婚の大学卒業者は 1 つのセルを構成します。

中心傾向 (central tendency)

分布の属性の 1 つ。分布における値がどこに「集まる」傾向にあるかを示します。中心傾向の指標には、平均値、中央値、および最頻値があります。

相関

一方の変数の値が変化するともう一方の変数の値も変化する場合、それら 2 つの変数には相関があります。相関の最も一般的な指標は Pearson の相関であり、2 つの変数の間の関係を直線で記述できる度合いを測定します。

Covariate (共変量)

モデルに追加された尺度変数。予測モデルでは、共変量の値の変化を目標 (従属) 変数の値の変化に関連付ける必要があります。

cut point (分割点 (2 項検定))

分割点は、数値変数の値がその分割点の上であるか下であるかに基づいてケースを 2 つのグループに分割するために使用します。

D

散らばり (dispersion)

値の散らばりに関する度数分布の属性。散らばりの指標には、分散、標準偏差、および 4 分位範囲があります。

E

Euclidean distance (ユークリッド距離)

2 点を直線で結ぶことで計算される、それらの点の間の距離。

F

因子

ケースのグループを定義する独立変数。

K

尖度 (Kurtosis)

外れ値が存在する度合いの指標。正規分布の場合、尖度の統計値は 0 です。尖度が正の場合、そのデータの極端な外れ値は正規分布よりも多いことを示します。負の尖度は、データが正規分布よりも極端な異常値を示さないことを示します。使用されている尖度の定義では、正規分布の場合は値が0となり、過剰尖度と呼ばれることもあります。ソフトウェアによっては、正規分布の場合、kurtosisの値が3であると報告されることがあります。

L

層 (layer)

行を表の高さとし、列を幅とすると、層は深さになります。

level

因子の値を因子のレベルまたは因子レベルと呼びます。

log transformation (対数変換)

非正規性を修正するために、自然対数を正の値の変数に適用することができます。この方法は、非正規性の原因が正の歪度であるときに最も効果的です。

M

平均

中心傾向の指標。算術平均 (合計をケース数で割った値) です。

中央値 (Median)

この値より上と下それぞれにケースの半数ずつが該当することになる値。50 パーセンタイル。ケース数が偶数の場合の中央値は、昇順または降順にソートしたときに中央に来る 2 つのケースの平均です。中央値は、外れ値に対して敏感でない、中心傾向の指標です。それに対して平均値は、少数の極端に大きいまたは小さい値に影響されることがあります。

N

名義

本質的な順位を持たないカテゴリーを表す値である場合 (従業員の勤務先企業での部署など)、変数を名義変数として取り扱うことができます。名義変数の例としては、地域、郵便番号、宗教上の所属などが挙げられます。

Normal Distribution (正規分布)

正規 (ガウス) 分布は、位置 (平均値) およびスケール (標準偏差) のパラメーターで定義します。その確率密度関数は、平均値を挟んで左右対称のつりがね形をしています。平均値から標準偏差の 1 倍の範囲内に正規変量のうち約 68% の値が、標準偏差の 2 倍の範囲内に 95% の値が、標準偏差の 3 倍の範囲内に 99.7% の値が入ります。

O

OLAP

OLAP キューブは、複数のグループ化変数にわたって集計した結果のテーブルであり、対話式の操作や再配置が可能です。例えば、地域、製品の種類、顧客の種類、月、売上指標 (注文数、売上、利益など) ごとに売上高を集計することができます。

順序

値が本質的な順位を持つカテゴリーを表す場合 (例えば、サービス満足度のレベルを「非常に不満」から「非常に満足」までの順位で評価する場合) は、変数を順序変数として扱うことができます。順序変数の例としては、満足度や信頼度を表す得点や嗜好得点などが挙げられます。

outlier (外れ値)

外れ値は、観測値の大多数の値から離れた観測値です。場合によってはより厳密に、最も近い 4 分位からの距離が 4 分位範囲の 1.5 倍より大きい値と定義します。外れ値が存在すると平均値が外れ値の側に引き寄せられてしまうため、必ず十分に検討してください。

P

pairwise (ペアごと)

大規模なセットの中の 2 つの変数の間の関連度を計算するときに、セットの中の他の変数の値にかかわらず、対象とする 2 つの変数が欠損値を持たないケースを計算に含めます。

practical significance (実際の有意差)

統計的検定では「2 つのグループの間に差があるか」という質問に対する回答を得ることができますが、「その差は注意を払うほど十分に大きいか」という質問に対する回答を得ることはできません。検定結果が自身の状況にとって有用かどうかは自身で判断する必要があります。

S

スケール (scale)

意味のある測定基準を持つ順序カテゴリーを値が表しており、値の間の距離の比較が可能である場合は、変数をスケール (連続型) として扱うことができます。スケール変数の例としては、年齢や、千ドル単位で表した所得が挙げられます。

感度

分類方法の有用性の指標。感度は「正」のケースが正しく分類される確率であり、ROC 曲線の Y 軸にプロットされます。 1 から感度を引いた値は偽陰性率です。

歪度

分布の非対称性の指標。正規分布は対称であり、歪度の値は 0 です。歪度が正の大きな値である分布は、右側の裾が長くなります。歪度が負で絶対値が大きい分布は、左側の裾が長くなります。目安として、歪度が標準誤差の 2 倍より大きい場合は、対称分布からずれていると解釈します。

特異度 (Specificity)

分類方法の有用性の指標。特異度は、「負」のケースが正しく分類される確率です。 1 から特異度を引いた値は偽陽性率であり、ROC 曲線の X 軸にプロットされます。

標準偏差 (standard deviation)

平均の周りの散らばりの指標。分散の平方根に等しくなります。標準偏差は元の変数と同じ単位で表します。

T

trimmed mean (トリム平均)

大きさで上位 n% と下位 n% のケースを除いて計算した算術平均。平均の計算から極端なケースを除外すると、特にデータが正規でない場合によりよい中心傾向を推定できます。

t 検定 (t test)

2 つのグループの平均値を比較する統計検定。検定結果が統計的に有意である場合、2 つの平均値は異なります。

Z

z 得点 (z score)

標準化された値とも呼びます。変数の z 得点を求めるには、ケースごとに変数の平均値を引いて標準偏差で割ります。 z 得点は、外れ値を見つけたり、異なるスケールで測定した変数の値を比較したりする場合に便利です。