統計の表示
「統計の表示」ダイアログ・ボックスでは、「監査」タブに表示される統計量を選択することができます。初期設定は、データ検査ノードで指定されています。 詳しくは、データ検査ノードの「設定」タブのトピックを参照してください。
Minimum (最小). 数値変数の最小値。
Maximum (最大). 数値変数の最大値。
Sum (合計). 欠損値でない値を持つすべてのケースにわたる値の和 (合計)。
Range (範囲). 数値変数の最大値と最小値の差。最大値から最小値を引いた値。
Mean (平均). 中心傾向の指標。算術平均 (合計をケース数で割った値) です。
Standard Error of Mean (平均値の標準誤差). 同じ分布から抽出したサンプルの間で平均値がどの程度異なるかを示す指標。観測した平均と仮説による値をおおまかに比較するために使用することができます (差と標準誤差の比率が -2 より小さいか +2 より大きい場合は、2 つの値が異なっていると結論付けることができます)。
standard deviation (標準偏差). 平均の周りの散らばりの指標。 分散の平方根に等しくなります。標準偏差は元の変数と同じ単位で表します。
Variance (分散). 平均値の周りの値の散らばりの指標。 平均値からの偏差の平方和を、ケース数より 1 少ない値で割ったものに等しくなります。分散の測定単位は、 変数自体の単位の 2 乗です。
Skewness (歪度). 分布の非対称性の指標。正規分布は対称であり、歪度の値は 0 です。歪度が正の大きな値である分布は、右側の裾が長くなります。歪度が負で絶対値が大きい分布は、 左側の裾が長くなります。目安として、 歪度が標準誤差の 2 倍より大きい場合は、対称分布からずれていると解釈します。
Standard Error of Skewness (歪度の標準誤差). 標準誤差に対する歪度の比率は、 正規性の検定として使用することができます (比率が -2 より小さいか +2 より大きい場合は、 正規性を棄却することができます)。歪度が大きな正の値である場合は、右側の裾が長いことを示します。 極端な負の値の場合は、左側の裾が長いことを示します。
Kurtosis (尖度). 外れ値が存在する度合いの指標。正規分布の場合、 尖度の統計値は 0 です。尖度が正の場合、そのデータの極端な外れ値は正規分布よりも多いことを示します。尖度が負の場合、そのデータの極端な外れ値は正規分布よりも少ないことを示します。
Standard Error of Kurtosis (尖度の標準誤差). 標準誤差に対する尖度の比率は、 正規性の検定として使用することができます (比率が -2 より小さいか +2 より大きい場合は、 正規性を棄却することができます)。尖度が大きな正の値である場合は、 分布の裾が正規分布の裾より長いことを示します。尖度が負の値である場合は、 裾が短いことを示します (箱形の一様分布に似た形になります)。
Unique (固有). あらゆる種類の他のすべての効果に適合するように各効果を調整することによって、 すべての効果を同時に評価します。
Valid (有効). ユーザー欠損として定義された値もシステム欠損値も持たない有効なケース。ヌル (未定義の) 値、空白値、ホワイト スペースや空の文字列は、常に無効な値として処理されます。
Median (中央値). この値より上と下それぞれにケースの半数ずつが該当することになる値。50 パーセンタイル。ケース数が偶数の場合の中央値は、 昇順または降順にソートしたときに中央に来る 2 つのケースの平均です。中央値は、 外れ値に対して敏感でない、中心傾向の指標です。それに対して平均値は、 少数の極端に大きいまたは小さい値に影響されることがあります。
Mode (最頻値). 最も多く出現する値。複数の値が最高の頻度で出現し、 その頻度が同じである場合は、それぞれが最頻値となります。
パフォーマンス改善のために中央値と最頻値はデフォルトで抑制されていますが、データ検査ノードの「設定」タブで選択することができます。 詳しくは、データ検査ノードの「設定」タブのトピックを参照してください。
オーバーレイの統計
連続型 (数値範囲型) のオーバーレイ フィールドが使用されている場合、次の統計も利用可能です。
Covariance (共分散). 2 つの変数の間の、標準化されていない関連度。偏差の積和を N-1 で割った値に等しくなります。