欠損値分析

「欠損値分析」プロシージャーでは、以下の 3 つの主要な機能を実行します。

欠損値分析により、不完全なデータに起因する懸案事項のいくつかに対処することができます。欠損値のあるケースが欠損値のないケースと系統的に異なる場合、その結果は誤ったものになる可能性があります。また、当初の計画よりも情報が少ないため、欠損データは、算出される統計量の精度を低下させる場合があります。別の懸案事項として、多くの統計手法の背後にある仮定は完全なケースに基づいており、欠損値があると必要な理論が複雑化する場合がある、ということがあります。

: 白血病の治療法を評価する中で、いくつかの変数を測定するとします。ただし、各患者に対してすべての測定値が使用可能であるとは限りません。欠損データのパターンを表示し、集計したら、ランダムであることがわかりました。EM 分析を使用して、平均値、相関、および共分散を推定します。これは、データが完全にランダムに欠損しているかどうかを判断するためにも使用されます。この後、欠損値は代入値に置き換えられ、さらなる分析に向けて新規データ・ファイルに保存されます。

統計: 非欠損値の数、平均値、標準偏差、欠損値の数、極値の数などの 1 変量統計量。リストワイズ法、ペアワイズ法、EM 法、または回帰法を使用しての推定平均値、共分散行列、および相関行列。EM 結果による Little の MCAR 検定。さまざまな方法による、平均値の集計。t 検定 (欠損値対非欠損値で定義されるグループの場合)。 すべての変数について、変数ごとのケースで表示される欠損値パターン。

データの考慮事項

「データ」。データは、カテゴリーと量的 (スケールと連続) のいずれも可能です。ただし、統計量を推定して欠損データを代入できるのは、量的変数の場合のみです。いずれの変数でも、システム欠損値としてコード化されていない欠損値は、ユーザー欠損値として定義する必要があります。例えば、調査票のある項目での回答「わからない」が 5 とコード化されており、これを欠損値として扱う場合、この項目では 5 をユーザー欠損値としてコード化する必要があります。 詳しくは、欠損値のトピックを参照してください。

度数による重み付け: 度数による重み付け (反復重み付け) は、このプロシージャーで処理します。反復重み付けの値が負または 0 であるケースは無視されます。非整数である重み付けは切り捨てられます。

仮定: リストワイズ推定、ペアワイズ推定、および回帰推定は、欠損値パターンはデータ値に依存しない、という仮定に基づいています。(この条件を、完全にランダムに欠損 (MCAR) といいます。) したがって、データが MCAR である場合、すべての推定方法 (EM 法も含む) では、相関および共分散の一貫した不偏推定値が得られます。MCAR の仮定に反すると、リストワイズ法、ペアワイズ法、および回帰法によって生成される推定値に偏りが生じることがあります。 データが MCAR ではない場合は、EM 推定を使用する必要があります。

EM 推定は、欠損データのパターンは観測データにのみ関連する、という仮定に基づいています。(この条件を、ランダムに欠損 (MAR) といいます。) この仮定では、入手可能な情報を使用して推定値を調整できます。例えば、教育と収入の調査において、教育レベルの低い被験者の方が収入の欠損値が多くなる可能性があります。この場合、データは MCAR ではなく MAR です。つまり、MAR では、収入が記録される確率は被験者の教育レベルに依存します。確率は、その教育レベル内 の収入ではなく、教育によって異なってくる、ということです。収入が記録される確率が各教育レベル内の収入の値によっても異なる (高収入の人は収入を報告しないなどの) 場合、そのデータは MCAR でも MAR でもありません。この状況はまれではありません。該当する場合は、いずれの方法も適切ではありません。

関連プロシージャー: 多くのプロシージャーでは、リストワイズ推定またはペアワイズ推定を使用することができます。線型回帰および因子分析では、欠損値を平均値で置き換えることができます。予測アドオン・モジュールには、欠損値を時系列で置き換えるのに使用可能な方法が複数あります。

欠損値分析の取得方法

この機能を使用するには、Statistics Base Edition が必要です。

  1. メニューから次の項目を選択します。

    「分析」 > 「欠損値分析...」

  2. 統計量を推定し、オプションで欠損値を代入するための量的 (スケール) 変数を 1 つ以上選択します。

オプションとして、以下を行うことができます。