欠損値の概要

欠損値のあるケースは、通常のモデリング・プロシージャーでは単に分析から破棄されるため、重要な課題となります。欠損値が少数 (おおまかに見て、全ケース数の 5% 未満) であり、かつ当該の値がランダムに欠損していると考えられる (つまり、値が欠損しているかどうかは他の値に依存しない) 場合には、通常の方法であるリストワイズ除去が比較的「安全」です。「欠損値」は、リストワイズ除去が十分かどうかを判断する際の助けとなり、十分でない場合には欠損値を処理するための方法を提供します。

欠損値分析プロシージャー対多重代入プロシージャー

「欠損値」には、欠損値を処理するためのプロシージャーが 2 セットあります。

  • 多重代入プロシージャーでは、最終的には欠損値の多重代入を目的として欠損データのパターンの分析を行います。つまり、複数のバージョンのデータ・セットが生成され、それぞれに独自の代入値のセットがある、ということです。統計分析が実行される際、すべての代入データ・セットに対するパラメーター推定値がプールされ、一般的には代入が 1 つのみの場合よりも正確な推定値が提供されます。
  • 欠損値分析での、欠損データを分析するための記述ツールのセットはやや異なり (中でも特に、Little の MCAR 検定)、さまざまな単一代入方法が含まれています。一般に、単一代入より多重代入の方が優れていると見なされている、ということに注意してください。

欠損値タスク

欠損値の分析は、以下の基本的なステップにより開始します。

  1. 欠損の調査。「欠損値分析」と「パターン分析」を使用してデータ中の欠損値のパターンを探索し、多重代入が必要かどうか判断します。
  2. 欠損値を代入: 「欠損データ値の代入」を使用して、欠損値を多重代入します。
  3. 「完全な」データの分析。多重代入データをサポートする、いずれかのプロシージャーを使用します。多重代入データ・セット分析、およびこうしたデータをサポートするプロシージャーのリストについては、多重代入データの分析を参照してください。