IBM SPSS Data Preparation は、データ準備段階を合理化する高度なテクニックを実行し、より迅速で正確なデータ分析結果を提供します。迅速な結果を得るために自動化されたデータ準備手順から選択することも、より困難なデータセットを準備するために他の方法を選択することもできます。疑わしい、または無効なケース、変数、データ値を簡単に識別します。欠損データのパターンを表示し、変数分布を要約し、名目属性用に設計されたアルゴリズムをより正確に使用します。
このモジュールは、オンプレミスの SPSS Professional エディションとサブスクリプション プランの基本エディションに含まれています。
データの検証 ダイアログは、データを検証するために使用されます。変数 タブには、ファイル内の変数が表示されます。まず、必要な変数を選択し、それを 分析変数 リストに移動します。
ファイル内の変数とケースに適用する基本的なチェックを指定できます。たとえば、欠損値や空のケースの割合が高い変数を特定するレポートを取得できます。
無効な値 (有効範囲外の値または欠損値) を識別するルールを個々の変数に適用します。独自のルール、変数間のルールを作成したり、事前定義されたルールを適用したりすることもできます。
自動化されたデータ準備は推奨事項を提供し、ユーザーはドリルインして推奨事項を調べることができる。
手作業によるデータ作成は複雑で時間のかかるプロセスである。迅速に結果が必要な場合、ADP プロシージャを使用すると、品質エラーを検出して修正し、欠損値を 1 つの効率的な手順で補完できます。ADP 機能は、分析に使用する適切なデータを決定するのに役立つ、包括的な推奨事項と視覚化を備えたわかりやすいレポートを提供します。
自動データチェックを実行し、データ検証手順を使用することで、時間のかかる面倒な手動チェックをなくすことができます。このプロシージャを使用すると、各変数のメジャー・レベル(カテゴリカルか連続かを問わない)に基づ いてデータ・チェックを実行するルールを適用できます。その後、データの妥当性を判断し、分析前に自分の判断で疑わしいケースを削除または修正する。
SPSS Data Preparation には、データ検証、自動データ準備、最適なビニング、異常なケースの識別などの機能が含まれています。
最適なビニング手順を使用すると、ナイーブ ベイズやロジット モデルなど、名目属性用に設計されたアルゴリズムをより正確に使用できます。最適なビニングにより、スケール変数をビン化する (またはカット ポイントを設定する) ことができます。
モデル構築の前にデータを前処理するために、次のタイプの最適なビニングのいずれかを選択します。
1) 監視なし:カウントが等しいビンを作成する。
2) 監視あり: ターゲット変数を考慮してカットポイントを決定します。この方法は監視なしよりも正確です。ただし、計算量も多くなります。
3) ハイブリッド アプローチ: 教師なしアプローチと教師ありアプローチを組み合わせます。この方法は、明確な値が大量にある場合に特に有効である。