IBM SPSS Data Preparationは、データ準備段階を合理化する高度なテクニックを実行し、より迅速で正確なデータ分析結果を提供します。
このモジュールは、オンプレミスのSPSS Professionalエディションとサブスクリプション・プランの基本エディションに含まれています。
「データの検証」ダイアログは、データを検証するために使用されます。変数タブには、ファイル内の変数が表示されます。まず、使用したい変数を選択し、「分析変数」リストに移動します。
ファイル内の変数とケースに適用する基本的なチェックを指定できます。たとえば、欠損値や空のケースの割合が高い変数を特定するレポートを取得できます。
有効範囲外の値や欠損値などの無効な値を識別するために、個々の変数にルールを適用します。独自のルール、変数間のルールを作成したり、事前定義されたルールを適用したりすることもできます。
自動化されたデータ準備により推奨事項が提供され、ユーザーはドリルインして推奨事項を調べることができます。
手作業によるデータ作成は複雑で時間のかかるプロセスである。迅速に結果が必要な場合、ADP プロシージャを使用すると、品質エラーを検出して修正し、欠損値を 1 つの効率的な手順で補完できます。ADP 機能は、分析に使用する適切なデータを決定するのに役立つ、包括的な推奨事項と視覚化を備えたわかりやすいレポートを提供します。
「データの検証」手法を使用することで、自動的にデータチェックを実行し、時間がかかる煩雑な手動チェックを省くことができます。この手法では、各変数の尺度水準(分類的か連続か)に基づいて、データチェックを行うためのルールを適用することができます。次に、データの妥当性を確認し、分析前に不審なケースを任意で削除または修正します。
IBM SPSS Data Preparationには、データの検証、自動データ準備、最適ビニング、異常なケースの特定などの機能が含まれています。
最適なビニング手順を使用すると、ナイーブ ベイズやロジット モデルなど、名目属性用に設計されたアルゴリズムをより正確に使用できます。最適なビニングにより、スケール変数をビン化する (またはカット ポイントを設定する) ことができます。
モデル構築の前にデータを前処理するために、次のタイプの最適なビニングのいずれかを選択します。
1)監視なし:カウントが等しいビンを作成します。
2)監視あり:ターゲット変数を考慮してカットポイントを決定します。この方法は監視なしより正確です。ただし、計算量も多くなります。
3)ハイブリッド・アプローチ:教師なしアプローチと教師ありアプローチを組み合わせます。この方法は、明確な値が多い場合に有効です。