Data Preparation のプロシージャーの使用

Data Preparation のプロシージャーの使用方法は、目的に応じて異なります。データのロード後の標準的な処理の順序は次のようになります。

メタデータの準備。 データ・ファイル内の変数を確認し、有効な値、ラベル、および測定レベルを決定します。使用不可でありながら誤ってコード化されることの多い変数値の組み合わせを特定します。この情報に基づいて検証規則を定義します。これは時間のかかる作業ですが、類似した属性を持つデータ・ファイルを定期的に検証する必要がある場合は、実施する価値があります。
データ検証。 基本チェックを実行し、無効なケース、変数、およびデータ値を特定するために定義された検証規則に基づくチェックを実行します。無効なデータが見つかったら、原因を調べ、修正します。これには、メタデータの準備において別の手順が必要になることがあります。
モデルの準備。 自動データ準備を使用して、モデル作成を向上させる元のフィールドの変換を取得します。多くの予測モデルで問題を引き起こす可能性がある潜在的な統計量の外れ値を特定します。一部の外れ値は、特定されていない無効な変数値が原因で発生します。これには、メタデータの準備において別の手順が必要になることがあります。

データ・ファイルが「クリーン」になったら、他のアドオン・モジュールからモデルを作成できます。