データ分割ノード

データ分割ノードにより、既存の 1 つまたは複数の連続型 (数値範囲) フィールドの値に基づいて、自動的に新しい名義型フィールドを作成することができます。例えば、連続型収入フィールドを、平均からの同じ偏差による収入グループを含む、新しいカテゴリー・フィールドに変換することができます。または、2 つのフィールド間の当初のアソシエーションの強度を保存するために、カテゴリーの「スーパバイザ」フィールドを選択できます。

データ分割は、次を含む多くの理由で、有用です。

  • アルゴリズムの要件。Naive Bayes やロジスティック回帰などの一定のアルゴリズムには、カテゴリー入力が必要です。
  • パフォーマンス。 多項ロジスティックなどのアルゴリズムは、入力フィールドの異なる値の数が減らされると、より適正に実行されます。例えば、各ビンの当初の値ではなく、中央値または平均値を使用します。
  • データのプライバシー。給与などの慎重な扱いが必要な個人情報は、プライバシーを保護するために、実際の数字でなく、一定の範囲内の数字として報告できます。

さまざまなデータ分割方法を使用することができます。新規フィールドのビンを作成すると、分割点に基づいてフィールド作成ノードを生成することができます。

データ分割ノードをいつ使用するか

データ分割ノードを使用する前に、その作業により適している他の技法がないかどうかを検討してください。

  • あらかじめ定義された給与範囲など、カテゴリーの分割点を手作業で指定するには、フィールド作成ノードを使用します。詳しくは、フィールド作成ノードのトピックを参照してください。
  • 既存のセットの新しいカテゴリーを作成するには、データ分類ノードを使用します。 詳しくは、データ分類ノードのトピックを参照してください。

欠損値の処理

データ分割ノードは欠損値を次のように処理します。

  • ユーザー定義の空白。変換時に、空白として指定された欠損値が含まれます。例えば、データ型ノードを使用して空白値を示すために -99 を指定した場合、この値がデータ分割処理に含まれます。データ分割処理中に空白値を無視するには、置換ノードを使用して空白値をシステムのヌル値に置き換える必要があります。
  • システム欠損値 ($null$)。データ分割処理時にヌル値は無視され、変換後もヌル値のまま保持されます。

「設定」タブには、利用できる技術に関するオプションが用意されています。「表示」タブには、以前にこのノードに流されたデータに対して確立された分割点が表示されます。