特徴量選択モデルの設定

「モデル」タブの設定値には、予測フィールドをスクリーニングするための基準を微調整できる設定とともに、標準的なモデル・オプションが含まれています。

モデル名: ターゲットまたは ID フィールド (その指定がない場合はモデル タイプ) に基づいてモデル名を生成、またはカスタム名を指定することができます。

入力フィールドのスクリーニング

スクリーニングには、入力フィールドと対象の関係について有用な情報を追加しない、入力フィールドまたはケースの削除が含まれます。スクリーニングのオプションは、選択した対象フィールドに関係する予測力を考慮せずに、問題になっているフィールドの属性に基づいています。スクリーニングされたフィールドは、入力フィールドをランク付けるのに使用された計算から除外され、オプションで、フィルターを適用したり、モデル作成に使用されるデータから取り除くことができます。

フィールドは、次の基準に基づいてスクリーニングできます。

  • 欠損値の最大パーセンテージ :レコードの総数のパーセントとして示されたレコード数になるまで、多すぎる欠損値フィールドをスクリーニングします。欠損値フィールドの割合が大きいフィールドからは、あまり予測的情報を得ることができません。
  • 単一カテゴリー内のレコードの最大パーセンテージ : レコードの総数の割に同じカテゴリーにかたよって多くのレコードを含んでいるフィールドをスクリーニングします。例えば、データベース内の顧客の 95% が同じ車種の車を運転している場合、この情報を含めても、次回から特定の顧客を区別する上で役に立ちません。指定された最大値を超えるフィールドは、スクリーニングされます。このオプションは、カテゴリー型フィールドに対してのみ適用されます。
  • レコードのパーセンテージとしての最大カテゴリー数 : レコードの総数に対して多すぎるカテゴリーを減らす目的で、フィールドをスクリーニングします。高いパーセンテージのカテゴリーにただ 1 つのケースが含まれている場合、そのフィールドの使用が限定されている可能性があります。例えば、それぞれの顧客が皆異なる帽子を被っている場合、この情報は、顧客の行動パターンをモデル作成する上で役に立ちそうもありません。このオプションは、カテゴリー型フィールドに対してのみ適用されます。
  • 最小変動係数 :指定された最小値以下の変動係数で、フィールドをスクリーニングします。この尺度は、入力フィールドの平均に対する入力フィールドの標準偏差の割合です。この値がゼロに近いと、変数の値にあまりばらつきがないと言えます。このオプションは、連続型 (数値範囲型) フィールドに対してのみ適用されます。
  • 最小標準偏差 :指定された最小値以下の標準偏差で、フィールドをスクリーニングします。このオプションは、連続型 (数値範囲型) フィールドに対してのみ適用されます。

欠損値を含むレコード : 対象フィールドに欠損値を含レコードまたはケースを設定しているか、またはすべての入力フィールドに欠損値が含まれている場合、ランク付けに使用されるすべての計算から自動的に除外されます。