ロジスティック回帰ノード

ロジスティック回帰 (名義回帰) は、入力フィールドの値に基づいてレコードを分類する統計手法です。線型回帰と似ていますが、数値型フィールドではなくカテゴリー・フィールドを対象フィールドとします。二項モデル (2 つの異なるカテゴリーがある対象用) と多項モデル (3 つ以上のカテゴリーのある対象用) の両方がサポートされます。

ロジスティック回帰では、入力フィールド値を各出力フィールドカテゴリーに対応する確率に関連付ける一連の方程式が作成されます。モデルを生成した後は、そのモデルを使用して新しいデータの確率を推定できます。レコードごとに、各出力カテゴリー候補の所属確率が算出されます。最も確率の高い対象カテゴリーが、そのレコードの予測出力値として割り当てられます。

二項式のサンプル: 競合他社に奪われる顧客の数に関して、電気通信プロバイダーが心配しているとします。サービス使用量データを使用して、二項モデルを作成し、どの顧客が他のプロバイダーに移りそうかを予測できれば、オファーをカスタマイズして、できるだけ多くの顧客を保持することができます。対象に 2 つの明確なカテゴリー (移行しそうかそうでないか) があるために、二項モデルを使用します。

注: 二項モデルの場合のみ、文字列フィールドは 8 文字に制限されます。必要な場合は、データ分類ノードまたは匿名化ノードを使用して、これより長い文字列を再コード化できます。

多項の例: ある通信プロバイダーは、サービス利用パターンによって顧客ベースを区分し、顧客を 4 つのグループに分類しました。グループのメンバーシップを予測するために人口統計データを使用することで、多項モデルを作成して、見込み顧客をグループに分類し、それから個々の顧客へのオファーをカスタマイズできます。

要件: 1 つ以上の入力フィールドと、2 つ以上のカテゴリーを含む 1 つのカテゴリー対象フィールドが必要です。二項モデルの場合、対象は尺度がフラグ型である必要があります。多項モデルの場合は、対象が 2 つ以上のカテゴリーを持つフラグ型または名義型フィールドであることが必要です。「両方」 または「なし」 が設定されているフィールドは無視されます。モデルで使用するフィールド・タイプは、完全にインスタンス化する必要があります。

強さ: たいていの場合、ロジスティック回帰モデルは非常に正確です。ロジスティック回帰モデルでは、シンボル値と数値の入力フィールドを処理できます。すべての対象カテゴリーに対する予測確率が算出されるため、「次善の推量」を簡単に識別することができます。ロジスティック・モデルは、グループ・メンバーが真にカテゴリー的なフィールドの場合に最も効果的です。グループ・メンバーが連続した値の範囲の値 (例えば、「高い IQ」対「低い IQ」) に基づいている場合、値の範囲全体から提供されるより豊富な情報を活かすために、線形回帰の使用を考慮する必要があります。ロジスティック・モデルでは、自動的なフィールド選択も実行できます。ただし、ツリー・モデルや変数選択モデルなどの他のアプローチのほうが大規模データ・セットでは迅速に実行できます。最後に、ロジスティック・モデルは多くのアナリストやデータ・マイニング技術者によく理解されているので、他のモデル作成技法に対する基準として、比較の対象に使用されることがあります。

大きなデータセットを処理する場合、詳細出力オプションの「尤度比検定」を無効にすることにより、パフォーマンスを大幅に改善することができます。詳しくは、ロジスティック回帰の詳細出力のトピックを参照してください。

重要: 一時ディスク領域が不十分である場合は、二項ロジスティック回帰モデルが構築に失敗し、エラーが表示される場合があります。大きなデータ・セット (10GB 以上) から構築する場合は、同じ量の空きディスク容量が必要です。一時ディレクトリーの場所を設定するには、環境変数 SPSSTMPDIR を使用します。