予測モデルによるデータのスコアリング

予測モデルをデータ集合に適用するプロセスをデータのスコアリングといいます。 IBM® SPSS® Statistics には、回帰、クラスタリング、ツリー、ニューラル・ネットワーク・モデルなどの予測モデルを作成するためのプロシージャーがあります。 モデルが構築されると、モデル指定をモデルの再構成に必要なすべての情報を含むファイルに保存できます。 そのモデル・ファイルを使用して、他のデータ・セットに予測スコアを生成できます。 注: モデル XML ファイルを作成するプロシージャーと、圧縮ファイル・アーカイブ (.zip ファイル) を作成するプロシージャーがあります。

例。 企業のダイレクト・マーケティング部門は、テスト・メールの結果を使用して連絡先データベースの残りの連絡先に傾向スコアを割り当て、人口統計上のさまざまな特性に基づいて最も応答および購入の可能性が高い連絡先を特定します。

スコアリングはデータの変換として扱われます。 モデルは、予測した結果を得るために、与えられたフィールドの集合 (モデルに指定された予測値) に適用される数値変換の集合として内部的には表されます。 この意味では、特定のモデルを使用したデータのスコアリングのプロセスは、本質的に、平方根関数のような任意の関数を一連のデータに適用するのと同じです。

スコアリング・プロセスは次の 2 つの基本ステップで構成されています。

  1. モデルを作成し、モデル・ファイルを保存します。 関心のある結果 (対象と呼ばれます) が認識されているデータ・セットを使用してモデルを作成します。 例えば、誰がダイレクト・メール・キャンペーンに回答する可能性が高いかを予測するモデルを作成する場合、誰が回答し、誰が回答しなかったかについての情報をすでに含んでいるデータ・セットから始める必要があります。 この場合、小規模な顧客グループへのテスト・メールの結果や、過去の類似したキャンペーンに対する応答の情報などです。

    : 一部のモデル・タイプについては、関心のある対象の結果がありません。 例えば、クラスタリング・モデルには対象がなく、一部の最隣接モデルにも対象がありません。

  2. そのモデルを異なるデータ・セット (関心のある結果が認識されていない) に適用し、予測結果を取得します。