データ準備の自動化

このチュートリアルでは、分析用にデータを準備する例を示します。 データ準備は、あらゆるデータマイニングプロジェクトにおいて最も重要なステップの一つであり、従来から最も時間を要する作業の一つである。 Auto Data Prep ノードは、データ分析と修正箇所の特定、問題のあるフィールドや有用性が低いフィールドの除外、適切な場合の新たな属性の導出、インテリジェントなスクリーニング技術によるパフォーマンス向上といった作業を自動的に処理します。

Auto Data Prep ノードは完全に自動化された方法で利用でき、ノードが修正方法を選択して適用することも可能です。あるいは、変更が適用される前にプレビューを表示し、それらを受け入れるか拒否するかを選択することもできます。 このノードを使用すると、関係する統計の概念を事前に把握していなくても、データ・マイニング用のデータを迅速かつ容易に準備できます。 デフォルト設定でノードを実行すると、モデルの構築とスコアリングがより迅速に行われる傾向があります。

チュートリアルのプレビュー

< このチュートリアルの手順をプレビューするには、この動画をご覧ください。 動画に表示されているユーザーインターフェースには、若干の違いがある可能性があります。 この動画は、書面によるチュートリアルを補完する目的で作成されています。 この動画は、このドキュメントに記載されているコンセプトとタスクを視覚的に学ぶ方法を提供します。

チュートリアルを試してみてください

このチュートリアルでは、以下のタスクを完了します:

サンプルモデラーのフローとデータセット

このチュートリアルでは、サンプルプロジェクト内の自動データ準備フローを使用します。 使用されるデータファイルは. です telco.csv。 この例は、モデル構築時にデフォルトの自動データ準備ノード設定を使用することで得られる精度向上の実例を示しています。 以下の図はサンプル・モデラーのフローを示しています。

図1: サンプルモデラーフロー
データの自動準備のサンプル・フロー
以下の画像はサンプルデータセットを示しています。
図2: サンプルデータセット
サンプルデータセット

タスク1: サンプルプロジェクトを開く

サンプルプロジェクトには、いくつかのデータセットとサンプルモデラーフローが含まれています。 サンプルプロジェクトをまだお持ちでない場合は、 チュートリアルのトピックを参照してサンプルプロジェクトを作成してください。 次に、サンプルプロジェクトを開くには以下の手順に従ってください:

  1. ナビゲーションメニュー から、 watsonx[プロジェクト] > ナビゲーション・メニュー [すべてのプロジェクト] を選択します。
  2. SPSS Modeler プロジェクトをクリックしてください。
  3. タブをクリック 資産 すると、データセットとモデラーフローが表示されます。

チェックポイントアイコン 進捗を確認してください

次の画像は資産のアセットタブを示しています。 これで、このチュートリアルに関連するサンプルモデラーフローを使用する準備が整いました。

サンプルプロジェクト

トップへ戻る

タスク2: データ資産とタイプノードを検証する

自動化されたデータ準備には複数のノードが含まれます。 以下の手順に従って、 および タイプ データ資産 ノードを検査してください:

  1. タブ 資産 から 自動化されたデータ準備 モデラーフローを開き、キャンバスの読み込みを待ちます。
  2. ノード telco.csv をダブルクリックします。 このノードは、プロジェクト内のファイル telco.csv を指すノード データ資産 です。
  3. ファイル形式のプロパティを確認してください。
  4. オプション: データ全体を確認するには「プレビュー」をクリックしてください。
  5. タイプノードをダブルクリックします。 フィールド churn の測定基準がフラグに設定され、役割がターゲットに設定されていることに注意してください。 他のすべてのフィールドの役割が 「入力」 に設定されていることを確認してください。
    図3: 測定レベルと役割を設定する
    測定レベルと役割を設定する
  6. オプション: [データプレビュー] をクリックすると、Type プロパティが適用されたデータセットを確認できます。

チェックポイントアイコン 進捗を確認してください

次の画像はタイプノードを示しています。 モデルを作成する準備が整いました。

データ型ノード

トップへ戻る

タスク3: モデルを構築する

自動化されたデータ準備機能なしのモデルと、自動化されたデータ準備機能付きのモデルの2つを作成します。 モデルを構築するには、次の手順に従ってください:

  1. Type ノードに接続されている No ADP - churn ノードをダブルクリックして、そのプロパティを表示します。
    1. モデル設定セクションを展開する
    2. 手順二項分布に設定されていることを確認してください。
    3. モデル名が 「カスタム」 に設定されていることを確認し、名前が. であることを確認してください No ADP - churn
      図4: ロジスティックノード モデル設定セクション
      モデルオプションを選択
  2. No ADP - churn 」ノードにカーソルを合わせ、 実行アイコン 実行アイコンをクリックします。
  3. 出力とモデル ペインで、名前が「 No ADP - churn」 のモデルをクリックして結果を表示します。
    1. モデルの要約ページを表示します。このページには、モデルで使用されている予測変数フィールドと、予測が正しい割合が表示されます。
    2. ケース処理概要を表示します。この概要には、分析に含まれるレコードの数と割合が表示されます。 さらに、入力フィールドの1つ以上が利用できない場合の欠損ケース数(該当する場合)、および選択されなかったケースを一覧表示します。
    3. モデルの詳細を閉じる。
  4. Type ノードに接続されているAuto Data Prep ノードをダブルクリックして、そのプロパティを表示します。 自動データ準備は、データ準備タスクを代行します。データの分析と修正箇所の特定、問題のあるフィールドや有用性が低いフィールドの除外、適切な場合の新たな属性の導出、そしてインテリジェントなスクリーニング技術によるパフォーマンス向上を行います。
    1. 目的セクションでは、速度と精度のバランスを取りながらデータを分析・準備するため、デフォルト設定をそのまま使用してください。 その他のAuto Data Prep ノードのプロパティでは、精度を重視するか、処理速度を重視するか、あるいはデータ準備のための多くの処理ステップをファイン・チューニングするかを指定するオプションが提供されます。
      注: ノードのプロパティを調整し、将来フローを再度実行したい場合、モデルが既に存在するため、フローを再実行する前に、まず 「目的」 の下にある「 古い分析をクリア 」をクリックする必要があります。
    2. オプション: [データプレビュー] をクリックすると、適用された自動データ準備プロパティを含むデータセットを確認できます。
    3. キャンセルをクリックしてください。
  5. Auto Data Prep ノードに接続されている After ADP - churn ノードをダブルクリックして、そのプロパティを表示します。
    1. モデル設定セクションを展開する
    2. 手順二項分布に設定されていることを確認してください。
    3. モデル名が 「カスタム」 に設定されていることを確認し、名前が. であることを確認してください After ADP - churn
  6. After ADP - churn 」ノードにカーソルを合わせ、 実行アイコン 実行アイコンをクリックします。
  7. 出力とモデル ペインで、名前が「 After ADP - churn」 のモデルをクリックして結果を表示します。
    1. モデルの要約ページを表示します。このページには、モデルで使用されている予測変数フィールドと、予測が正しい割合が表示されます。
    2. ケース処理概要を表示します。この概要には、分析に含まれるレコードの数と割合が表示されます。 さらに、入力フィールドの1つ以上が利用できない場合の欠損ケース数(該当する場合)、および選択されなかったケースを一覧表示します。
    3. モデルの詳細を閉じる。

チェックポイントアイコン 進捗を確認してください

以下の画像はモデルの詳細を示しています。 これでモデルを比較する準備が整いました。

モデルの詳細

トップへ戻る

タスク4: モデルを比較する

両モデルの構成が完了したので、以下の手順に従ってモデルを生成し比較してください:

  1. No ADP - LogReg (Analysis) 」ノードにカーソルを合わせ、 実行アイコン 実行アイコンをクリックします。
  2. After ADP - LogReg (Analysis) 」ノードにカーソルを合わせ、 実行アイコン 実行アイコンをクリックします。
  3. 出力とモデル ペインで、名前が「 No ADP - LogReg 」の出力結果をクリックして結果を表示します。
  4. モデルを比較する:
    1. 比較をクリックしてください。
    2. 出力フィールドで「 After ADP - LogReg 」を選択してください。
    派生Auto Data Prepモデルの分析によると、 ロジスティック回帰ノードをデフォルト設定のまま実行するだけで、精度が低いモデルが生成されることが判明した。その精度はわずか 10.6 %である。
    図 5. 非 ADP 派生モデルの結果
    非 ADP 派生モデルの結果
    Auto-Data Prepで生成されたモデルの分析結果によると、 フォルトのAuto Data Prep設定でデータを処理することで、 78.3 %の精度を持つ、はるかに正確なモデルを構築できたことが示されています。
    図 6. ADP 派生モデルの結果
    ADP 派生モデルの結果

チェックポイントアイコン 進捗を確認してください

以下の図はモデル比較を示しています。

モデルの比較

トップへ戻る

サマリー

Auto Data Prep ノードを実行してデータの処理をファイン・チューニングすることで、直接的なデータ操作をほとんど行わずに、より正確なモデルを構築することができました。

特定の理論を証明または反証することに興味がある場合、あるいは特定のモデルを構築したい場合には、モデル設定を直接操作することが有益である可能性があります。 ただし、時間が限られている場合や、準備すべきデータ量が多い場合には、 自動データ準備ノードが有利に働く可能性があります。

この例の結果は、トレーニングデータのみに基づいています。 モデルが実世界の他のデータに対してどの程度一般化できるかを評価するには、パーティションノードを使用して、テストおよび検証の目的でレコードのサブセットを保持することができます。

次のステップ

他の SPSS® Modeler チュートリアルを試す準備が整いました。