クイックスタート合成表データの生成

このチュートリアルでは、IBM watsonx.aiで合成表データを生成する方法を学びます。 合成データの利点は、オンデマンドでデータを調達し、ユースケースに合わせてカスタマイズし、大量に生産できることだ。 このチュートリアルでは、グラフィカル・フロー・エディター・ツール「Synthetic Data Generator」を使用して、ビジュアル・フローとモデリング・アルゴリズムを使用して、本番データまたはカスタム・データ・スキーマに基づく合成表データを生成する方法を学習します。

必須サービス
Watson Studio
Synthetic Data Generator

基本的なワークフローには以下のタスクが含まれます:

  1. プロジェクトを開きます。 プロジェクトは、他の人と協力してデータを扱う場所です。
  2. プロジェクトにデータを追加します。 CSV ファイルや、接続を介してリモートデータソースからのデータを追加できます。
  3. プロジェクトへの合成データフローを作成し、実行する。 グラフィカルフローエディタツール「Synthetic Data Generator」を使用して、ビジュアルフローとモデリングアルゴリズムを使用して、本番データまたはカスタムデータスキーマに基づく合成表データを生成します。
  4. 合成データの流れと出力を確認する。

合成データについて読む

合成データとは、AIモデルの改善、機密データの保護、バイアスの軽減のために、実データを補強したり置き換えたりするためにコンピューター上で生成された情報のことである。 合成データは、実世界の例で機械学習モデルをトレーニングする際に生じる、ロジスティクス、倫理、プライバシーの問題の多くを軽減するのに役立つ。

合成データについてもっと読む

合成表データの生成に関するビデオを見る

< このチュートリアルの手順をプレビューするには、このビデオをご覧ください。 ビデオで紹介されているユーザー・インターフェースには若干の違いがあるかもしれません。 このビデオは、書面でのチュートリアルに付随するものです。 ビデオは watsonx のホーム画面から始まる。 ユーザーはリソースハブに移動し、 データを選択してサンプルデータを開きます。

このビデオは、このドキュメントのコンセプトとタスクを学ぶための視覚的な方法を提供します。


合成表データを生成するチュートリアルを試す

このチュートリアルでは、これらのタスクを完了します:




このチュートリアルを完了するためのヒント
このチュートリアルを成功させるためのヒントをいくつか紹介しよう。

ブラウザのウィンドウを設定する

このチュートリアルを最適に体験するには、アカウントを1つのブラウザウィンドウで開いておき、このチュートリアルページを別のブラウザウィンドウで開いておくと、両ウィンドウ間を簡単に切り替えることができます。 2つのブラウザウィンドウを横に並べると、より見やすくなります。

サイド・バイ・サイドのチュートリアルとUI

ヒント:ユーザー・インターフェースでこのチュートリアルを完了する際にガイド・ツアーが表示された場合は、Maybe laterをクリックしてください。



タスク 1:プロジェクトを開く

アセットを保存するためのプロジェクトが必要です。

手順に従って、既存のプロジェクトを確認するか、プロジェクトを作成してください。

  1. watsonxのホーム画面で、プロジェクト・セクションまでスクロールします。 プロジェクトが表示されている場合は、タスク2に進んでください。 プロジェクトが表示されない場合は、以下の手順に従ってプロジェクトを作成してください。

  2. クイックナビゲーションから「すべてのプロジェクト」をクリックします。

  3. 既存のプロジェクトを開くか、新しいプロジェクトを作成します:

    1. プロジェクト]ページの[新規プロジェクト]をクリックします。
    2. Create an empty projectを選択する。
    3. プロジェクトの作成画面で、プロジェクトの名前と任意の説明を入力します。
    4. 「Create」をクリックします。

詳細またはビデオについては、プロジェクトの作成をご覧ください。

チェックポイントのアイコン 進捗を確認してください

次の画像は空のプロジェクトです。 これで {{ site.data.keyword.fm_prompt }} を開く準備が整いました。

プロジェクト概要ページ




タスク 2: プロジェクトにデータを追加する

このチュートリアルで使用するデータセットには、企業が顧客について収集する典型的な情報が含まれている。 以下の手順に従ってデータセットをダウンロードし、プロジェクトに追加してください:

  1. 自動車保険顧客データセット4KBダウンロードする。

  2. プロジェクトから、アイコン 資産プロジェクトにアップロードする をクリックしてください アセットをプロジェクトにアップロードする

  3. 開いたサイドパネルで、Customers.csvファイルを参照して選択し、[開く]をクリックします。 ロードが完了するまでこのページに留まってください。
    Customers.csv ファイルがデータ資産プロジェクトに追加されます。

チェックポイントのアイコン 進捗を確認してください

次の図は、プロジェクトのAssetsタブを示しています。 これで合成データフローを作成する準備ができた。

次の図は、プロジェクトのAssetsタブを示しています。




タスク3:合成データフローの作成

Synthetic Data Generatorを使用すると、ビジュアルフローとモデリングアルゴリズムを使用して、本番データまたはカスタムデータスキーマに基づいて合成表データを生成するデータフローを作成できます。 以下の手順に従って、プロジェクトに合成データフローアセットを作成してください:

  1. プロジェクトの「アセット」タブで、「新規アセット」>「合成表データを生成」をクリックします。
  2. 名前にはBank customersと入力する。
  3. 「Create」をクリックします。
  4. Welcome toSynthetic Data Generator画面で、First time userをクリックし、Continueをクリックします。 このオプションは、データフローを構築するためのガイド付き体験を提供します。
  5. 2つのユースケースを見直す:
    • 既存のデータを活用お客様の生産データに基づいて、構造化された合成データセットを生成します。 データベースへの接続、ファイルのインポートまたはアップロード、マスク、エクスポート前の出力生成が可能です。
    • カスタムデータから作成:メタデータに基づいて構造化された合成データセットを生成します。 各テーブルの列内のデータ、それらの分布、および相関関係を定義することができます。
  6. 既存のデータを活用する]ユースケースを選択し、[次へ]をクリックして既存のデータをインポートします。
  7. プロジェクトからデータを選択]をクリックすると、リソースハブから追加した顧客データ資産が使用されます。
    1. データ資産>customers.csvを選択します。
    2. 選択」をクリックする。
    3. 次へ」をクリックする。
  8. 列のリストで、creditcard_numberを検索する。
    1. CREDITCARD_NUMBER列で、「はい」を選択して顧客のクレジットカード番号をマスキングします。
    2. 次へ」をクリックする。
  9. Mimicのオプションページで、 行数を 1000 に変更します。 その他のオプションはデフォルト設定のままにします。 これらのオプションは、データの各列を修正するために、候補となる統計分布のセットを使用して、プロダクション・データに基づいた合成データを生成します。 「次へ」 をクリックします。
  10. 「評価」画面、「評価指標を有効にする 」オプションを切り替えます。 ここでは、生成された合成データとベースライン入力とを比較するための設定を指定できます。 評価する指標を選択できます。
    1. 以下の指標を選択します
      • 精度スコア
      • データの識別性
      • 漏電防止スコア
      • 接近性スコア
    2. 次へ」をクリックする。
  11. Export data(データのエクスポート) ページで、 File name(ファイル名 )に bank_customers.csv と入力し、 Next(次へ )をクリックします。
  12. 設定を確認し、「フローを保存」 をクリックします。 Synthetic Data Generatorツールがデータフローとともに表示されます。
  13. 指示が出たら、「実行フロー」 をクリックし、実行が完了するまで待ちます。

チェックポイントのアイコン 進捗を確認してください

次の図は、Synthetic Data Generatorているデータの流れを示しています。 これでデータの流れを調べ、出力を見ることができる。

次の図は、Synthetic Data Generatorているデータの流れを示しています。




タスク4:データフローとアウトプットの見直し

実行が完了したら、データの流れを調べることができる。 以下の手順に従って、合成データの流れと結果を確認してください:

  1. パレットアイコンをクリック パレット してノードパネルを閉じます。

  2. インポートノードをダブルクリックして、設定を確認します。

    1. データのプロパティを確認する。 ツールはプロジェクトからデータセットを読み込み、適切なデータ・プロパティを入力する。
    2. タイプ」セクションを展開する。 このツールはデータセットの値と列を読み込む。
    3. キャンセル」をクリックする。
  3. 匿名化」ノードをダブルクリックして、設定を確認します。

    1. CREDITCARD_NUMBER列が匿名化されるように設定されていることを確認する。
    2. Anonymize valuesセクションを展開します。 ここでは、値がどのように匿名化されるかをカスタマイズできます。
    3. キャンセル」をクリックする。
  4. Mimicノードをダブルクリックして設定を見る。

    1. ソース顧客データセットのデータを模倣するために、デフォルト設定を見直す。
    2. キャンセル」をクリックする。
  5. 設定を確認するには、[評価] ノードをダブルクリックします。

    1. 以下の設定を確認してください
      • ベースライン入力インポートに設定されています。 フローでは、 評価ノードに 2 つの入力と、 匿名化ノード生成ノードからの出力があることがわかります。
      • 品質指標プライバシー指標実用指標、および評価レベル情報アイコンにカーソルを合わせると、 情報 各設定の説明が表示されます。
    2. キャンセル」をクリックする。
  6. Generateノードをダブルクリックして設定を見る。

    1. 合成された列のリストを確認する。
    2. オプション:相関関係と詳細オプションを確認する。
    3. キャンセル」をクリックする。
  7. エクスポート」ノードをダブルクリックして、設定を確認します。

    1. オプション:デフォルトでは、エクスポートされたデータはプロジェクトに保存されます。 エクスポートしたデータをDb2 Warehouseなどの接続先に保存する場合は、Change pathをクリックします。
    2. キャンセル」をクリックする。
  8. 「出力」ウィンドウ、「評価」 という名前の結果をクリックします。 出力ペインが表示されない場合は、 出力アイコンをクリックしてください 出力

  9. メトリックトリク 詳細の表示 スの詳細表示アイコンをクリックすると、 メトリックメトリクスの可視化データが表示されます。

  10. チャートメトリックタブでも、同じスコアを確認できます。 作業が完了したら、ウィンドウを閉じます。

  11. プロジェクト名をクリックすると、アセットタブに戻ります。

    プロジェクトのパンくず

  12. bank_customers.csvをクリックすると、生成された合成表データのプレビューが表示されます。

チェックポイントのアイコン 進捗を確認してください

次の画像は、エクスポートされ、生成された合成表データセットです。

次の画像は、エクスポートされ、生成された合成表データセットです。



次のステップ

watsonx.ai:をより実践的に使用するために、以下の追加チュートリアルをお試しください:

追加リソース