クイック・スタート: データを詳細化する

大量の生データを、すぐに分析できる利用可能な高品質の情報に素早く変換することで、データ準備時間を短縮できます。 Data Refinery ツールについて読み、ビデオを見て、コーディングなしで初心者向けのチュートリアルを受けます。

サービス Data Refinery サービスは、デフォルトでは使用できません。 管理者は、 Watson Studio サービスまたは IBM Knowledge Catalog サービスのいずれかを IBM Cloud Pak for Data プラットフォームにインストールする必要があります。 Data Refinery サービスがインストールされているかどうかを確認するには、「サービス・カタログ (Services catalog)」を開き、サービスが使用可能になっているかどうかを確認します。

必要なサービス
Watson Studio または IBM Knowledge Catalog Base Premium この情報は、 IBM Knowledge Catalog および IBM Knowledge Catalog Premium に適用されます。

基本的なワークフローには、以下のタスクが含まれます:

  1. プロジェクトを作成する。 プロジェクトは、データを処理するために他のユーザーと共同作業できる場所です。
  2. データをプロジェクトに追加します。 接続を介してリモート・データ・ソースからの CSV ファイルまたはデータを追加できます。
  3. Data Refinery でデータを開きます。
  4. 操作を使用してデータを詳細化するステップを実行します。
  5. データを変換するジョブを作成して実行します。

Data Refinery について読んでください

Data Refinery を使用して、グラフィック・フロー・エディターで表データのクレンジングとシェーピングを行います。 対話式テンプレートを使用して、操作、関数、および論理演算子をコーディングすることもできます。 データのクレンジングの場合は、正しくないデータ、不完全データ、不適切にフォーマットされたデータ、または重複したデータを修正または削除します。 データのシェーピング では、列のフィルタリング、ソート、結合または削除、および各種操作の実行によってデータをカスタマイズします。

Data Refinery フローは、データに対する順序付き操作のセットとして作成します。 Data Refinery には、データをプロファイルして検証するためのグラフィカル・インターフェース、およびデータのパースペクティブと洞察を提供する 20 を超えるカスタマイズ可能なグラフが含まれます。 整形されたデータ・セットを保存するときは、通常、そのデータ・セットを、読み取った場所とは別の場所にロードします。 これにより、ソース・データは整形プロセスによって影響を受けません。

データの詳細化について詳しく見る

データの詳細化に関するビデオを見る

< このビデオを見て、データを詳細化にする方法を確認してください。

このビデオでは、この資料の コンセプト とタスクを視覚的に学習する方法を紹介します。


データを詳細化するためのチュートリアルをお試しください

このチュートリアルでは、以下のタスクを実行します:

このチュートリアルを完了するための所要時間は約 30 分です。




このチュートリアルを完了するためのヒント
このチュートリアルを正常に完了するためのヒントをいくつか示します。

ブラウザー・ウィンドウのセットアップ

このチュートリアルを完了するための最適なエクスペリエンスを得るには、 1 つのブラウザー・ウィンドウでアカウントを開き、このチュートリアル・ページを別のブラウザー・ウィンドウで開いたままにして、 2 つのウィンドウを簡単に切り替えることができます。 2 つのブラウザー・ウィンドウを横並びに配置して、簡単に従うことができるようにすることを検討してください。

並列チュートリアルと UI

ヒント: ユーザー・インターフェースでこのチュートリアルを実行しているときにガイド付きツアーが表示された場合は、 後で をクリックします。



タスク 1: プロジェクトを開く

データと Data Refinery フローを保管するためのプロジェクトが必要です。 既存のプロジェクトを使用することも、プロジェクトを作成することもできます。

  1. ナビゲーション・メニュー ナビゲーション・メニューから、 「プロジェクト」>「すべてのプロジェクト」 を選択します。

  2. 既存のプロジェクトを開きます。 新規プロジェクトを使用する場合は、次のようにします。

    1. 新規プロジェクトをクリックしてください。

    2. 「空のプロジェクトの作成」を選択します。

    3. プロジェクトの名前とオプションの説明を入力します。

    4. 「作成」 をクリックします。

「チェックポイント」アイコン 進行状況の確認

以下のイメージは、空の新規プロジェクトを示しています。

以下のイメージは、空の新規プロジェクトを示しています。

詳しくは、 プロジェクトの作成 を参照してください。




タスク 2: Data Refinery でデータ・セットを開きます

データ資産 をプロジェクトに追加し、 Data Refinery ・フローを作成するには、以下の手順を実行します。

  1. airline-data.csv ファイル (1.5 MB) をダウンロードします。

  2. プロジェクトから、 資産 のプロジェクトへのアップロード アイコン アップロードをクリックします。

  3. ロード パネルが開いたら、 airline-data.csv ファイルを参照して選択し、 開く をクリックします。 ロードが完了するまでこのページに留まってください。

  4. 資産 タブで、 airline-data.csv データ資産 をクリックして、その内容をプレビューします。

  5. データの準備 をクリックして、 Data Refinery でファイルのサンプルを開き、 Data Refinery がデータのサンプルを読み取って処理するまで待ちます。

  6. 情報 パネルと ステップ パネルを閉じます。

「チェックポイント」アイコン 進行状況の確認

以下のイメージは、 Data Refinery で開かれている航空会社の データ資産 を示しています。

以下のイメージは、 Data Refinery で開かれている航空会社の データ資産 を示しています。




タスク 3: プロファイルと視覚化を使用したデータの確認

資産 の内容は、それらの列の値に基づいて自動的にプロファイルが作成され、分類されます。 「プロファイル」タブと「視覚化」タブを使用してデータを探索するには、以下の手順に従ってください。

ヒント: 「プロファイル」ページと「視覚化」ページを使用して、データを洗練する際のデータの変化を表示します。
  1. 外れ値を見つけるために、「プロファイル」タブをクリックして、データの度数分布を確認します。

    1. 列をスクロールして、各列の統計を確認します。 統計には、各列の 4 分位範囲、最小値、最大値、中央値、および標準偏差が示されます。

    2. バーの上にカーソルを移動すると、追加の詳細が表示されます。

    以下のイメージは、「プロファイル」タブを示しています。
    「プロファイル」タブ

  2. 視覚化 タブをクリックしてください。

    1. 視覚化するために UniqueCarrier 列を選択してください。 推奨されるグラフには、そのアイコンの横に青いドットが表示されます。

    2. 円グラフ をクリックします。 グラフ内で使用可能なさまざまなパースペクティブを使用して、データ内のパターン、接続、および関係を識別します。

「チェックポイント」アイコン 進行状況の確認

以下の画像は、「視覚化」タブを示しています。 これで、データを詳細化する準備ができました。

「視覚化」タブ




タスク 4: データの精製

Data Refinery の操作

Data Refinery は、 GUI 操作コーディング操作の 2 種類の操作を使用してデータを詳細化にします。 このチュートリアルでは両方の種類の操作を使用します。

  • GUI 操作は複数のステップで構成できます。 新規ステップから操作を選択します。 GUI 操作のサブセットは、各列の オーバーフロー メニュー (オーバーフロー・メニュー) からも使用できます。

    Data Refinery でファイルを開くと、ストリング以外のデータ・タイプを推論されたデータ・タイプ (例えば、整数、日付、ブールなど) に変換するための最初のステップとして、 列タイプの変換操作が自動的に適用されます。 このステップは、元に戻すことも編集することもできます。

  • コーディング操作は、操作、関数、および論理演算子をコーディングするための対話式テンプレートです。 ほとんどの操作には対話式のヘルプがあります。 コマンド・ライン・テキスト・ボックスで操作名をクリックすると、コーディング操作とその構文オプションを確認できます。

データの精製は、Data Refinery フローを構築するための一連のステップです。 このタスクを実行する際には、「 ステップ 」パネルを表示して、進行状況を確認してください。 ステップを選択して削除または編集することができます。 間違った場合は、「 元に戻す 」アイコン 元に戻すをクリックすることもできます。 データを詳細化するには、以下の手順を実行します。

  1. データ タブに戻ります。

  2. Year 列を選択してください。 オーバーフロー メニュー (オーバーフロー・メニュー) をクリックし、 降順にソート を選択します。

  3. ステップ をクリックして、 ステップ パネルに新規ステップを表示します。

  4. 特定の航空会社の遅延にフォーカスする。 このチュートリアルではユナイテッド航空 (UA) を使用しますが、任意の航空会社を選択できます。

    1. 新規ステップをクリックし、GUI 操作 フィルターを選択してください。

    2. UniqueCarrier 列を選択してください。

    3. Operatorの場合は、 Is equal toを選択してください。

    4. には、遅延情報を表示する航空会社のストリングを入力します。 例えば、 UA.
      フィルター操作

    5. 「適用」をクリックします。 UniqueCarrier 列までスクロールして、結果を確認します。

  5. 到着と出発の遅延時間を合計する新規列を作成します。

    1. DepDelay 列を選択します。

    2. 値が数値であるすべての列のストリング・データ型を整数データ型に変換するための最初のステップとして、 列タイプの変換 操作が自動的に適用されたことに注意してください。

    3. 新規ステップをクリックし、GUI 操作 計算を選択してください。

    4. Operatorの場合は、 Additionを選択してください。

    5. を選択し、 ArrDelay 列を選択します。

    6. 「結果用の新規列を作成する (Create new column for results)」を選択します。

    7. 新規列名TotalDelayと入力します。
      計算操作

    8. 新しい列は、列のリストの最後に配置することも、元の列の横に配置することもできます。 この場合、「 元の列の次へ 」を選択します。

    9. 「適用」をクリックします。 新しい列 TotalDelay が追加されます。

  6. 新しい TotalDelay 列をデータ・セットの先頭に移動します:

    1. コマンド行テキスト・ボックスで、 選択 操作を選択してください。

    2. select という語をクリックし、 select(`<column>`, everything()) を選択します。

    3. `<column>`をクリックし、 TotalDelay 列を選択してください。 完了すると、コマンドは次のようになります。

      select(`TotalDelay`, everything())
      
    4. 「適用」をクリックします。 今、 TotalDelay 列が最初の列になります。

  7. データを 4 つの列 ( YearMonthDayofMonth、および TotalDelay) に削減します。 group_by コーディング操作を使用して、列を年、月、日のグループに分割してください。

    1. command-line テキスト・ボックスで、 group_by 操作を選択してください。

    2. <column>をクリックしてから、 列を選択してください。

    3. 右括弧の前に ,Month,DayofMonthと入力してください。 完了すると、コマンドは次のようになります。

      group_by(`Year`,Month,DayofMonth)
      
    4. 「適用」をクリックします。

    5. TotalDelay 列には、 選択 コーディング操作を使用します。 コマンド行テキスト・ボックスで、 選択 操作を選択してください。
      <column>をクリックし、 TotalDelay 列を選択してください。 コマンドは次のようになります。

      select(`TotalDelay`)
      
    6. 「適用」をクリックします。 形状化されたデータは、 YearMonthDayofMonth、および TotalDelay の各列で構成されるようになりました。

      次の画面イメージは、データの最初の 4 行を示しています。
      Data Refinery フローの最初の 4 行 (「Year」列、「Month」列、「DayofMonth」列、および「TotalDelay」列)

  8. TotalDelay 列の値の平均を表示し、新しい AverageDelay 列を作成します。

    1. 「新規ステップ」をクリックし、GUI 操作 「集計」を選択します。

    2. の場合は、 TotalDelay を選択します。

    3. 演算子 の場合は、 平均値 を選択します。

    4. 集約列の名前AverageDelayと入力します。
      集計操作

    5. 「適用」をクリックします。

      新しい列 AverageDelay は、すべての遅延時間の平均です。

「チェックポイント」アイコン 進行状況の確認

次のイメージは、データの最初の 4 行を示しています。

次の画面イメージは、データの最初の 4 行を示しています。




タスク 5: Data Refinery ・フローの ジョブ の実行

Data Refinery フローのジョブを実行すると、各ステップがデータ・セット全体で実行されます。 ユーザーはランタイムを選択して、1 回限りのスケジュールか繰り返しのスケジュールを追加します。 Data Refinery フローの出力は、プロジェクトのデータ資産に追加されます。 以下のステップに従って、 ジョブ を実行し、精製されたデータ・セットを作成します。

  1. Data Refinery ツールバーから、 ジョブ アイコンをクリックし、 ジョブ の保存と作成を選択します。
    ジョブを保存して作成

  2. ジョブの名前と説明を入力し、 次へをクリックしてください。

  3. ランタイム環境を選択し、 次へをクリックしてください。

  4. (オプション) トグル・ボタンをクリックして実行をスケジュールします。 日付、時刻、およびジョブを繰り返すかどうかを指定し、 次へをクリックしてください。

  5. (オプション) このジョブの通知をオンにし、 次へをクリックしてください。

  6. 詳細を確認し、 「作成して実行」 をクリックして ジョブ をすぐに実行します。
    create job

  7. ジョブが作成されたら、通知内の ジョブの詳細 リンクをクリックして、プロジェクト内のジョブを表示します。 あるいは、プロジェクトの ジョブ タブにナビゲートし、ジョブ名をクリックして開くこともできます。

  8. ジョブ の 状況 (Status)完了しました の場合、プロジェクト・ナビゲーション・トレールを使用して、プロジェクトの 資産 タブに戻ります。

  9. データ > データ資産 セクションをクリックして、 Data Refinery フローの出力を表示します。 airline-data_shaped.csv

  10. 「フロー」>「 Data Refinery フロー」 セクションをクリックして、 Data Refinery フロー、 airline-data.csv_flow を表示します。

「チェックポイント」アイコン 進行状況の確認

以下のイメージは、 Data Refinery フローと形状が設定された 資産 が表示された「 資産 」タブを示しています。

以下のイメージは、 Data Refinery ・フローと形状が設定された 資産 が表示された「 資産 」タブを示しています。




タスク 6: Data Refinery フローから別の データ資産 を作成する

Data Refinery ・フローを編集してデータ・セットをさらに詳細化するには、以下の手順を実行します。

  1. airline-data.csv_flow をクリックして、 Data Refinery でフローを開きます。

  2. AverageDelay 列を降順にソートします。

    1. AverageDelay 列を選択します。

    2. 列の オーバーフロー メニュー (オーバーフロー・メニュー) をクリックし、 降順にソート を選択します。

  3. フロー設定 アイコン フロー設定をクリックします。

  4. 「ターゲット・データ・セット」 パネルをクリックします。

  5. プロパティーの編集 」をクリックします。

    1. ターゲット・プロパティーのフォーマット ダイアログで、 データ資産 名を airline-data_sorted_shaped.csvに変更します。
      変更された出力ファイル名

    2. 「保存」 をクリックして、フロー設定に戻ります。

  6. 「適用」をクリックして設定を保存します。

  7. Data Refinery ツールバーから、 ジョブ アイコンをクリックし、 ジョブの保存と表示 を選択します。
    ジョブを保存して表示

  8. 航空会社データのジョブを選択してから、 表示をクリックしてください。

  9. ジョブ ツールバーから、 ジョブ の実行 アイコンをクリックします。
    ジョブの実行

「チェックポイント」アイコン 進行状況の確認

以下のイメージは、完了した ジョブ の詳細を示しています。

以下のイメージは、完了した ジョブ の詳細を示しています。




タスク 7: プロジェクト内の データ資産 と Data Refinery ・フローを表示します

次に、以下のステップに従って、 3 つの データ資産

  1. ジョブが完了したら、プロジェクト・ページに移動します。

  2. 「資産」タブをクリックします。

  3. データ資産 セクションに、アップロードした元のデータ・セットと、2 つの Data Refinery フローの出力が表示されます。

    • airline-data_sorted_shaped.csv
    • airline-data_csv_shaped
    • airline-data.csv
  4. airline-data_csv_shaped データ資産 をクリックして、ソートされていない平均遅延を表示します。 資産 タブに戻ります。

  5. airline-data_sorted_shaped.csv データ資産をクリックすると、降順にソートされた平均遅延が表示されます。 資産 タブに戻ります。

  6. 「フロー」>「 Data Refinery フロー」 セクションをクリックすると、 Data Refinery フローが表示されます。 airline-data.csv_flow.

「チェックポイント」アイコン 進行状況の確認

以下のイメージは、すべての 資産 が表示された「 資産 」タブを示しています。

以下のイメージは、すべての 資産 が表示された「 資産 」タブを示しています。



次のステップ

では、データを使用する準備ができました。 例えば、ユーザーまたは他のユーザーは、以下のいずれかのタスクを実行できます:

その他のリソース