クイック・スタート: データを詳細化する

大量の生データを、すぐに分析できる利用可能な高品質の情報に素早く変換することで、データ準備時間を短縮できます。 Data Refinery ツールについて読み、ビデオを見て、コーディングなしで初心者向けのチュートリアルを受けます。

クラウド・プラットフォーム
必要なサービス: watsonx.ai スタジオまたは IBM watsonx.data intelligence

基本的なワークフローには、以下のタスクが含まれます：

プロジェクトを作成するプロジェクトは、データを処理するために他のユーザーと共同作業できる場所です。
データをプロジェクトに追加します。接続を介してリモート・データ・ソースからの CSV ファイルまたはデータを追加できます。
Data Refinery でデータを開きます。
操作を使用してデータを詳細化するステップを実行します。
データを変換するジョブを作成して実行します。

Data Refinery について読んでください

Data Refinery を使用して、グラフィック・フロー・エディターで表データのクレンジングとシェーピングを行います。対話式テンプレートを使用して、操作、関数、および論理演算子をコーディングすることもできます。 データのクレンジングの場合は、正しくないデータ、不完全データ、不適切にフォーマットされたデータ、または重複したデータを修正または削除します。 データのシェーピング では、列のフィルタリング、ソート、結合または削除、および各種操作の実行によってデータをカスタマイズします。

Data Refinery フローは、データに対する順序付き操作のセットとして作成します。 Data Refinery には、データをプロファイルして検証するためのグラフィカル・インターフェース、およびデータのパースペクティブと洞察を提供する 20 を超えるカスタマイズ可能なグラフが含まれます。精製されたデータ・セットを保存するときは、通常、そのデータ・セットを、読み取った場所とは別の場所にロードします。これにより、ソース・データは精製プロセスによって影響を受けません。

データの詳細化について詳しく見る

データの詳細化に関するビデオを見る

ビデオを見るこのビデオを見て、データを詳細化にする方法を確認してください。

このビデオは、本書の概念とタスクを学習するためのビジュアル・メソッドを提供します。

トランスクリプト

トランスクリプトをビデオと同期化する

動画のトランスクリプト
時刻	トランスクリプト
00:00	このビデオでは、Data Refinery を使用して生データをシェーピングする方法を説明します。
00:05	プロジェクトからデータの詳細化を開始するには、データ資産を閲覧して「Data Refinery」で開きます。
00:14	データフローとデータフロー出力の名前は、データの調整が完了した時点で情報ペインに表示されます。
00:24	「データ」タブでは、データセット内の行と列のサンプルセットが表示されます。
00:29	パフォーマンスを向上させるために、シェーパー内のすべての行が表示されるわけではありません。
00:33	ただし、データの精製が完了した時点で、データフローは完全なデータセットに対して実行されることをご安心ください。
00:41	「プロファイル」タブには、各列の頻度統計と要約統計が表示されます。
00:48	「視覚化」タブには、関心のある列のデータ視覚化が表示されます。
00:57	推奨されるグラフは、アイコンの横に青い点が表示されます。
01:03	グラフ内で使用可能なさまざまなパースペクティブを使用して、データ内のパターン、接続、および関係を識別します。
01:12	では、いくつかのデータ・ラングリングを行いましょう。
01:15	まず、指定された列（この場合は「年」列）での並べ替えのような単純な操作から始めます。
01:24	例えば、特定の航空会社の遅延だけに焦点を当てたい場合、データにフィルターをかけて、航空会社がユナイテッド航空のみである行だけを表示させることができます。
01:42	合計遅延を確認すると役に立ちます。
01:45	到着遅延と出発遅延を結合する新しい列を作成してこれを行います。
01:50	列タイプは整数であると推測されることに注意してください。
01:54	出発遅延の列を選択し、「計算」操作を使用します。
02:03	この場合、選択した列に「到着遅延」列を追加し、新しい列を作成します "TotalDelay"。
02:13	新しい列は、列のリストの最後に配置することも、元の列の横に配置することもできます。
02:21	操作を適用すると、出発遅延列の横に新しい列が表示されます。
02:28	もしミスをした場合、または単に変更を加えたい場合は、「ステップ」パネルにアクセスし、そのステップを削除してください。
02:36	これにより、その特定の操作が元に戻されます。
02:40	「やり直し」ボタンと「元に戻す」ボタンを使用することもできます。
02:44	次に、その "TotalDelay" 列に焦点を当てたいので、「選択」操作を使用して列を先頭に移動できます。
03:02	このコマンドは、総遅延列をリストの最初に配置し、それ以外の項目はすべてその後に続きます。
03:12	最後に、"TotalDelay"列の平均を求めたい。
03:16	「整理」セクションの操作メニューを展開すると、「集計」操作が表示され、その中に「平均」関数が含まれています。
03:33	これで、総遅延の平均を表す新しい列が "AverageDelay" 追加されました。
03:40	データフローを実行するには、保存してジョブを作成します。
03:47	ジョブ名を入力し、次の画面に進んでください。
03:52	「設定」ステップではジョブ実行時の入力と出力を確認し、ジョブを実行する環境を選択できます。
04:03	ジョブブのスケジュール設定は任意ですが、必要に応じて日付を設定し、ジョブを繰り返し実行できます。
04:13	また、このジョブの通知を受け取ることを選択できます。
04:19	すべて問題ないように見えるため、ジョブを作成して実行します。
04:22	これは数分かかる可能性があります。なぜなら、データフローは完全なデータセットに対して実行されるからです。
04:28	それまでは、状況を表示できます。
04:34	実行が完了したら、プロジェクトの「資産」タブに戻り、フロー Data Refinery を開いてデータをさらに精緻化できます。
04:50	例えば、"AverageDelay"カラムを降順にソートすることができる。
04:59	次に、フロー設定を編集します。
05:02	「一般」パネルで、 Data Refinery フロー名を変更できます。
05:08	「ソースデータセット」パネルでは、ソースデータセットのサンプルやフォーマットを編集したり、データソースを置き換えたりできます。
05:18	「ターゲット・データ・セット」パネルでは、外部データ・ソースなどの代替ロケーションを指定できます。
05:28	ターゲットのプロパティ（書き込みモードやファイル形式など）を編集したり、資産セットアセット名を変更したりすることもできます。
05:43	では、データフローを再度実行してください。ただし今回は、ジョブを保存して表示してください。
05:51	表示するジョブをリストから選択し、ジョブを実行します。
06:03	実行が完了したら、プロジェクトに戻ります。
06:08	「資産」タブでは、3つのファイルすべてが表示されます：元のファイル、最初の精製済みデータセット（未ソート "AverageDelay" 状態）、そして2番目のデータセット（列 "AverageDelay" が降順でソートされた状態）です。
06:34	「資産 (Assets)」タブには、 Data Refinery フローがあります。
06:42	ドキュメントでさらに多くの動画を見つけてください。

データを詳細化するためのチュートリアルをお試しください

このチュートリアルでは、以下のタスクを実行します：

タスク 1: プロジェクトを開きます。
タスク 2: Data Refineryでデータ・セットを開きます。
タスク 3: プロファイルと視覚化を使用してデータを確認します。
タスク 4: データの精製。
タスク 5: Data Refinery フローのジョブを実行します。
作業 6: Data Refinery フローから別のデータ資産を作成します。
タスク 7: プロジェクト内のデータ資産および Data Refinery フローを表示します。

このチュートリアルを完了するための所要時間は約 30 分です。

このチュートリアルを完了するためのヒント

このチュートリアルを正常に完了するためのヒントを以下に示します。

ビデオ・ピクチャー・イン・ピクチャーの使用

ヒント: ビデオを開始してから、チュートリアルをスクロールすると、ビデオはピクチャー・イン・ピクチャー・モードに移行します。ピクチャー・イン・ピクチャーを最大限に活用するには、ビデオの目次を閉じます。ピクチャー・イン・ピクチャー・モードを使用して、このチュートリアルのタスクを完了する際にビデオをフォローすることができます。後続の各タスクのタイム・スタンプをクリックします。

以下のアニメーション・イメージは、ビデオ・ピクチャー・イン・ピクチャーおよび目次機能の使用方法を示しています。

ピクト・イン・ピクチャーおよび章の使用法

ブラウザー・ウィンドウのセットアップ

このチュートリアルを最適に体験するには、アカウントを1つのブラウザウィンドウで開いておき、このチュートリアルページを別のブラウザウィンドウで開いておくと、両ウィンドウ間を簡単に切り替えることができます。 2 つのブラウザー・ウィンドウを横並びに配置して、見やすくすることを検討してください。

横並びのチュートリアルと UI

ヒント: ユーザー・インターフェースでこのチュートリアルを実行しているときにガイド・ツアーが表示された場合は、 「後で行うこともあります」をクリックします。

タスク 1: プロジェクトを開く

データと Data Refinery フローを保管するためのプロジェクトが必要です。既存のプロジェクトを使用することも、プロジェクトを作成することもできます。

ナビゲーションメニュー から、 プロジェクト > すべてのプロジェクトを表示 を選択します。
既存のプロジェクトを開きます。新規プロジェクトを使用する場合は、以下のようにします。
1. 新規プロジェクトをクリックしてください。
2. 「空のプロジェクトの作成」を選択します。
3. プロジェクトの名前と説明 (オプション) を入力します。
4. 既存のオブジェクト・ストレージ・サービス・インスタンスを選択するか、または新規作成します。
5. 「作成」 をクリックします。

進捗を確認してください

以下の画像は、新しい空のプロジェクトを示しています。

詳細またはビデオについては、プロジェクトの作成をご覧ください。

タスク 2: Data Refinery でデータ・セットを開く

プレビュー・チュートリアル・ビデオこのタスクをプレビューするには、 00:05から始まるビデオをご覧ください。

以下のステップに従って、データ資産をプロジェクトに追加し、 Data Refinery フローを作成します。このチュートリアルで使用するデータ・セットは、リソース・ハブで使用可能です。あなたの watsonx アカウントがダラス IBM Cloud リージョンの場合は、リンクをたどってください。それ以外の場合は、リソースハブで航空会社データサンプルを検索してください。このサンプルデータは、地域やクラウドプラットフォームによっては利用できない場合があります。この場合、任意の類似データサンプルを使用することができます。

リソースハブのエアラインデータにアクセスします。
プロジェクトに追加をクリックしてください。
リストからプロジェクトを選択し、 「追加」をクリックします。
データ・セットが追加されたら、 プロジェクトの表示をクリックしてください。

リソース・ハブからプロジェクトへのデータ資産の追加について詳しくは、ノートブックでのデータのロードおよびアクセスを参照してください。
「アセット」 タブで、 airline-data.csv データ・アセットをクリックして、そのコンテンツをプレビューします。
「データの準備 (Prepare Data)」 をクリックして Data Refineryでファイルのサンプルを開き、 Data Refinery がデータのサンプルを読み取って処理するまで待ちます。
「情報」 パネルおよび 「ステップ」 パネルを閉じます。

進捗を確認してください

以下の画像は、 Data Refineryで開いている航空会社のデータ資産を示しています。

タスク 3: プロファイルと視覚化を使用したデータの確認

プレビュー・チュートリアル・ビデオこのタスクをプレビューするには、 00:47から始まるビデオをご覧ください。

資産の内容は、それらの列の値に基づいて自動的にプロファイルが作成され、分類されます。「プロファイル」タブと「視覚化」タブを使用してデータを探索するには、以下の手順に従ってください。

ヒント: 「プロファイル (Profile)」ページと「視覚化 (Visualizations)」ページを使用して、詳細化したデータの変更を表示します。

外れ値を見つけるために、「プロファイル」タブをクリックして、データの度数分布を確認します。
1. 列をスクロールして、各列の統計を確認します。統計には、各列の 4 分位範囲、最小値、最大値、中央値、および標準偏差が示されます。
2. バーの上にカーソルを移動すると、追加の詳細が表示されます。
次の画像はプロファイルタブを示しています：
視覚化 タブをクリックしてください。
1. 視覚化するために UniqueCarrier 列を選択してください。推奨されるグラフには、そのアイコンの横に青いドットが表示されます。
2. 「円グラフ」 をクリックします。グラフ内で使用可能なさまざまなパースペクティブを使用して、データ内のパターン、接続、および関係を識別します。

進捗を確認してください

以下の画像は、「視覚化」タブを示しています。これで、データを精製する準備ができました。

タスク 4: データの精製

Data Refinery の操作

Data Refinery は、 GUI 操作 と コーディング操作の 2 種類の操作を使用してデータを詳細化にします。このチュートリアルでは両方の種類の操作を使用します。

GUI 操作は複数のステップで構成できます。 新規ステップから操作を選択します。 GUI操作の一部は、各列のオーバーフロー メニューからも利用可能です。

Data Refinery でファイルを開くと、ストリング以外のデータ・タイプを推論されたデータ・タイプ (例えば、整数、日付、ブールなど) に変換するための最初のステップとして、 列タイプの変換操作が自動的に適用されます。このステップは、元に戻すことも編集することもできます。
コーディング操作は、操作、関数、および論理演算子をコーディングするための対話式テンプレートです。ほとんどの操作には対話式のヘルプがあります。コマンド・ライン・テキスト・ボックスで操作名をクリックすると、コーディング操作とその構文オプションを確認できます。

プレビュー・チュートリアル・ビデオこのタスクをプレビューするには、動画の01:16 からご覧ください。

データの精製は、Data Refinery フローを構築するための一連のステップです。このタスクを実行するには、 「ステップ」 パネルを表示して進行状況を確認します。ステップを選択して削除または編集することができます。間違いを犯した場合、 元に戻すアイコンをクリックすることもできます。データを精製するには、以下の手順を実行します。

データ タブに戻ります。
Year 列を選択してください。 オーバーフロー メニュー（）をクリックし、 「降順で並べ替え」 を選択します。
「ステップ」 をクリックして、 「ステップ」 パネルに新規ステップを表示します。
特定の航空会社の遅延にフォーカスする。このチュートリアルではユナイテッド航空 (UA) を使用しますが、任意の航空会社を選択できます。
1. 新規ステップをクリックし、GUI 操作 フィルターを選択してください。
2. UniqueCarrier 列を選択してください。
3. Operatorの場合は、 Is equal toを選択してください。
4. 値には、遅延情報を表示する航空会社のストリングを入力します。例えば、 UA。
5. 「適用」をクリックします。 UniqueCarrier 列までスクロールして、結果を確認します。
到着と出発の遅延時間を合計する新規列を作成します。
1. DepDelay 列を選択します。
2. 値が数値であるすべての列のストリング・データ型を整数データ型に変換するための最初のステップとして、 列タイプの変換 操作が自動的に適用されたことに注意してください。
3. 新規ステップをクリックし、GUI 操作計算を選択してください。
4. Operatorの場合は、 Additionを選択してください。
5. 「列」を選択してから、 ArrDelay 列を選択します。
6. 「結果用の新規列を作成する (Create new column for results)」を選択します。
7. 新しい列名には、と入力してください TotalDelay。
8. 新しい列は、列のリストの最後に配置することも、元の列の横に配置することもできます。この場合は、 「元の列の次へ」を選択します。
9. 「適用」をクリックします。新しいカラム、TotalDelayが追加される。
新しい TotalDelay 列をデータ・セットの先頭に移動します：
1. コマンド行テキスト・ボックスで、選択操作を選択してください。
2. selectという語をクリックし、 select (`<column>`, everything ())を選択します。
3. `<column>`をクリックし、 TotalDelay 列を選択してください。完了すると、コマンドは次のようになります。
```
select(`TotalDelay`, everything())
```
4. 「適用」をクリックします。今、 TotalDelay 列が最初の列になります。
データを 4 つの列 ( Year、Month、 DayofMonth、および TotalDelay) に削減します。 group_by コーディング操作を使用して、列を年、月、日のグループに分割してください。
1. command-line テキスト・ボックスで、 group_by 操作を選択してください。
2. <column>をクリックしてから、年列を選択してください。
3. 右括弧の前に ,Month,DayofMonthと入力してください。完了すると、コマンドは次のようになります。
```
group_by(`Year`,Month,DayofMonth)
```
4. 「適用」をクリックします。
5. TotalDelay 列には、選択コーディング操作を使用します。コマンド行テキスト・ボックスで、選択操作を選択してください。
  <column>をクリックし、 TotalDelay 列を選択してください。コマンドは次のようになります。
```
select(`TotalDelay`)
```
6. 「適用」をクリックします。形状化されたデータは、 Year、 Month、 DayofMonth、および TotalDelay の各列で構成されるようになりました。
  
  以下の画面画像は、データの最初の4行を示しています。
TotalDelay 列の値の平均を表示し、新しい AverageDelay 列を作成します。
1. 「新規ステップ」をクリックし、GUI 操作 「集計」を選択します。
2. 「列」で、 TotalDelayを選択します。
3. 「演算子」で、 「平均」を選択します。
4. 集計列の名前には、と入力してください AverageDelay。
5. 「適用」をクリックします。
  
  新しい列 AverageDelay は、すべての遅延時間の平均です。

進捗を確認してください

次の図は、データの最初の 4 行を示しています。

タスク 5: Data Refinery フローのジョブの実行

プレビュー・チュートリアル・ビデオこのタスクをプレビューするには、 04:16から始まるビデオをご覧ください。

Data Refinery フローのジョブを実行すると、各ステップがデータ・セット全体で実行されます。ユーザーはランタイムを選択して、1 回限りのスケジュールか繰り返しのスケジュールを追加します。 Data Refinery フローの出力は、プロジェクトのデータ資産に追加されます。以下のステップに従って、詳細化されたデータ・セットを作成するジョブを実行します。

ツール Data Refinery バーからアイコン求人をクリックし、を選択します 保存してジョブを作成する。
ジョブの名前と説明を入力し、次へをクリックしてください。
ランタイム環境を選択し、次へをクリックしてください。
(オプション) トグル・ボタンをクリックして実行をスケジュールします。日付、時刻、およびジョブを繰り返すかどうかを指定し、次へをクリックしてください。
(オプション) このジョブの通知をオンにし、次へをクリックしてください。
詳細を確認し、「 作成して実行」をクリックすると、ジョブがすぐに実行されます。
ジョブが作成されたら、通知内の ジョブの詳細 リンクをクリックして、プロジェクト内のジョブを表示します。あるいは、プロジェクトの ジョブ タブにナビゲートし、ジョブ名をクリックして開くこともできます。
ジョブの 「状況」 が 「完了」になったら、プロジェクト・ナビゲーション証跡を使用して、プロジェクトの 「資産」 タブに戻ります。
「データ」>「データ資産」 セクションをクリックして、 Data Refinery フロー airline-data_shaped.csvの出力を表示します。
「フロー」>「 Data Refinery フロー」 セクションをクリックして、 Data Refinery フロー airline-data.csv_flowを表示します。

進捗を確認してください

次の図は、 Data Refinery フローとシェーピングされた資産が表示されている「資産」タブを示しています。

タスク 6: Data Refinery フローからの別のデータ資産の作成

プレビュー・チュートリアル・ビデオこのタスクをプレビューするには、動画の 05:26 からご覧ください。

Data Refinery フローを編集してデータ・セットをさらに詳細化するには、以下の手順を実行します。

airline-data.csv_flow をクリックして、 Data Refineryでフローを開きます。
AverageDelay 列を降順でソートします。
1. AverageDelay 列を選択します。
2. 列のオーバーフロー メニュー（）をクリックし、[ 降順で並べ替え ] を選択します。
フロー設定アイコンをクリックしてください。
「ターゲット・データ・セット」 パネルをクリックします。
「プロパティーの編集」をクリックします。
1. フォーマット対象のプロパティ ダイアログで、データ資産アセット名をに変更します airline-data_sorted_shaped.csv。
2. 「保存」 をクリックしてフロー設定に戻ります。
「適用」をクリックして設定を保存します。
ツール Data Refinery バー からジョブアイコンをクリックし、 「保存とジョブの表示」 を選択します。
航空会社データのジョブを選択してから、表示をクリックしてください。
ツール ジョブウィンドウ バーから、アイコン ジョブを実行する をクリックします。

進捗を確認してください

以下のイメージは、完了したジョブの詳細を示しています。

タスク 7: プロジェクト内のデータ資産および Data Refinery フローの表示

プレビュー・チュートリアル・ビデオこのタスクをプレビューするには、 06:40 から始まる動画をご覧ください。

次に、以下のステップに従って、3 つのデータ資産 (元のデータ・セット、最初の精製データ・セット、および 2 番目の精製データ・セット) を表示します。

ジョブが完了したら、プロジェクト・ページに移動します。
「資産」タブをクリックします。
データ資産 セクションに、アップロードした元のデータ・セットと、2 つの Data Refinery フローの出力が表示されます。
- airline-data_sorted_shaped.csv
- airline-data_csv_shaped
- airline-data.csv
「Airline-data_csv_形状」 データ資産をクリックして、ソートされていない平均遅延を表示します。 「アセット」 タブに戻ります。
airline-data_sorted_shaped.csv データ資産をクリックすると、降順にソートされた平均遅延が表示されます。 「アセット」 タブに戻ります。
Data Refinery フロー airline-data.csv_flowが表示されている 「フロー」> Data Refinery フロー ・セクションをクリックします。

進捗を確認してください

以下の画像は、すべての資産が表示された「資産」タブを示しています。

次のステップ

では、データを使用する準備ができました。例えば、ユーザーまたは他のユーザーは、以下のいずれかのタスクを実行できます：

データ資産をカタログに追加して組織と共有します

その他のリソース

Data Refineryのその他のビデオをご覧ください。
サンプルデータセットを検索して、Resource hubでデータの精製を実際に体験してください。
こちらの追加チュートリアルをお試しください Data Refinery ：データの収集、クリーニング、および強化