ツールの選択
Cloud Pak for Data as a Service のコア・サービスには、データの準備、分析、およびモデル化のあらゆる経験レベル (初心者から専門家まで) のユーザー向けに、さまざまなツールが用意されています。 適切なツールは、所有しているデータのタイプ、実行する予定のタスク、および必要な自動化の量によって異なります。
プロジェクトで使用するツールと、それらのツールが必要とするサービスを確認するには、ツールとサービス・マップを開きます。
適切なツールを選択するには、以下の要素について検討します。
実行する必要があるタスクのタイプ
- データの準備: データをクレンジング、シェーピング、視覚化、編成、および検証する。
- データの分析: データのパターンと関係を特定し、洞察を表示する。
- モデルの作成: モデルを作成、トレーニング、テスト、およびデプロイして、予測を行ったり、意思決定を最適化したりします。
必要な自動化の量
- コード・エディター・ツール: Python または R でコードを作成するために使用します。すべて Spark でも使用できます。
- グラフィカル・ビルダー・ツール: ビルダーでメニューおよびドラッグ・アンド・ドロップ機能を使用して、視覚的にプログラムを作成します。
- 自動化ビルダー・ツール: 限定されたユーザー入力を必要とする自動化タスクを構成するために使用します。
次の表は、タスク別のツールの一覧である:
| ツール | ツール・タイプ | データの準備 | データの分析 | モデルの構築 |
|---|---|---|---|---|
| Jupyter ノートブック・エディター | コード・エディター | ✓ | ✓ | ✓ |
| RStudio | コード・エディター | ✓ | ✓ | ✓ |
| マスキング・フロー | 自動化ビルダー | ✓ | ||
| Data Refinery | グラフィカル・ビルダー | ✓ | ✓ | |
| Data Virtualization | グラフィカル・ビルダー | ✓ | ||
| DataStage | グラフィカル・ビルダー | ✓ | ||
| Data Replication | グラフィカル・ビルダー | ✓ | ||
| SPSS Modeler | グラフィカル・ビルダー | ✓ | ✓ | ✓ |
| Decision Optimization モデル・ビルダー | グラフィカル・ビルダーおよびコード・エディター | ✓ | ✓ | |
| AutoAI | 自動化ビルダー | ✓ | ✓ | |
| Metadata import | 自動化ビルダー | ✓ | ||
| メタデータのエンリッチメント | 自動化ビルダー | ✓ | ✓ | |
| データ品質ルール | 自動化ビルダーおよびコード・エディター | ✓ | ||
| IBM Match 360 サービスとして | 自動化ビルダー | ✓ | ||
| オーケストレーション・パイプライン | グラフィカル・ビルダー | ✓ | ✓ | ✓ |
Jupyter ノートブック・エディター
Jupyter ノートブック・エディターを使用すると、データを準備、視覚化、および分析するため、またはモデルを作成、トレーニングするためのコードを実行するノートブックを作成できます。
- 必須のサービス
- watsonx.ai Studio
- データ・フォーマット
- 任意
- データ・サイズ
- 任意
- データの準備、データの分析、またはモデルの作成を行う方法
- すべて Spark を使用して、 Python または R でコードを作成します。
- コードにリッチ・テキストとメディアを含めます。
- 任意の種類のデータを任意の方法で処理します。
- プリインストールされているものを使用するか、他のオープン・ソースおよび IBM のライブラリーとパッケージをインストールします。
- コードの実行をスケジュールする
- ファイル URL、またはリソースハブからノートブックをインポートします。
- ノートブックの読み取り専用コピーを外部で共有します。
- 開始する
- ノートブックを作成するには、新しい資産 > データとモデルの操作PythonまたはRノートブック。
- 詳細情報
- ノートブックに関する資料
- ノートブックに関するビデオ
- サンプル・ノートブック
Jupyterノートブックの基本を学ぶビデオを見る
このビデオは、このドキュメントのコンセプトとタスクを学ぶための視覚的な方法を提供します。
Data Refinery
Data Refinery を使用すると、グラフィック・フロー・エディターで表データを準備して視覚化できます。 データに対して順序付けられた操作のセットとして Data Refinery フローを作成し、実行します。
- 必須のサービス
- watsonx.ai スタジオまたは IBM watsonx.data intelligence
- データ・フォーマット
- 表形式: Avro、CSV、JSON、Microsoft Excel (xls および xlsx 形式)。 最初のシートのみ (接続および接続されたデータ資産を除く)。 Parquet、「sas7bdat」拡張子 (読み取り専用)、TSV (読み取り専用)、または区切り文字で区切られているテキスト・データ資産を持つ SAS
- リレーショナル形式: リレーショナル・データ・ソース内のテーブル
- データ・サイズ
- 任意
- データの準備方法
- 60 を超える操作でデータをクレンジング、シェーピング、編成します。
- 詳細化されたデータを新規データ・セットとして保存するか、または元のデータを更新します。
- データのプロファイルを作成して検証します。
- 対話式テンプレートを使用して、コード操作、関数、および論理演算子でデータを操作します。
- データに対する繰り返し操作をスケジュールします。
- データの分析方法
- 複数の視覚化グラフでデータ内のパターン、接続、および関係を識別します。
- 開始する
- Data Refinery フローを作成するには、 「新規資産」>「データの準備と視覚化」をクリックします。
- 詳細情報
- Data Refinery に関する資料
- Data Refinery に関するビデオ
データを絞り込む方法をビデオで見る
このビデオは、このドキュメントのコンセプトとタスクを学ぶための視覚的な方法を提供します。
Data Replication
Data Replication を使用して、データを統合および同期化します。 Data Replication は、ソースへの影響を最小限に抑えながら、ほぼリアルタイムのデータ配信を提供します。
- 必要なサービス
Data Replication
- 関連サービス
IBM watsonx.data intelligence
- データ形式
Data Replicationは、特定のタイプのデータ・ソースやデータ・フォーマットとの接続で機能する。 詳細については、サポートされるData Replication接続を参照してください。
- 資格情報
Data Replicationは、IBM Cloudの認証情報を使用してサービスに接続します。
- 開始する
プロジェクトでデータのレプリケーションを開始するには、[New asset] > [Replicate data]をクリックします。
- 詳細情報
データの複製方法をビデオで見る
このビデオは、このドキュメントのコンセプトとタスクを学ぶための視覚的な方法を提供します。
Data Virtualization
Data Virtualizationを使用して、複数のデータ・ソースを、データ・ソースまたはデータベースの単一の自己バランス・コレクションに接続します。
- データ・フォーマット
- リレーショナル形式: リレーショナル・データ・ソース内のテーブル
- データ・サイズ
- 任意
- データの準備方法
- 複数のデータ・ソースに接続します。
- 仮想表を作成します。
- 開始する
- 仮想テーブルを作成するには、[Data] > [Data virtualizationをクリックします。 サービス・メニューから、 仮想化 (Virtualization ) > 仮想化 (Virtualize) > 表 (Tables)をクリックします。
- 詳細情報
- Data Virtualizationに関する文書
- Data Virtualizationに関するビデオ
データを仮想化する方法をビデオで見る
このビデオは、このドキュメントのコンセプトとタスクを学ぶための視覚的な方法を提供します。
DataStage
DataStage を使用すると、グラフィック・フロー・エディターで表データを準備して視覚化できます。 データに対して順序付けられた操作のセットとして DataStage フローを作成し、実行します。
- 必要なサービス
- DataStage
- データ・フォーマット
- 表形式: Avro ファイル、CSV ファイル、JSON ファイル、Parquet ファイル、TSV (読み取り専用)ファイル、または区切り文字で区切られているテキスト・ファイル
- リレーショナル形式: リレーショナル・データ・ソース内のテーブル
- データ・サイズ
- 任意
- データの準備方法
- パフォーマンスの高い DataStage パラレル・エンジンで実行される Orchestrate コードを生成するグラフィカル・データ統合フローを設計します。
- 結合、ファンネル、チェックサム、マージ、変更、重複の削除、ソートなどの操作を実行します。
- 開始する
- 作成するにはDataStage流れ、クリック新しい資産 > データの変換と統合。 のDataStageタイルはグラフィカルビルダーセクション。
- 詳細情報
- DataStageに関するドキュメント
- DataStageに関するビデオ
データの変換方法をビデオで見る
このビデオは、このドキュメントのコンセプトとタスクを学ぶための視覚的な方法を提供します。
SPSS Modeler
SPSS Modeler を使用して、グラフィカル・ビルダーでフロー・エディターを使用してデータを準備し、モデルを作成およびトレーニングするためのフローを作成します。
- 必須のサービス
- watsonx.ai Studio
- データ形式
- リレーショナル形式: リレーショナル・データ・ソース内のテーブル
- 表形式: Excel ファイル (.xls または .xlsx)、CSV ファイル、または SPSS Statistics ファイル (.sav)
- テキスト形式: サポート対象のリレーショナル・テーブルまたはリレーショナル・ファイル内
- データ・サイズ
- 任意
- データの準備方法
- 自動データ準備機能を使用します。
- データを操作するための SQL ステートメントを書き込みます。
- データをクレンジング、シェーピング、サンプリング、ソート、および導出します。
- データの分析方法
- 40 を超えるグラフを使用してデータを視覚化します。
- テキスト・フィールドの自然言語を識別します。
- モデルの作成方法
- 予測モデルを構築します。
- 40 種類以上のモデリング・アルゴリズムから選択できます。
- 自動モデリング機能を使用します。
- 時系列または地理空間データをモデル化にします。
- テキスト・データを分類します。
- テキスト・データ内の概念間の関係を識別します。
- 開始する
- 作成するにはSPSS Modeler流れ、クリック新しいアセット > 視覚的なフローとしてモデルを構築。
- 詳細情報
- SPSS Modeler に関する資料
- SPSS Modelerに関するビデオ
SPSS Modelerでモデルを構築する方法をビデオでご覧ください
このビデオは、このドキュメントのコンセプトとタスクを学ぶための視覚的な方法を提供します。
Decision Optimization モデル・ビルダー
Decision Optimization を使用すると、Decision Optimization モデラーまたは Jupyter ノートブックで最適化モデルを作成し、実行できます。
- 必須のサービス
- watsonx.ai Studio
- データ形式
- 表形式: CSV ファイル
- データ・サイズ
- 任意
- データの準備方法
- 関連データをシナリオにインポートし、編集します。
- モデルの作成方法
- 規範的な Decision Optimization モデルを作成します。
- Python DOcplex、OPL、または自然言語式でモデルを作成、インポート、編集。
- ノートブックでモデルを作成、インポート、編集。
- モデルの解決方法
- CPLEXエンジンを使用して意思決定最適化モデルを実行し、解く。
- 複数のシナリオのソリューションを調べて比較します。
- 表、グラフ、メモを作成し、1つまたは複数のシナリオのデータと解決策を視覚化する。
- 開始する
- 作成するにはDecision Optimizationモデル、クリック新しい資産 > 最適化問題を解決する、またはノートブックの場合はクリック新しい資産 > データとモデルの操作PythonまたはRノートブック。
- 詳細情報
- Decision Optimization に関する資料
- Decision Optimizationに関するビデオ
Decision Optimization実験の構築方法をビデオでご覧ください
このビデオは、このドキュメントのコンセプトとタスクを学ぶための視覚的な方法を提供します。
AutoAI ツール
AutoAI ツールを使用して、表データを自動的に分析し、予測モデリング問題用にカスタマイズされた候補モデル・パイプラインを生成します。
- 必須のサービス
- watsonx.aiランタイム
- watsonx.ai Studio
- データ・フォーマット
- 表形式: CSV ファイル
- データ・サイズ
- モデル・タイプによって異なります。 詳しくは、 AutoAI の概要 を参照してください。
- データの準備方法
- 欠損値を代入したり、テキストをスカラー値に変換したりするなど、データを自動的に変換します。
- モデルの作成方法
- 二項分類、多クラス分類、または回帰モデルをトレーニングします。
- AutoAI トレーニング・ステージのシーケンスを示すツリー・インフォグラフィックを表示します。
- 交差検証スコアでランク付けされたモデル・パイプラインのリーダーボードを生成します。
- パイプラインをモデルとして保存します。
- 開始する
- 作成するにはAutoAI実験、クリック新しいアセット > 機械学習モデルを自動的に構築。
- 詳細情報
- AutoAI に関する資料
- AutoAIについてのビデオ
ビデオでAutoAIの実験方法を見る
このビデオは、このドキュメントのコンセプトとタスクを学ぶための視覚的な方法を提供します。
Metadata import
メタデータのインポート・ツールを使用して、データ資産のテクニカル・メタデータおよびプロセス・メタデータを自動的にディスカバーし、プロジェクトまたはカタログにインポートします。
- 必要なサービス
- IBM watsonx.data intelligence
- データ・フォーマット
- 任意
- データ・サイズ
- 任意のサイズ
- データの準備方法
- 接続からデータ・ソースにデータ資産をインポートします。
- 開始する
- メタデータをインポートするには、新しいアセット > データアセットのメタデータをインポート。
- 詳細情報
- メタデータのインポートに関する資料
- IBM についてのビデオ watsonx.data intelligence
アセットのメタデータをインポートする方法をビデオでご覧ください
このビデオは、このドキュメントのコンセプトとタスクを学ぶための視覚的な方法を提供します。
メタデータのエンリッチメント
メタデータ・エンリッチ・ツールを使用して、プロジェクト内のデータ資産のプロファイルを自動的に作成し、データ品質を分析します。
- 必要なサービス
- IBM watsonx.data intelligence
- データ・フォーマット
- リレーショナル・データ・ソースと構造化データ・ソース: リレーショナル・データ・ソースと非リレーショナル・データ・ソースの表とファイル
- 表形式: Avro、CSV、または Parquet ファイル
- データ・サイズ
- 任意のサイズ
- データの準備と分析の方法
- プロジェクト内のデータ資産の選択セットのプロファイルを作成して分析します。
- 開始する
- データを充実させるには、新しい資産 > メタデータでデータ資産を充実させる。
- 詳細情報
- メタデータ・エンリッチに関する資料
- IBM についてのビデオ watsonx.data intelligence
ビデオでデータ資産の強化方法を見る
このビデオは、このドキュメントのコンセプトとタスクを学ぶための視覚的な方法を提供します。
データ品質ルール
データ品質ツールを使用して、プロジェクト内のデータ品質を分析するルールを作成します。
- 必要なサービス
- IBM watsonx.data intelligence
- データ・フォーマット
- リレーショナル・データ・ソースと構造化データ・ソース: リレーショナル・データ・ソースと非リレーショナル・データ・ソースの表とファイル
- 表形式: Avro、CSV、または Parquet ファイル
- データ・サイズ
- 任意のサイズ
- データの準備と分析の方法
- プロジェクト内の選択されたデータ資産セットの品質を分析します。
- 開始する
- データ品質ルールを作成するには、新しい資産 > データ品質の測定と監視。
- 詳細情報
- データ品質ルールに関する資料
IBM Match 360 サービスとして
サービスとして Match 360IBM 利用し、顧客のデジタルツインを表すマスターデータエンティティを作成します。 データをモデル化にしてマップしてから、マッチング・アルゴリズムを実行してマスター・データ・エンティティーを作成します。 組織の要件に合わせてマッチング・アルゴリズムをカスタマイズおよび調整します。
- 必須のサービス
- Match 360IBM as a Service IBM watsonx.data intelligence
- データ・サイズ
- 最大 1,000,000 レコード (ベータ・ライト・プランの場合)
- データの準備方法
- 組織全体のソースからのデータをモデル化してマップします。
- カスタマイズ可能なマッチング・アルゴリズムを実行して、マスター・データ・エンティティーを作成します。
- マスター・データ・エンティティーとその関連なレコードを表示および編集します。
- 開始する
- サービスとしての構成 IBMMatch 360資産を作成するには、をクリックします 資産 > データを360度ビューに統合。
- 詳細情報
- サービス Match 360IBM としてのドキュメント
- サービスとしての Match 360IBM 動画に関する動画
ビデオを見て、サービスとしての Match 360IBM 利用方法を確認してください
このビデオは、このドキュメントのコンセプトとタスクを学ぶための視覚的な方法を提供します。
RStudio IDE
RStudio IDE を使用すると、R コードを作成してデータを分析したり、Shiny アプリケーションを作成したりできます。
- 必要なサービス
- watsonx.ai Studio
- データ・フォーマット
- 任意
- データ・サイズ
- 任意のサイズ
- データの準備、データの分析、およびモデルの作成を行う方法
- R でコードを作成します。
- Shiny アプリを作成します。
- オープン・ソースのライブラリーとパッケージを使用します。
- コードにリッチ・テキストとメディアを含めます。
- データを準備します。
- データを視覚化にします。
- データから洞察を発見します。
- オープンソースのライブラリを使用してモデルを構築し、トレーニングする。
- Git リポジトリーで Shiny アプリを共有します。
- 開始する
- RStudio を使用するには 、「Launch IDE」 > RStudio をクリックします。
- 詳細情報
- RStudio に関する資料
- RStudio に関するビデオ
RStudio の概要をビデオでご覧ください
このビデオは、このドキュメントのコンセプトとタスクを学ぶための視覚的な方法を提供します。
マスキング・フロー
マスキング・フロー・ツールを使用して、カタログからマスクされたデータのコピーまたはマスクされたデータのサブセットを準備します。 データは、データ保護ルールと高度なマスキングオプションを使用することにより、非識別化される。
- 必要なサービス
- IBM watsonx.data intelligence
- データ・フォーマット
- リレーショナル形式: リレーショナル・データ・ソース内のテーブル
- データ・サイズ
- 任意のサイズ
- データの準備、データの分析、またはモデルの作成を行う方法
- 管理対象カタログからプロジェクトにデータ資産をインポートします。
- マスキング・フロー・ジョブ定義を作成して、データ保護ルールを使用してマスクするデータを指定します。
- オプションで、コピーされたデータのサイズを削減するためにデータをサブセット化にします。
- マスク・フロー・ジョブを実行して、マスクされたコピーをターゲット・データベース接続にロードします。
- 開始する
- IBM watsonx.data intelligence の前提条件が完了していることを確認する。 データを非公開するには、以下のいずれかのタスクを実行します:
- クリック新しいアセット > データのコピーとマスク。
- 個々のデータ資産のメニュー・オプションをクリックして、その資産を直接マスクします。
- 詳細情報
- マスキング・データに関する資料
- IBM についてのビデオ watsonx.data intelligence
マスキング・フローの作り方をビデオで見る
このビデオは、このドキュメントのコンセプトとタスクを学ぶための視覚的な方法を提供します。
オーケストレーション・パイプライン
パイプライン・キャンバス・エディターを使用して、データを準備、視覚化、および分析するフローを作成したり、モデルを作成してトレーニングしたりします。
- データ・フォーマット
- 任意
- データ・サイズ
- 任意
- データの準備、データの分析、またはモデルの作成を行う方法
- それぞれに独自のログが含まれているさまざまなノードを使用します。
- ノートブックをフローに取り込んで、任意の Python または R コードを実行します。
- 任意の種類のデータを任意の方法で処理します。
- フローの実行をスケジュールします。
- マウントした PVC、プロジェクトからデータをインポートするか、Github からデータを取り込みます。
- Python コードを使用してカスタム・コンポーネントを作成します。
- 必要に応じて、データ品質をモニターするためにパイプラインを条件付けします。
- Web フックを使用して E メールまたはメッセージを送信し、フローの状況を最新の状態に維持します。
- 開始する
- 新しいパイプラインを作成するには 、「新規アセット」>「モデルライフサイクルの自動化」 をクリックします。
- 詳細情報
- オーケストレーション・パイプラインに関するドキュメント
- オーケストレーション・パイプラインに関する動画
ビデオでパイプラインの作り方を見る
このビデオは、このドキュメントのコンセプトとタスクを学ぶための視覚的な方法を提供します。
データ視覚化
データ可視化を使用して、データから洞察を発見します。 視覚化を使用してさまざまな観点からデータを探索することにより、そのデータ内のパターン、接続、および関係を識別し、大量の情報を素早く理解することができます。
- データ・フォーマット
- 表形式: Avro、CSV、JSON、Parquet、TSV、SAV、Microsoft Excel .xls および .xlsx ファイル、SAS、区切り文字で区切られているテキスト・ファイル、および接続されているデータ。 サポートされるデータ・ソースについて詳しくは、 コネクターを参照してください。
- データ・サイズ
- 無制限
- 開始する
- 視覚化を作成するには、プロジェクト内の資産タイプのリストで 「データ資産」 をクリックし、データ資産を選択します。 ビジュアライゼーション・タブをクリックし、チャート・タイプを選択する。
- 詳細情報
- データの可視化