IBM InfoSphere DataStage and QualityStage デザイナー

IBM® InfoSphere™ DataStage® and QualityStage デザイナーを使用して、ジョブの作成、管理、およびデザインを行います。デザイナー・クライアントは、表の定義とメタデータ・サービスのアクセスにも使用できます。

表定義
メタデータ・サービスのアクセス
ジョブの作成
ジョブのデザイン
ステージ・プロパティー
Complex Flat File ステージ
Transformer ステージ
Slowly Changing Dimension ステージ
Dynamic Relational ステージ
SQL ビルダー
ジョブ・シーケンス

表定義

多くのソースからの表定義 (例えば、表定義の 1 つのソースは IBM InfoSphere Information Analyzer からのメタデータです) をインポート、作成、編集できます。表を編集または表示するときには、図 1で示すように、「表定義」ウィンドウが開きます。

図 1. 「表定義」ウィンドウ

InfoSphere DataStage and QualityStage デザイナーの「表定義」ウィンドウ

このウィンドウには次のページがあります。

全般: データ・ソースと説明情報が含まれます。
列: キー値、SQL タイプ、長さなどの列に関する情報が含まれます。
フォーマット: データが順次ファイルから読み取られるか、順次ファイルに書き込まれるときのデータ・フォーマットを記述する情報が含まれます。
関係: 表に関する外部キー情報を示します。
パラレル: パラレル・ジョブで使用できる表定義の拡張プロパティーを示します。
レイアウト: 表内の列定義のスキーマ・フォーマットを表示します。
ロケーター: 表定義に関連付けられたデータ・リソース・ロケーターを表示および編集します。データ・リソース・ロケーターは、実際のオブジェクトを説明します。
NLS (インストールされている場合): 表定義の現在の文字セット・マップを表示します。
分析情報: InfoSphere Information Analyzer が生成したメタデータを表示します。

メタデータ・サービスのアクセス

InfoSphere DataStage and QualityStage デザイナーは、メタデータ・リポジトリーにアクセスして、統合プロジェクトおよび組織のエンタープライズ・データに関する現在のメタデータにリアルタイムにアクセスできるようにします。デザイナー・クライアントを使用して、メタデータ Bridges または InfoSphere Information Analyzer によって生成されたデータにアクセスします。メタデータへのアクセス権のあるデザイナーに対して、以下のようなサービスが提供されます。

単純および拡張検索サービス: オブジェクトのリポジトリーを検索できるようになります。
使用場所または影響分析サービス: 「使用者」関係と「従属先」関係の両方を表示します。

InfoSphere DataStage and QualityStage デザイナーのオプションの 1 つで、InfoSphere DataStage のコンテキスト内でのジョブ間または表定義間の差分を示します。図 2 は、デザイナー・クライアントの関連エディターへのリンク付きのテキスト・レポートを示します。共有コンテナーやルーチンなどの、ジョブのサブセットの差分も表示できます。このレポートは、オプションで XML ファイルとして保存することができます。

図 2. ジョブ差分レポート

InfoSphere DataStage and QualityStage デザイナーの
ジョブ差分レポート

ジョブの作成

デザイナー・クライアントを使用する場合は、図 3に示すように、作成するジョブのタイプと、ジョブの作成方法を選択します。

図 3. ジョブ・タイプの選択

異なるジョブ・タイプには、パラレル、メインフレーム、ジョブ・シーケンスがあります。ジョブ・テンプレートによって、カスタマイズできる定義済みジョブ・プロパティーを指定することにより、ジョブを迅速にビルドすることができます。またジョブ・テンプレートは、ジョブとジョブ・デザイナー間で共通する基本情報も提供します。

「デザイナー・キャンバス」ウィンドウとツール・パレットを使用して、図 4で示すようにジョブのデザイン、編集、および保存ができます。

図 4. 単純な IBM InfoSphere DataStage ジョブ

ファイル・ソース、Transformer ステージ、Oracle データベースへのロードから構成される
単純な InfoSphere DataStage ジョブの例

図 4では、次の 3 つのステージが含まれる最も基本的な IBM InfoSphere DataStage ジョブが示されます。

データ・ソース (入力) ステージ
変換 (処理) ステージ
ターゲット (出力) ステージ

IBM InfoSphere DataStage ジョブは、企業のデータ統合のニーズに合わせて高度化することができます。図 5 は、さらに複雑なジョブの例です。

図 5. より複雑な IBM InfoSphere DataStage ジョブ

ジョブのデザイン

デザイナー・クライアントを使用して統合プロセスを作成し、続いて個々のステージの詳細を追加します。この方式を使用すると、ジョブにまたがるコンポーネントをビルドし、再利用することができます。デザイナー・クライアントにより、最も複雑で手間のかかる統合プロセスでも定義する必要のあるコーディングを最小化します。

個々のデータ・ソースと処理手順が、ジョブ・デザインのステージです。ステージは、データ・フローにリンクしています。ステージをツール・パレットからキャンバスにドラッグします。このパレットには、図 6に示されているように、ステージを編成するためにカスタマイズできるステージとグループのアイコンが含まれています。

図 6. ツール・パレット

ステージの準備が整うと、データの向きにしたがって相互にリンクします。例えば、図 4のように、 2 件のリンクが追加されます。

データ・ソース (Sequential File ステージ) と Transformer ステージ間の 1 つのリンク
Transformer ステージと Oracle ターゲット・ステージ間の 1 つのリンク

ステージ・プロパティー・エディターから、個々のリンクの表定義をロードするか、リポジトリーから定義を選択して、これをリンクにドラッグします。

ステージ・プロパティー

ジョブ内の個々のステージには、ステージがデータを実行または処理する方法を指定するプロパティーがあります。ステージ・プロパティーには、Sequential File ステージのファイル名、 Sort ステージのソートする列と昇順 - 降順、Database ステージのデータベースの表名などが含まれます。個々のステージ・タイプは、グラフィカル・エディターを使用します。

Complex Flat File ステージ

Complex Flat File (CFF) ステージによって、単一ファイルに多くのレコード・フォーマットがあるデータ・ファイルの読み取り/書き込みが可能になります。図 7 では、3 個のレコードが結合されています。このステージは、固定長および可変長レコードの両方をサポートし、論理トランザクション内の異なるレコード・タイプのデータを処理対象の 1 つのデータ・レコードに結合します。例えば、顧客、オーダー、ユニット・データを結合できます。

図 7. Complex Flat File ステージ・ウィンドウ

CFF ステージと Slowly Changing Dimension ステージは、改善されたユーザビリティーと、より速い実装に対応するファースト・パスの概念を提供します。ファースト・パスによって、ステージの処理に必要なステージ・プロパティーの画面と表を参照することができます。タブの左下にある「i」マークにマウスを置くと、ヘルプが表示されます。

Transformer ステージ

Transformer ステージには、 1 つの 1 次入力リンク、複数の参照入力リンク、複数の出力リンクがあります。メイン・データの入力ソースからのリンクは、1 次入力リンクとして指定されます。参照リンクは、ルックアップ操作に使用します。例えば、変更される実データを提供するのではなく、データの変更方法に影響を及ぼす可能性のある情報を提供します。

入力列は左側に、出力列は右側に表示されます。上部ペインには、列と出力仕様詳細が表示されます。下部ペインには、列メタデータが表示されます。

一部のデータを変更せずに Transformer ステージを通過させる必要がある場合でも、たいていは、入力列からのデータを最初に変換する必要があります。そのような処理は、式を入力するか、出力仕様と呼ばれるデータに適用する変換処理を選択することで指定できます。 IBM InfoSphere DataStage には数多くの組み込み機能があり、出力仕様の内部で使用できます。また、カスタム変換処理関数を定義することもできます。これは、定義後、再利用のためにリポジトリーに保管されます。

出力リンク全体に作用する制約を指定することもできます。制約は、出力リンクに渡される前にデータが満たす必要のある基準を指定する式です。

Slowly Changing Dimension ステージ

分析的システム向けの標準的デザインは、セントラル・ファクト表から構成されるディメンショナル・データベースに基づいています。セントラル・ファクト表は、主キーが 1 つだけのより小規模のディメンション表の単一レイヤーで囲まれています。このデザインは、スター・スキーマとしても認識されています。

通常、スター・スキーマ・データは、顧客情報、売上データ、その他の重要なビジネス情報を取り込むトランザクションおよびオペレーショナル・システムにあります。トランザクション・システムと分析的システムの主な相違点の 1 つに、過去を正確に記録する必要性があります。分析的システムは、マネージャーが戦略的決定ができるように、頻繁にトレンドを見極める必要があります。例えば、売上のトラッキング・データマートにおける製品定義は、数多くの製品について、長期間にわたって変更されることの多いディメンションです。ただし、このディメンションは、変更が遅いのが通常です。1 つの主要な変換処理および移動の課題は、長期間にわたりこれらのディメンションで発生する変更をシステムがどのように追跡するかということです。多くの場合、ディメンションはごくまれにしか変更されません。

図 8では、標準的な主キーと、製品の売上保存ユニット (PRODSKU) を示しています。

図 8. ディメンション表の主キーのルックアップ

Slowly Changing Dimension (SCD) ステージは、スター・スキーマ・データベース構造のコンテキスト内でディメンション表のソース・データを処理します。このステージにより、既存のディメンション (タイプ 1 変更として認識されています) の上書き、行の保存中の更新 (タイプ 2 として認識されています)、または両方のタイプの混合が可能になります。ロードするデータを準備するため、SCD ステージは、スター・スキーマの変更ディメンションごとに以下のプロセスを実行します。

ソースからのビジネス・キーは、個々のディメンション表で代理キーをルックアップするために使用されます。通常は、ディメンション行が見つかります。
ディメンション行が見つからない場合、代理キーに従って行を作成する必要があります。
ディメンション行が見つかっても更新しなければならない場合 (タイプ 1) には、この更新は必ず実行されなければなりません。
履歴の保存 (タイプ 2) の場合、新規行が追加され、オリジナルの行にマークが付きます。代理キーがソース・データに追加され、ファクト・データ以外のデータが削除されます。

タイプ 2 の更新では、新規の代理主キーを指定した新規行がディメンション表に挿入され、変更を取り込みます。ディメンションを記述するすべての行に、最新のインスタンスとヒストリカル・ディメンションを固有に識別する属性が含まれます。図 9 は、新製品ディメンションを再定義して、ディメンション表に入れるデータを組み込む方法を示しています。データには、代理キー、有効期限日付、通貨標識も含まれます。

図 9. ディメンション表の再定義

最後に、新規レコードがディメンション表に (すべての代理キーとともに) 書き込まれ、時間をかけて製品ディメンションの変更を反映します。製品の売上保存ユニットに変更がなくても、データベース構造によってユーザーが前のバージョンの製品と現在のバージョンの製品の売上を識別することができます。

Dynamic Relational ステージ

IBM InfoSphere DataStage は、ほとんどすべてのデータベース管理システムに対する固有の接続を提供しますが、 Dynamic Relational ステージにより、デザイン時ではなく実行時に、タイプ (例えば、Oracle、IBM DB2®、または SQL Server) の結合を指定できます。 Dynamic Relational ステージは、データベースからデータを読み取るか、データベースにデータを書き込みます。図 10 は、データベース・タイプ、名前、ユーザー ID、接続に使用するパスワードなどのデータベース・ステージに関する一般情報を示しています。パスワードは暗号化されます。

図 10. Dynamic Relational ステージのデザイン

Dynamic Relational ステージのデザイン中に表示されるデータベース情報

SQL ビルダー

データベース・ソースを定義するための SQL 式を使用する必要のある開発者に対し、SQL ビルダー・ユーティリティーは、 SQL 照会ステートメントを単純なものから複雑なものまでビルドするためのグラフィカル・インターフェースを提供します。 SQL ビルダーは DB2、Oracle、SQL Server、Teradata、および ODBC データベースをサポートします。 ODBC は広範囲のデータベースで機能する SQL をビルドするために使用できますが、データベース固有のパーサーを使用すると、データベース固有の機能を利用することができます。図 11 は、適格な SQL 照会を作成する際に、SQL ビルダーが開発者にどのようなガイドを提供するかを示しています。

図 11. SQL ビルダー・ユーティリティー

ジョブ・シーケンス

IBM InfoSphere DataStage のグラフィカル・ジョブ・シーケンスを使用して、実行するジョブのシーケンスを指定できます。このシーケンスには、制御情報も含まれます。例えば、このシーケンス内のジョブが成功したか失敗したかによって、シーケンスは異なるアクションを示します。ジョブ・シーケンスを定義してから、ディレクター・クライアント、コマンド・ライン、API を使用して、シーケンスのスケジュールと実行ができます。シーケンスはリポジトリーとディレクター・クライアントでジョブとして表示されます。

ジョブ・シーケンスのデザインは、ジョブのデザインと似ています。 InfoSphere DataStage and QualityStage デザイナーでジョブ・シーケンスを作成し、(ステージではなく) アクティビティーをツール・パレットから追加します。次に、アクティビティーを互いに (リンクではなく) トリガーを指定して結合して、制御フローを定義します。それぞれのアクティビティーにはプロパティーがあり、トリガー式でテストして、シーケンスの先にある他のアクティビティーに渡すことができます。アクティビティーにはパラメーターもあり、ジョブ・パラメーターとルーチン引数を指定します。

ジョブ・シーケンスにもプロパティーがあり、また、続くアクティビティーに渡すことができるパラメーターを指定できます。図 12のサンプル・ジョブ・シーケンスでは、受信ファイルでトリガーされる標準的なシーケンスを示しています。ジョブには例外処理、ループ処理、フロー制御も含まれます。

図 12. サンプル・ジョブ・シーケンス

ジョブ・シーケンスでは、以下のタイプのアクティビティーがサポートされています。

ジョブ: IBM InfoSphere DataStage ジョブを指定します。
ルーチン: ルーチンを指定します。
コマンド実行: 実行するオペレーティング・システム・コマンドを指定します。
メール通知: シーケンスの当該時点で、Simple Mail Transfer Protocol (SMTP) を使用してメール通知を送ることを指定します。この方式は例外処理とエラー処理でよく使われます。
ファイル待機: 指定されたファイルの生成または消去を待機します。このアクティビティーは、指定された期間、ファイルの生成または消去を待機した後、中止メッセージをシーケンスに送信することができます。
例外時アクティビティー実行: 1 つのジョブ・シーケンスでは、1 つの例外時アクティビティー実行のみが許可されます。このアクティビティーは、シーケンスのジョブが実行に失敗した場合に機能します。(他の例外はトリガーにより処理されます。)
ジョブ・シーケンスのチェックポイント、再開オプション: ジョブ・シーケンスのチェックポイント・プロパティーによって、失敗時点でシーケンスを再開することができます。
ループ・ステージ: StartLoop および EndLoop アクティビティーにより、ジョブ・シーケンスをより柔軟にし、より多くの制御権が与えられます。
ユーザー式と変数: 変数の定義と設定ができるようになります。この変数を使用して、ジョブ・シーケンス・フロー内の式を評価できます。
例外時アクティビティー異常終了: 問題が発生した時点でジョブ・シーケンスを停止します。

ジョブ管理

デザイナー・クライアントは、プロジェクト・データを管理し、メタデータ・リポジトリー内に保管された項目の表示と編集を可能にします。この機能によって、別の IBM InfoSphere DataStage システム間の項目のインポートとエクスポートおよび他のツールによるメタデータの交換ができます。メタデータ・リポジトリーの項目でレポートを要求できます。

デザイナー・クライアントには、以下の機能があります。

DSX および XML ファイルのインポートとエクスポート
EE 構成ファイル・エディター
表定義のインポート
メッセージ・ハンドラー・マネージャー
MetaBroker® インポートとエクスポート
Web サービス定義のインポート
IMS™ 定義のインポート
JCL テンプレート・エディター

図 13では、表定義のインポートに関するデザイナー・クライアントのウィンドウが示されます。

図 13. 表定義のインポート

InfoSphere DataStage and QualityStage デザイナーにおける
表定義のインポート

ジョブのインポートおよびエクスポート

InfoSphere DataStage and QualityStage デザイナーによって、 IBM InfoSphere DataStage 開発、テスト、および実稼働環境間でジョブを移動するためのコンポーネントのインポートとエクスポートができるようになります。ジョブなどのリポジトリー内のどんなコンポーネントでもインポートとエクスポートができます。

エクスポート機能は、リポジトリーのオブジェクトを記述する XML 文書の生成でも重要です。この文書を表示するためには Web ブラウザーを使用できます。デザイナー・クライアントには、XML 文書から InfoSphere DataStage コンポーネントをインポートするためのインポート機能も組み込まれています。