Collibraへの系譜エクスポートの設計

データ・リネージをエクスポートする際には、エクスポートのソースとターゲット、エクスポートに含めるデータ、ターゲットシステム上のデータの同期の有無、エクスポート・ジョブのスケジュール設定の有無について決定する必要があります。

通常、データ・リネージのエクスポート・アセットの作成を開始する際には、ターゲット・システムが定義および構成済みであり、エクスポートで使用できる状態になっています。 ソースの系統メタデータは、選択されたプロジェクトに既にインポートされています。 データリネージエクスポートアセットには、どのリネージデータを含めるか、ターゲットシステムに存在しなくなったアセットをどのように処理するか、またはエクスポートジョブをいつ実行するかに関する情報が含まれます。

エクスポートのターゲット

エクスポート対象は、リネージメタデータを追加したいエンドポイントです。 データ系譜エクスポートアセットを作成する前に、Collibraインスタンスと接続を作成し、設定する必要があります。 次に、このインスタンスへの接続方法を決定する必要があります。

Collibraインスタンス

インスタンスはデータソース定義によって識別される。 各インスタンスは属性と関係タイプのパラメータで構成される。 詳細は、 Collibraインスタンスを参照してください。

接続

エクスポート アセットを作成したいプロジェクト内で、Collibra への接続を作成します。 Collibraインスタンスとして設定したデータソース定義と同じエンドポイント詳細を使用してください。 詳細は Coll ibra接続を参照してください。

接続方式

プラットフォームから直接接続するか、外部Mantaエージェントを使用してリモート接続することで、リネージメタデータをエクスポートできます。 MantaエージェントをCollibraインスタンスに直接インストールし、プラットフォームに登録します。 その後、データ・リネージのエクスポートを作成する際にそれを選択できます。 詳細については、 「系譜メタデータのインポートのためのエージェントの設定」 を参照してください。

ソースのエクスポート

エクスポートする系統を特定するには、ソーステクノロジーのデータソース定義を選択します。 ソースの系譜は任意のプロジェクトから選択できます。系譜メタデータインポートアセットは、エクスポートアセットを作成するプロジェクトと同じプロジェクト内にある必要はありません。 Collibraにデータ系譜をエクスポートできるデータソースの一覧については、 「Collibraへのデータ系譜のエクスポート:サポートされているデータソース」 を参照してください。

詳細オプション

エクスポート目標

エクスポートに含める系譜の要素を決定する。

重要: エクスポートジョブを定期的に実行するように設定する際は、毎回同じデータ範囲を選択していることを確認してください。 データはターゲット・システム上で同期され、以前にエクスポートされたが現在のエクスポートには存在しないすべての 資産 がターゲット・システムから削除されます。 同期モード設定で同期を無効にできます。
データ資産
このオプションを選択すると、Collibraに新しい資産が作成されます。
トランスフォーメーション資産とリネージュ関係
変換と系統関係のみがエクスポートされます。 選択したオプションがこれだけであれば、マッピング仕様を除いて、新規 資産 は作成されません。 Collibra 内の既存の 資産 が、エクスポートされた関係のソースおよびターゲットとして使用されます。 Collibra Catalogによって生成される物理データカタログの系譜を作成したい場合に、このオプションを選択できます。 エクスポートする変換アセットの種類を決定します:
  • 少なくとも1つのソースまたはターゲットを持つ変換
  • ソースとターゲットの両方を持つ変換
  • リネージュがない変換

完全なデータ系譜(物理データ、変換アセット、およびデータ系譜の関係性を含む)をエクスポートしたい場合は、両方のオプションを選択してください。

推定資産
推論された資産とは、データ系譜の抽出中に未知または欠落したコンポーネントへの参照をシステムが検出した際に、システムによって生成される推論されたオブジェクトである。 推論された資産は、不完全な系譜の欠落部分を埋めるために作成される。 ソースから推測された資産は、しばしば未知のサーバーとして参照される。 エクスポート時に変換アセットとリネージ関係を含めることで、推論されたアセットをエクスポートできます。

同期モード

リネージュ の Collibra への初期エクスポートが設定されている場合、ターゲット・システムでデータを定期的に更新して、すべての最新の変更が存在することを確認できます。 場合によっては、以前にターゲットシステムにエクスポートされた資産が、新しいエクスポートには存在しなくなることがあります。 以下の同期モードのいずれかを選択し、ターゲットシステムには存在するが最新のエクスポートファイルには存在しないアセットの処理方法を決定します。

欠落している資産ステータスの変更
ターゲットシステム上に存在するが最新のエクスポートファイルには含まれていない資産は、新しいステータスが Obsolete付与されます。 その後、そのような資産を簡単に見つけ、後で管理するか、さらに確認した後に手動で削除するか決定できます。
削除
エクスポートされたデータが対象システムにアップロードされた後、対象システムに存在するが最新のエクスポートファイルには含まれていないアセットは自動的に削除されます。
同期なし
このモードを選択すると、ターゲットシステム内のアセットは変更または削除されず、インポートのみが行われます。 このモードは他のモードよりも高速ですが、データは同期されません。

リネージュ集計レベル

系統集約レベルは、関係がエクスポートされる資産タイプ間の関係を指定します。

カラムとテーブルのレベル
エクスポートされたリネージには、テーブル間および列間の関係が含まれています。 最も詳細な系譜である。
テーブル・レベル
エクスポートされたリネージには、テーブル間の関係のみが含まれます。 列はまったくエクスポートされません。
列レベル
エクスポートされたリネージには、列間の関係のみが含まれます。 テーブルは列の親アセットとしてエクスポートされますが、テーブル間の関係はエクスポートされません。

リネージュ・エクスポート・フェーズ

データ・リネージのエクスポートプロセスは、以下の2つのフェーズに分かれます:

エクスポート
エクスポートフェーズでは、リネージメタデータは圧縮ファイルの形式で準備されます。 このフェーズは無効化できません。
アップロード
アップロードフェーズ中に、圧縮されたリネージファイルがターゲットシステムに追加される。 デフォルトでは自動的に実行されます。 このフェーズは無効にできます。たとえば、トラブルシューティングの目的で。 そのような場合、エクスポートされたリネージファイルはターゲットシステムに追加されません。 後で追加するには、データ・リネージのエクスポート・ジョブを編集してこのフェーズを含め、ジョブを再実行してリネージをターゲット・システムにアップロードします。

スケジュール

スケジュールを設定しない場合、データ・リネージ・エクスポート・アセットを最初に保存する際にエクスポートを実行します。 エクスポートはいつでも手動で再実行できます。

特定のスケジュールでエクスポートを実行するように選択した場合、ジョブを実行する日付と時刻を定義してください。 単一の実行をスケジュールすることも、繰り返し実行をスケジュールすることもできます。 単一の実行をスケジュールすると、ジョブは指定された日時に正確に1回だけ実行されます。 繰り返し実行をスケジュールすると、ジョブは 「繰り返し 」セクションに指定された時刻に初めて実行されます。

エクスポートジョブのデフォルト名は data_lineage_export_name ジョブです。 この名前は、ご使用の命名スキーマに合わせて変更できます。 作成したエクスポートジョブには、データリネージエクスポートアセット内から、またはプロジェクトのジョブページからアクセスできます。

次の作業

準備ができたら、エクスポート 資産 を作成し、最初の ジョブ を開始します。 詳細は「 Collibra へのエクスポート アセットの作成とジョブの管理 」を参照してください。