Snowflake リネージュ 構成

Snowflake から リネージュ メタデータをインポートするには、接続、 データ・ソース定義 、およびメタデータ・インポート・ ジョブ を作成します。

この情報は、 IBM Manta Data Lineage サービスに適用されます。

Snowflake の リネージュ メタデータをインポートするには、以下の手順を実行します。

  1. データ・ソース定義 の作成.
  2. プロジェクト内のデータ・ソースへの接続を作成します。
  3. メタデータ・インポートを作成します。

データ・ソース定義 の作成

データ・ソース定義 の作成. データ・ソース・タイプとして Snowflake を選択します。

Snowflake への接続の作成

プロジェクト内のデータ・ソースへの接続を作成します。 接続の詳細については、 Snowflake 接続 を参照してください。

メタデータ・インポートの作成

メタデータ・インポートを作成します。 Snowflake データ・ソースに固有のオプションについて詳しくは、以下を参照してください。

組み込みリストと除外リスト

資産をスキーマ・レベルまで含める/除外することができます。 データベースとスキーマをデータベース/スキーマ形式で指定します。 各部品は正規表現として評価されます。 データ・ソースに後から追加された資産も、リストで指定された条件に一致すれば、含まれます/除外されます。 値の例:

  • myDB/: myDB データベース内のすべてのスキーマ。
  • myDB2/.*: myDB2 データベース内のすべてのスキーマ。
  • myDB3/mySchema1: myDB3 データベースからの mySchema1 スキーマ。
  • myDB4/mySchema[1-5]: 名前が mySchema で始まり、 1 から 5 までの数字で終わる、 my myDB4 データベース内の任意のスキーマ。

外部入力

外部 Snowflake SQL スクリプトを使用する場合は、外部入力として .zip ファイルに追加できます。 .zipファイルの構造をデータベースやスキーマを表すサブフォルダーとして編成できます。 スクリプトがスキャンされると、選択したカタログまたはプロジェクト内の各データベースおよびスキーマの下に追加されます。 .zip ファイルの構造は、以下のようになります。

    <database_name>
        <schema_name>
           <script_name.sql>
    <database_name>
        <script_name.sql>
    <script_name.sql>
    replace.csv

replace.csv ファイルには、.zip ファイルに追加されるスクリプトのプレースホルダー置換が含まれています。 形式について詳しくは、 プレースホルダーの置換 を参照してください。

拡張インポート・オプション

テーブル・ステージの抽出
ステージング・ファイルの抽出元の表ステージをリストする正規表現を追加できます。 完全修飾名を使用し、各セグメントを二重引用符で囲みます。 テーブル・ステージからステージ・ファイルを抽出しない場合は、フィールドを空のままにします。 値の例:
\\\"mydb\\\"\\.\\\"schema1\\\"\\.\\\".*\\\"|\\\"mydb\\\"\\.\\\"myschema\\\"\\.\\\"abc.*\\\
パフォーマンス・プロファイル
選択したデータ・ソースに対して、パフォーマンス・プロファイルを選択できます。 現在のニーズに応じて、 リネージュ メタデータのインポートの方が高速か、またはより完全な場合があります。 以下のプロファイルの中から選択できます。
  • 高速: このプロファイルでは、低い時間とメモリー消費が優先されます。 入力が大きい場合、 リネージュ が完了しない可能性があります。
  • 平衡型: パフォーマンスと リネージュ の完全性の両方が重要です。 これは、 リネージュ の完全性と、 リネージュ のインポートに費やされる時間とメモリーの間の妥協です。
  • 完了: リネージュ の完全性は、このプロファイルでの優先順位です。 入力が大きい場合、 リネージュ インポートには、相当量のリソースと時間がかかる可能性があります。
  • カスタム・プロファイル: 以下のプロパティーに値を指定することにより、独自のパフォーマンス・プロファイルを作成できます。
    • データ・フロー分析タイムアウト制限 (Dataflow Analysis Timeout Limit)\\(:) 単一の入力のデータ・フロー分析が停止するまでの最大推定時間 (秒単位) を指定します。 時間は、各ノードが追加されたとき、または場合によってはエッジが作成されたときにチェックされます。 そのため、場合によってはタイムアウトが、指定された制限を若干超過することがあります。 値を 0 に設定した場合、分析は停止されません。 値の例: 60.
    • データ・フロー分析エッジ制限 (Dataflow Analysis Edge Limit)\\(:) データ・フロー分析中に 1 つの入力に許可されるエッジの最大数を指定します。 この制限を超えると、すべてのフィルター・エッジが削除され、それ以上フィルター・エッジは追加されません。 それ以降も制限値を超えた場合は、解析は停止し、入力は失敗します。 制限を無効にするには、値を0に設定します。 値の例: 2500.
変換ロジックの抽出
SQL スクリプト内の SQL コードから変換ロジック記述を作成できるようにすることができます。

詳細はこちら