メタデータ・エンリッチのデフォルト設定
有用なメタデータ・エンリッチ結果を得るには、プロジェクト内のすべてのメタデータ・エンリッチメントのデフォルト設定を構成します。 デフォルト設定は、エンリッチメント・オプションの一貫性のある使用にも役立ちます。
ベースプレミアム標準特に記載がない限り、この情報はすべてのエディションに適用されます。 IBM Knowledge Catalog。
しきい値設定または選択した用語割り当て方式に対する変更は、新しいメタデータ・エンリッチメントと変更された設定に実行されるエンリッチ・ジョブに適用されます。 カテゴリーのセットに対する変更は、新しいエンリッチメントにのみ適用されます。
- 必要な権限
- メタデータ・エンリッチのデフォルト設定を構成するには、プロジェクトの 管理者 役割が必要です。 すべてのプロジェクト・コラボレーターが設定を閲覧できます。
以下のいずれかの方法でデフォルト設定にアクセスできます。
- 既存のメタデータ・エンリッチ資産内で、 「デフォルト設定」をクリックします。
- プロジェクトの 「管理」 ページで、 「ツール」>「メタデータ・エンリッチ」に移動します。
必要に応じて設定を編集します。 変更は自動保存されます。 設定によっては、いつでもシステム定義のデフォルト値を復元することができます。
以下の機能のデフォルト設定を構成します。
- プロファイリングおよびプライマリー・キー分析
- メタデータの展開
- 用語と分類の割り当て
- 拡張プロファイル設定
- データ品質チェックの起源
- 識別するデータ品質検査
- 履歴データの収集
- データ品質の出力
- キー関係分析
ユーザー・インターフェースの代わりに API を使用して、エンリッチ設定を作成、更新、または取得することもできます。 API へのリンクは、 「詳細情報」 セクションにリストされています。
メタデータ・エンリッチメントでの生成 AI の使用がプロジェクトに対して無効になっている場合、対応するエンリッチメント設定は非アクティブになっており、選択できません。
- AI ベースの名前生成。 ファジー・マッチングのみが使用可能です。
- 説明の生成。
- AI ベースのビジネス用語の割り当て。
以前に実行されたメタデータ・エンリッチメントを含むプロジェクトでは、 AI ベースの結果は引き続き使用できますが、 gen AI の使用が無効にされた後は更新されません。
プロファイリングおよびプライマリー・キー分析
プロファイリング、データクラス、主キーの割り当てのしきい値を設定し、カテゴリを事前選択します。 いつでも、変更したしきい値設定のデフォルトを復元することができます。
NULL 可能性
列またはフラット・ファイルのデータ・フィールドは、値を持たないことが許可されている場合は NULL 可能です。
- NULL のしきい値
- 列またはフラット・ファイル・フィールドが NULL 値を許可するかどうかを決定します。 列またはフラット・ファイルに値のないフィールドがある場合、検出された空のフィールドのパーセンテージが、設定されたしきい値と比較されます。 NULL 可能しきい値と同じかそれ以上の場合、このフィールドでは NULL 値が許可されます。 データ・フィールドに NULL 値が存在しない場合、または頻度のパーセンテージがしきい値より小さい場合は、データ・フィールドに値を指定する必要があります。 デフォルト設定は 5% です。
カーディナリティー
列のカーディナリティーは、固有、定数であり、または制約を受けません。 検出された固有特殊値の割合と、検出された最も頻度の高い定数値のパーセントが、設定されたしきい値と比較されます。 カーディナリティー・タイプは、それぞれのパーセンテージがしきい値のパーセンテージと等しいか、それより大きい場合は、固有または定数です。 それ以外の場合、制約はありません
- 固有性しきい値
- データ・フィールドが固有値を含むかどうかを判定します。 列またはフラット・ファイルが固有であると見なされるのは、個別値のパーセントが設定したしきい値以上である場合です。 デフォルトは 95% です。
- 定数しきい値
- 列またはフラット・ファイルに定数値が含まれているかどうかを判別します。 フィールドが定数であると判別されるのは、フィールドに単一の個別値が含まれていて、その頻度パーセントが設定した定数しきい値以上である場合です。 デフォルトは 99% です。
データ・クラスの割り当て
メタデータ・エンリッチに含まれるデータ・クラスは、プロファイル作成時にのみ列に自動的に割り当てられます。 用語の割り当ては、データ・クラスの割り当てには影響しません。 しきい値は、割り当てまたは推奨されるデータ・クラスの最小信頼性レベルを決定します。 割り当てしきい値は、提案しきい値より高くなければなりません。
自動的に割り当てられたデータ・クラスには、関連する分類を自動的に割り当てることもできる。
データ・クラスの分類割り当てオプションを有効または無効にすることで、この動作を制御できます。 クラス分けを参照。
- 割り当てしきい値
データ・クラスが列に自動的に割り当てられる基準と一致する必要がある値の最小パーセンテージを決定します。 デフォルト設定は 75% です。 この設定は、データ・クラスに直接定義されたしきい値によってオーバーライドできます。
以下の事前定義データ・クラスには、デフォルトのしきい値が設定されています。
- 市区町村 (50%)
- 個人名 (50%)
- 名 (50%)
- ミドルネーム (50%)
- 姓 (50%)
- 組織名 (60%)
データ・クラスへのデータ・マッチングの追加を参照してください。
- 提案しきい値
列に対して推奨される基準とデータ・クラスが一致する必要がある値の最小パーセンテージを決定します。 デフォルト設定は 25% です。
主キー
主キーは、1 つ以上の列で構成することができ、表内の各レコードを一意的に識別します。 各表は、主キーを 1 つだけ持つことができます。
- 提案しきい値
- 主キーとして提案される列または列の組み合わせの最小信頼性を定義します。 デフォルト設定は 80% です。
カテゴリー
ユーザーが新しいメタデータ・エンリッチメントを作成するときに選択できるカテゴリーのセットを、プロジェクトの目的に合ったカテゴリーに制限できます。 この選択では、メタデータ・エンリッチで実際に使用されるカテゴリーは決定されないことに注意してください。 プロジェクトに関連するカテゴリーを事前選択します。 選択されたカテゴリーによって、プロファイル作成および自動用語割り当てに使用できるビジネス用語およびデータ・クラスが決まります。 この選択は、データ・クラスまたは用語を手動で割り当てるときにユーザーのオプションが制限されません。 手動割り当ての場合、ユーザーはアクセス権限を持つ任意のカテゴリーからデータ・クラスまたはビジネス用語を選択できます。
選択されたカテゴリは、生成された用語を保存できるカテゴリの範囲も制限する。
このセットに対する変更はすべて、新しいメタデータ・エンリッチメントに反映されます。また、既存のメタデータ・エンリッチを編集するときにも反映されます。
メタデータの展開
データ資産およびそのアセットに含まれる列の表示名または説明の生成に適用するデフォルト設定を構成します。
デプロイメントモデル構成によって、結果は異なる可能性があります。 CPU上でローカルに実行されるLLMによって生成された名前と説明は、常に75%の信頼スコアを持つ。 したがって、AIが生成した名前と説明文については、割り当てのしきい値を75%以上、提案のしきい値を75%未満に設定することを検討してください。 そうでなければ、生成される名前と説明は空かもしれない。
表示名
Standard Premiumこのオプションは、IBM Knowledge Catalog StandardまたはIBM Knowledge Catalog Premiumがインストールされ、gen AI ベースのエンリッチメント機能が有効になっている場合にのみ使用できます。
データ資産そのアセットに含まれる列のセマンティック名を、ソース名よりも説明的な代替名として作成するためのデフォルト設定を定義します。 これらの代替名は、自動的に割り当てることも、提案することもできます。
意味名を表示名として割り当てる、または提案するための最小信頼レベルを決定するためのしきい値を設定します。 割り当てしきい値は、提案しきい値より高くなければなりません。
- 割り当てしきい値
- データ資産または列に表示名を自動的に割り当てるための信頼度を決定します。 デフォルト設定は 90% です。
- 提案しきい値
- データ資産または列に表示名を提案するために超えなければならない信頼度を決定します。 デフォルト設定は 75% です。
表示名の生成方法を選択する:
- ファジー・マッチング
ファジィ・マッチングは、組み込みの用語集と、エンリッチメントのために選択されたカテゴリー内の既存のビジネス用語の略語に基づいて、表示名を生成します。 ファジーマッチングは、ドメイン固有のビジネス用語を使用する場合や、 基盤モデル使用するためのシステムデプロイメントいない場合に便利です。 システムが要件を満たしていれば、いつでも生成AIの使用に切り替えることができる。
- 生成AI
生成AIでは、 Granite モデルが名前の生成に使われる。 このオプションを選択すると、生成される名前の精度を向上させるために、 基盤モデルモデルに追加のコンテキストを送ることができます。
これはプロジェクト作成時のデフォルト設定です。
- プロファイリングによって生成されたサンプルのデータを使用する
プロファイリングのためにサンプリングされたデータの一部を、表示名を生成するためのコンテキストとして使用するには、このオプションを有効にします。 収集されたデータのサブセットは、出力の精度を向上させるためのエンリッチメントプロンプトの追加コンテキストとして、ローカルまたは接続された watsonx.ai インスタンス内の基盤モデルモデルに送信される。 これらのデータサンプルは、一般的な製品やモデルの改良には使用されません。 オプションを有効にする際、この使用に同意する必要があります。
- カスタム略語セットを使用する
略語ファイルをデータ資産プロジェクトにインポートする。 プロジェクトで、 資産インポート > ローカルファイル > データ資産 をクリックしてローカルファイルシステムを参照し、省略形ファイルをアップロードします。
ファイルは特定の命名規則とフォーマットに従わなければならない。 詳しくは、 カスタム略語ファイルをご覧ください。
- 表示名を割り当てた資産使用します
現在のプロジェクトまたは特定のカタログから、レビュー済みで表示名が割り当てられているデータ資産コンテキストとして使用します。
AI生成による説明
Standard Premiumこのオプションは、IBM Knowledge Catalog StandardまたはIBM Knowledge Catalog Premiumがインストールされ、gen AI ベースのエンリッチメント機能が有効になっている場合にのみ使用できます。
生成 AI は、データ資産全体およびデータ資産に含まれる列の説明を生成できます。 granite.8bモデルは、資産と列の文脈を考慮し、意味のある説明を提供する。 これらの説明は、自動的に割り当てることも、提案することもできます。 しきい値は、割り当てまたは推奨される説明の最小信頼性レベルを決定します。 割り当てしきい値は、提案しきい値より高くなければなりません。
基盤モデル使用して説明文を生成するかどうかを選択できます。 デフォルトでは、説明文の生成は有効になっている。 データソースからインポートされた、または手動で追加された説明文のみで作業したい場合は、いつでもこの機能を無効にすることができます。
- 割り当てしきい値
- 生成された説明をデータ資産または列に自動的に割り当てるために超えなければならない信頼度を決定します。 デフォルト設定は100%。
- 提案しきい値
- データ資産または列に対して、生成された説明が提案されるために超えなければならない信頼度を決定します。 デフォルト設定は 75% です。
用語と分類の割り当て
ビジネス用語の割り当てのしきい値を設定し、用語の割り当て方法を選択し、分類を自動的に割り当てるかどうかを決定する。 いつでも、変更した設定をデフォルトに戻すことができます。
用語の割り当て
(カテゴリー選択によって) メタデータ・エンリッチに含まれるビジネス用語は、列に自動的に割り当てることも、列に対して提案することもできます。 しきい値は、割り当てまたは提案される用語の最小信頼性レベルを決定します。 割り当てしきい値は、提案しきい値より高くなければなりません。 用語の割り当ては、データ・クラスの割り当てには影響しないことに注意してください。 データ・クラスに関連付けられている用語が、ML モデルまたは名前の突き合わせによって列に割り当てられる場合、関連するデータ・クラスも自動的には割り当てられません。
自動的に割り当てられた用語には、関連する分類を自動的に割り当てることもできる。
用語の分類割り当てオプションを有効または無効にすることで、この動作を制御できます。 クラス分けを参照。
- 割り当てしきい値
条件がデータ資産または列に自動的に割り当てられるために超過する必要がある一致値のパーセンテージを決定します。 デフォルト設定は 90% です。
- 提案しきい値
データ資産または列に対して提案される条件を超過する必要がある一致値のパーセンテージを決定します。 デフォルト設定は 75% です。
ヒント:AIベースのタームアサインメントがタームアサインメント方法の1つとして選択されている場合は、このしきい値を65%~70%の範囲に下げることを検討してください。 そうでない場合は、信頼スコアが他の手法のスコアよりも低いことが多いため、この手法で返された用語は用語の割り当てに考慮されない可能性がある。
割り当ておよび提案を生成するためにプロジェクトで使用される用語割り当て方法を決定します。 割り当てと提案は、いずれかのメソッドが返す最高信頼性スコアに基づいて行われます。 以下の方法のうち少なくとも 1 つを選択してください。
機械学習: 用語を割り当てるために、組み込みの監視対象機械学習モデルが使用されます。
プロジェクトごとに、組み込みモデルがプロジェクトからの資産を使用してトレーニングされるか、任意のカタログからの資産を使用してトレーニングされるかを定義できます。
データ・クラス・ベースの割り当て: 用語は、列のデータ・クラス割り当てに基づいて割り当てられます。 データ・クラスと用語の間の適切なリンケージは、ここでの品質結果の前提条件です。
名前の突き合わせ: 用語と資産または列の名前との類似性に基づいて用語が割り当てられます。
Gen AIベースの用語割り当て:ドメイン固有のビジネス用語は、「
slate.30m.semantic-automation.c2cモデルを使用して割り当てられ、提案される。 このモデルでは、資産と列の名前と説明が考慮され、用語がそのメタデータと意味的にマッチングされます。 したがって、完全一致でなくても用語を割り当てることができます。ヒント: この方法の信頼スコアは、他の方法よりも低いのが普通です。 したがって、AIベースの用語割り当て手法によって返された用語を用語割り当ての対象とするには、提案のしきい値を65%~70%の範囲に下げる。Standard Premiumこのオプションは、IBM Knowledge Catalog StandardまたはIBM Knowledge Catalog Premiumがインストールされ、gen AI ベースのエンリッチメント機能が有効になっている場合にのみ使用できます。
ルール・ベースの用語の割り当て: ビジネス用語は、プロジェクト内の CSV ファイルのルールに基づいて割り当てられます。
CSV 形式の有効なルール・ファイルと名前
ikc-term-assignment-rules.csvがプロジェクト内に存在する必要があります。 このファイルがプロジェクトに存在しない場合、このオプションは無視される。 ファイルは存在するが、フォーマットが無効な場合、メタデータのエンリッチメントは失敗する。 詳しくは、『ルールに基づく用語の割り当てのための CSV ファイル』を参照してください。カスタム・サービス: カスタム・サービスを使用して条件を割り当てます。
カスタムサービスを使用するオプションは、 Watson Machine Learning が Cloud Pak for Data 環境にデプロイされている場合にのみ使用できます。 カスタム・サービスの場合は、カスタム・サービスのデプロイメントを選択し、オプションで JSON 入出力データの変換を構成します。 カスタムモデルを構築するための手順とサンプルノートブックは、 IBM Knowledge Catalog samples GitHub リポジトリで提供されています: https://github.com/IBM/knowledge-catalog-samples/tree/main/metadata-enrichment/term-assignment/custom-term-assignment
サービス内でトレーニング・スコープを定義します。
デフォルトでは、選択した用語の割り当て方法によって返される信頼性スコアは、前の用語の拒否に基づいて調整されます。これは、全体の信頼性スコアに影響します。
この調整は、選択した用語の割り当て方法とは無関係に機能し、カスタム・サービスによって返される可能性がある信頼性スコアにも適用されます。 用語の拒否が信頼度スコアに影響しないようにする場合は、すべての方法で調整オプションを無効にすることができます。 調整に使用されるモデルは、プロジェクトでのみトレーニングされます。 トレーニング・スコープをカタログに設定した場合、そのようなモデルは使用できません。
用語の割り当てをテストおよび評価するには、個々の方法を使用します。例えば、カスタム・データ・クラスの大規模なセットがある場合などです。 この方法で、プロジェクトの適切なしきい値設定を確認することもできます。
また、用語の割り当ての精度と再現率に影響を与えるために、提供されているチューニング・オプションを操作することもできます。 『用語の割り当てのチューニング・オプション』』を参照してください。
分類の割り当て
関連するデータ・クラスまたは用語がデータ資産または列に自動的に割り当てられたときに、分類も割り当てられるかどうかを判断する。 この設定は、データ・クラスと用語に対して個別に行うことができます。
新規プロジェクトの場合、これらのオプションはデフォルトで有効になっています。 Cloud Pak for Data の 5.0.2 より前のバージョンで作成されたプロジェクトでは、分類の自動割り当てがデフォルトで無効になっています。
拡張プロファイル設定
これらの設定は、ユーザーが 「外部出力」 オプションを有効にし、個別の実行ごとに上書きできる場合に、拡張データ・プロファイル作成に適用されます。
各列について、すべての個別値をキャプチャーするか、最も頻度の高い個別値の最大数をキャプチャーするかを決定します。 デフォルト設定では、最も頻度の高い 1,000 個の個別値がキャプチャーされます。 データはアドバンスト・プロファイリングの実行ごとに上書きされる。
キャプチャした値を保存するデフォルトの出力場所を設定する:
- 接続を選択します。
- 選択した接続に応じて、スキーマとテーブルを選択するか、カタログ、スキーマ、テーブルを選択する。 既存のカタログ、スキーマ、テーブルから選択できます。 既存のスキーマに新しいテーブルを作成することもできる。
出力ターゲットとしてサポートされるデータ・ソースについては、 サポートされるデータ・ソースの 「出力表」 列を参照してください。 スキーマ名およびテーブル名は、以下の規則に従う必要があります。
- 名前の先頭文字は英字でなければなりません。
- 名前の残りの部分は、英字、数字、または下線で構成できます。
- 名前にスペースを含めることはできません。
データ品質チェックの起源
生成されたデータ品質チェックの起源を選択する:
- プロファイリング結果
- ビジネス用語の制約
- キー関係
識別するデータ品質検査
メタデータ・エンリッチメントがそのエンリッチメント・オプションで構成されているときに識別するデータ品質チェックのタイプを選択します。 デフォルトでは、利用可能なすべてのチェックが選択されている。
これらのデータ品質チェックの詳細については、 利用可能なデータ品質チェックの種類を参照してください。
履歴データの収集
データの安定性と一貫性を評価できるように、エンリッチされた資産プロファイリング結果を一定期間保存するかどうかを選択します。 データの保存期間を設定する際には、保存される可能性のあるデータ量を考慮すること。
このオプションをオフにすると、過去の安定性チェックは有益な結果を返しません。
行数を比較するためには、総行数(近似値または実際の行数)が必要である。 この情報は、すべてのデータソースで得られるとは限らない。 また、正確な総レコード数の検索は、コストのかかる操作であるため、システムレベルで明示的に有効にする必要がある。
データ品質の出力
データ品質例外を保管するためのデフォルトの出力場所を設定し、データ品質チェックごとの例外レコードの最大数を決定します。 データベース表へのデータ品質例外の書き込みは、メタデータ・エンリッチ資産で有効にする必要があります。
- 例外出力レコードの最大数
データ品質チェックごとに、列ごとに出力表に書き込まれる問題の最大数を決定します。 デフォルトの設定値は 100 です。
- 出力ロケーション
データ品質の例外を格納するデフォルトの出力テーブルを設定する:
- 接続を選択します。
- 選択した接続に応じて、スキーマとテーブルを選択するか、例外を格納するカタログ、スキーマ、テーブルを選択する。
- オプションで、問題が見つかった行全体を格納するテーブルを選択します(例外レコード)。 例外テーブルが作成されるスキーマから既存のテーブルを選択するか、そのスキーマに新しいテーブルを作成することができます。
既存のスキーマおよび表から選択することも、既存のスキーマに新しい表を作成することもできます。 出力ターゲットとしてサポートされるデータ・ソースについては、 サポートされるデータ・ソースの 「出力表」 列を参照してください。 スキーマ名およびテーブル名は、以下の規則に従う必要があります。
- 名前の先頭文字は英字でなければなりません。
- 名前の残りの部分は、英字、数字、または下線で構成できます。
- 名前にスペースを含めることはできません。
出力用の新規テーブルを作成するには、使用可能なテーブルから選択する代わりに名前を入力します。 表名に特殊文字を含めることはできません。
品質の問題のみを保管するために、以下の列定義を持つ新しい表が作成されます。
asset_id VARCHAR(40), issue_type VARCHAR(64), column1 VARCHAR(128), value1 VARCHAR(64), column2 VARCHAR(128), value2 VARCHAR(64)品質問題および例外レコードを保管するために、以下の列定義を使用して品質問題の新しい表が作成されます。
asset_id VARCHAR(40), issue_type VARCHAR(64), column VARCHAR(128), row_id VARCHAR(64)例外レコードを保管するための新しい表は、以下の列定義を使用して作成されます。
asset_id VARCHAR(40), row_id VARCHAR(64), row_data CLOBいずれかのタイプの出力に対して既存のテーブルを選択する場合、選択されたテーブルは、意図された出力に対して適切な構造を持っている必要があります。
接続がロックされている場合は、個人の資格情報を入力するように求められます。 これは、ユーザーに対して永続的に接続のロックを解除する 1 回限りのステップです。
キー関係
キー リレーションシップは主キーと外部キーで構成され、リレーショナル データベース内の 2 つのデータ資産間のリレーションシップを定義します。
- 提案しきい値
推奨される主キーと外部キーの間の関係に必要な最小限の信頼性を定義します。 デフォルト設定は 80% です。
このしきい値は、基本的なキー関係分析を実行するときに適用されます。詳細なキー関係分析やオーバーラップ分析には適用されません。 個別の実行ごとに、これらのタイプの分析に対して推奨しきい値を設定できます。
関係を自動的に割り当てるには、 「自動割り当て」 オプションを選択して、割り当てしきい値を設定します。
- 割り当てしきい値
主キーと外部キーの間の関係が自動的に割り当てられるために必要な最小の信頼性を定義します。 デフォルト設定は 90% です。
キー関係が自動的に割り当てられると、親アセット内の対応する主キーも自動的に割り当てられます。 ただし、データ アセットに複数の主キーを割り当てることはできません。 したがって、資産に対して異なる主キーを持つ複数のキー関係が検出された場合、割り当てることができる関係は 1 つだけです。 信頼スコアが最も高い関係候補が割り当てられます。 この信頼スコアは、主キー分析の信頼スコアに基づいて計算されます。 すべての関係候補の信頼度スコアが同じ場合は、いずれも割り当てられません。
これらの設定は、基本的なキー関係分析の実行時に適用されます。 詳細なキー関係分析やオーバーラップ分析には適用されません。 これらのタイプの分析では、関係の自動割り当てを有効にし、個々の実行ごとに割り当てしきい値を設定することができます。