データ品質ディメンション
データ品質ディメンションは、データの測定可能な特性を記述し、データ品質要件の定義に役立ちます。 データ品質ディメンションを使用して、初期評価または継続的なモニタリングに関係なく、データ品質評価の予期される結果を判別します。
通常、データの状態は、 使用に適合、 障害フリー、 対応する仕様、または 期待と要件を満たすものとして定義できます。 データ品質を測定するときに、データの実際の状態をこの目的の状態と比較します。 ビジネス・プロセスにとって重要な標準、期待、および要件は、データの特性またはディメンションとして表されます。
Data Management Association (DAMA ) Internationalは、データ品質の6つの核となる次元について記述した論文を発表した: 正確性(Accuracy)、 完全性(Completeness)、 一貫性(Consistency )、 適時性(Timeliness )、 一意性(Uniqueness)、 妥当性(Validity)
これらの核心的次元に加え、 IBM watsonx.data intelligence は適合性、 包括性、 均質性という次元を提供している。
以下の表は、データ品質の次元を説明し、特定の次元に関連する問題を特定できる自動化されたデータ品質チェックを一覧表示します。 これらのチェックは、メタデータ強化におけるデータ品質チェック、またはデータ契約の一部を構成するデータ品質チェックである可能性があります。 データ契約は、オープンデータ契約標準(ODCS)に準拠しなければならない。 さらに、これらの次元は、個別のデータ品質ルールを設定して実行することで評価できます。
| ディメンション | 説明 | データ品質チェックの種類 |
|---|---|---|
| 正解性 | データ値は、実際の値に可能な限り近くなります。 | データ契約テストの一環としてのデータ品質チェック |
| 完全性 | 必要なすべてのデータ値が存在します。 | 完全 性チェックデータ契約テストの一環としてのデータ品質チェック |
| 順応性 | データは定義された標準、形式、および許容値に準拠している。 | データ契約テストの一環としてのデータ品質チェック |
| 整合性 | 列内のデータ値はルールに従います。 | 大文字表記スタイルチェック 欠損値の表現 チェック参照整合 性チェック疑わしい値のチェック データ契約テストにおけるデータ品質チェック |
| 範囲 | データは期待されるデータセットを表し、通常はレコード数またはデータの完全性によって測定される。 | データ契約テストの一環としてのデータ品質チェック |
| 均一性 | データ資産内のデータは統一されており、長期にわたって一貫している。 すべてのデータポイントは、類似した特徴、フォーマット、または構造を共有している。 | 時間経過に伴う安定性 |
| 適時性 | データは、必要な時点からの現実を表します。 | データ契約テストの一環としてのデータ品質チェック |
| 固有性 | 個別の値は 1 回だけ表示されます。 | データ契約テストの一環としてのデータ品質チェック一意性 チェック |
| 妥当性 | データは、その定義の形式、タイプ、または範囲に準拠しています。 | データ・クラス・チェック データ型チェック フォーマットチェック 長さチェック 可能な値のチェック レンジチェック 正規表現チェック |
IBM Knowledge Catalog API を使用して、独自のデータ品質ディメンジョンを作成できます 。