データ品質ディメンション

データ品質ディメンションは、データの測定可能な特性を記述し、データ品質要件の定義に役立ちます。 データ品質ディメンションを使用して、初期評価または継続的なモニタリングに関係なく、データ品質評価の予期される結果を判別します。

通常、データの状態は、 使用に適合障害フリー対応する仕様、または 期待と要件を満たすものとして定義できます。 データ品質を測定するときに、データの実際の状態をこの目的の状態と比較します。 ビジネス・プロセスにとって重要な標準、期待、および要件は、データの特性またはディメンションとして表されます。

Data Management Association (DAMA ) Internationalは、データ品質の6つの核となる次元について記述した論文を発表した: 正確性(Accuracy)完全性(Completeness)一貫性(Consistency )、 適時性(Timeliness )、 一意性(Uniqueness)妥当性(Validity)

これらの核心的次元に加え、 IBM watsonx.data intelligence は適合性包括性質性という次元を提供している。

以下の表は、データ品質の次元を説明し、特定の次元に関連する問題を特定できる自動化されたデータ品質チェックを一覧表示します。 これらのチェックは、メタデータ強化におけるデータ品質チェック、またはデータ契約の一部を構成するデータ品質チェックである可能性があります。 データ契約は、オープンデータ契約標準(ODCS)に準拠しなければならない。 さらに、これらの次元は、個別のデータ品質ルールを設定して実行することで評価できます。

データ品質ディメンション
ディメンション 説明 データ品質チェックの種類
正解性 データ値は、実際の値に可能な限り近くなります。 データ契約テストの一環としてのデータ品質チェック
完全性 必要なすべてのデータ値が存在します。 完全
性チェックデータ契約テストの一環としてのデータ品質チェック
順応性 データは定義された標準、形式、および許容値に準拠している。 データ契約テストの一環としてのデータ品質チェック
整合性 列内のデータ値はルールに従います。 大文字表記スタイルチェック
欠損値の表現
チェック参照整合
性チェック疑わしい値のチェック
データ契約テストにおけるデータ品質チェック
範囲 データは期待されるデータセットを表し、通常はレコード数またはデータの完全性によって測定される。 データ契約テストの一環としてのデータ品質チェック
均一性 データ資産内のデータは統一されており、長期にわたって一貫している。 すべてのデータポイントは、類似した特徴、フォーマット、または構造を共有している。 時間経過に伴う安定性
適時性 データは、必要な時点からの現実を表します。 データ契約テストの一環としてのデータ品質チェック
固有性 個別の値は 1 回だけ表示されます。 データ契約テストの一環としてのデータ品質チェック一意性
チェック
妥当性 データは、その定義の形式、タイプ、または範囲に準拠しています。 データ・クラス・チェック
データ型チェック
フォーマットチェック
長さチェック
可能な値のチェック
レンジチェック
正規表現チェック

IBM Knowledge Catalog API を使用して、独自のデータ品質ディメンジョンを作成できます

もっと見る