データ品質ディメンション

データ品質ディメンションは、データの測定可能な特性を記述し、データ品質要件の定義に役立ちます。 データ品質ディメンションを使用して、初期評価または継続的なモニタリングに関係なく、データ品質評価の予期される結果を判別します。

通常、データの状態は、 使用に適合障害フリー対応する仕様、または 期待と要件を満たすものとして定義できます。 データ品質を測定するときに、データの実際の状態をこの目的の状態と比較します。 ビジネス・プロセスにとって重要な標準、期待、および要件は、データの特性またはディメンションとして表されます。

Data Management Association (DAMA ) Internationalは、データ品質の6つの核となる次元について記述した論文を発表した: 正確性(Accuracy)完全性(Completeness)一貫性(Consistency )、 適時性(Timeliness )、 一意性(Uniqueness)妥当性(Validity)

これらの中核的な次元に加えて、 IBM watsonx.data intelligence は均質性という次元を提供している。

次の表は、データ品質ディメンジョンを説明し、特定のディメンジョンに関連する問題を特定できるメタデータ・エンリッチメントのデータ品質チェックをリストしたものです。 さらに、個々のデータ品質ルールを実行することで、これらの次元を評価することができる。

データ品質ディメンション
ディメンション 説明 データ品質チェックの種類
正解性 データ値は、実際の値に可能な限り近くなります。 なし。
完全性 必要なすべてのデータ値が存在します。 完全性検査
整合性 列内のデータ値はルールに従います。 大文字小文字スタイルチェック
欠落値表現チェック
参照整合性チェック
疑わしい値チェック
均一性 データ資産内のデータは統一されており、長期にわたって一貫している。 すべてのデータポイントは、類似した特徴、フォーマット、または構造を共有している。 時間経過に伴う安定性
適時性 データは、必要な時点からの現実を表します。 なし。
固有性 個別の値は 1 回だけ表示されます。 固有性検査
妥当性 データは、その定義の形式、タイプ、または範囲に準拠しています。 データ・クラス・チェック
データ型チェック
フォーマットチェック
長さチェック
可能な値のチェック
レンジチェック
正規表現チェック

IBM Knowledge Catalog API を使用して、独自のデータ品質ディメンジョンを作成できます

もっと見る