Dimensiones de calidad de datos
Las dimensiones de calidad de datos describen una característica medible de los datos y ayudan a definir los requisitos de calidad de los datos. Utilice las dimensiones de calidad de datos para determinar los resultados esperados de la evaluación de calidad de datos, ya sea la evaluación inicial o la supervisión continua.
El estado en el que desea que estén los datos normalmente se puede definir como apto para su uso, libre de defectos, corresponde a la especificacióno que cumple las expectativas y requisitos. Cuando mide la calidad de los datos, compara el estado real de los datos con este estado deseado. Los estándares, las expectativas y los requisitos que son importantes para los procesos de negocio se expresan como características o dimensiones de los datos.
La Data Management Association (DAMA ) International publicó un documento que describe 6 dimensiones fundamentales de la calidad de los datos: Exactitud, Integridad, Coherencia, Puntualidad, Unicidad, Validez
Además de estas dimensiones básicas, IBM watsonx.data intelligence proporciona la dimensión Homogeneidad.
La siguiente tabla describe las dimensiones de calidad de los datos y enumera las comprobaciones de calidad de los datos en el enriquecimiento de metadatos que pueden identificar problemas asociados a una dimensión específica. Además, esta dimensión puede evaluarse ejecutando reglas individuales de calidad de datos.
| Dimensión | Descripción | Tipos de controles de calidad de los datos |
|---|---|---|
| Precisión | Los valores de datos están lo más cerca posible de los valores reales. | Ninguna. |
| Integridad | Todos los valores de datos necesarios están presentes. | Comprobación de integridad |
| Coherencia | Los valores de datos dentro de una columna cumplen con una regla. | Comprobación del estilo de las mayúsculas Comprobación de la representación de valores ausentes Comprobación de la integridad referencial Comprobación de valores sospechosos |
| Homogeneidad | Los datos de un activo de datos son uniformes y coherentes a lo largo del tiempo. Todos los puntos de datos comparten características, formatos o estructuras similares. | Estabilidad histórica |
| Puntualidad | Los datos representan la realidad desde un punto en el tiempo requerido. | Ninguna. |
| Exclusividad | Los valores distintos sólo aparecen una vez. | Comprobación de exclusividad |
| Validez | Los datos se ajustan al formato, tipo o rango de su definición. | Comprobación de clase de datos Comprobación de tipo de datos Comprobación de formato Comprobación de longitud Comprobación de valores posibles Comprobación de rango Comprobación de Regex |
Puede crear sus propias dimensiones de calidad de datos utilizando la API de IBM Knowledge Catalog Crear una dimensión de calidad de datos.