¿Qué es la gestión de la calidad de los datos?

Una mujer está sentada en un mostrador rodeada de grandes monitores de computadora que muestran gráficos.

Autores

Alice Gomstyn

Staff Writer

IBM Think

Alexandra Jonker

Staff Editor

IBM Think

¿Qué es la gestión de la calidad de los datos?

La gestión de la calidad de los datos, o DQM, es un conjunto de prácticas para mejorar y mantener la calidad de los datos de una organización.

 

A medida que la producción global de datos continúa a un ritmo vertiginoso, la gestión eficaz de la calidad de los datos ayuda a las compañías a evitar los datos de baja calidad, que pueden dar lugar a costosos errores e ineficiencias en los procesos empresariales. Con datos fiables y de confianza al alcance de la mano, las empresas pueden desbloquear valiosos insights, tomar mejores decisiones de toma de decisiones e integrar la inteligencia artificial (IA) en sus operaciones.

La gestión de la calidad de los datos incluye prácticas como la elaboración de perfiles de datos, la limpieza de datos, la validación de datos, el monitoreo de la calidad de los datos y la gestión de metadatos. La gestión exitosa de la calidad de los datos da como resultado conjuntos de datos optimizados para dimensiones clave de calidad, como precisión, integridad, coherencia, puntualidad, singularidad y validez.

Las soluciones de software pueden ayudar a las organizaciones y a los profesionales de los datos a dirigirse a los problemas de calidad de los datos y a crear pipelines de datos de alta calidad. Estas herramientas ofrecen características como análisis de calidad de datos, detección de anomalías, alertas de incidentes en tiempo real y más.

Diseño 3D de pelotas rodando en una pista

Las últimas novedades e insights sobre IA

Descubra insights y noticias de expertos sobre IA, la nube y mucho más en el boletín semanal Think. 

¿Por qué es importante la gestión de la calidad de los datos?

Para comprender la importancia de la gestión de la calidad de los datos, considere lo que puede suceder en su ausencia: a medida que las compañías priorizan las funciones basadas en datos, la mala calidad de los datos puede provocar errores, retrasos, pérdidas financieras y daños a la reputación, entre otras consecuencias graves. Tales riesgos se multiplican en la era de "big data", ya que las organizaciones lidian con conjuntos de datos masivos y complejos.

Imagine los siguientes escenarios de "datos incorrectos":

  • La tabla de datos de clientes de un minorista está plagada de inexactitudes, lo que da lugar a estrategias de marketing mal dirigidas e ineficaces.

  • Un estudio clínico contiene formatos inconsistentes, lo que dificulta la comparación de los elementos de datos y obstaculiza la investigación sobre la progresión de la enfermedad y la atención sanitaria.

  • Una empresa en una industria altamente regulada está plagada de problemas de calidad de datos, incumpliendo leyes y regulaciones gubernamentales como GDPR o la Ley Sarbanes-Oxley (SOX).

En contraste, los datos de alta calidad contribuyen a las iniciativas de business intelligence, lo que se traduce en eficiencia operativa, optimización de los flujos de trabajo, cumplimiento normativo, satisfacción del cliente y crecimiento de la empresa.

Los beneficios de la alta calidad de los datos se han intensificado aún más con la adopción generalizada de la inteligencia artificial. Los algoritmos requieren datos de alta calidad para un rendimiento eficaz del modelo; una buena calidad de los datos puede permitir resultados del modelo de IA más precisos y útiles.

De hecho, las empresas con grandes almacenes de datos en los que confían los stakeholders internos y externos obtuvieron casi el doble de retorno de la inversión en sus capacidades de IA, según una investigación del IBM Institute for Business Value.

Academia de IA

¿Es la gestión de datos el secreto de la IA generativa?

Explore por qué los datos de alta calidad son esenciales para el uso exitoso de la IA generativa.

¿Cuáles son las seis dimensiones de la calidad de los datos?

Una gestión exitosa de la calidad de los datos garantiza que los datos de una organización cumplan con seis dimensiones clave de la calidad de los datos:

  • Exactitud
  • Integridad
  • Coherencia
  • Puntualidad
  • Singularidad
  • Validez
Precisión de los datos

Garantizar datos precisos (datos que representen correctamente eventos y valores del mundo real) implica identificar y corregir errores o tergiversaciones en un conjunto de datos.

Integridad de los datos

La integridad de los datos se logra cuando un conjunto de datos contiene todos los registros necesarios y no tiene lagunas ni missing values.

Consistencia de los datos

Los datos coherentes son coherentes y estandarizados en toda una organización, lo que garantiza que los registros de datos en diferentes conjuntos de datos sean compatibles entre sí.

Puntualidad de los datos

La puntualidad de los datos es una medida de cuán actualizados están los valores de los datos, lo que permite a las organizaciones evitar tomar decisiones basadas en información obsoleta.

Exclusividad de los datos

La unicidad de los datos se refiere a la ausencia de datos redundantes o registros duplicados, lo que puede distorsionar el análisis.

Validez de los datos

La validez de los datos refleja si los datos se ajustan a las business rules, como estar dentro de los rangos permitidos para ciertos valores de datos y cumplir con los estándares de formato de datos especificados.

Si bien estas se encuentran entre las dimensiones de calidad de datos más comunes utilizadas por los profesionales de datos, otras métricas de calidad de datos incluyen accesibilidad, relevancia, representación concisa y cantidad adecuada de datos o volumen.1

¿Qué prácticas comprenden la administración de calidad de datos?

Las prácticas de gestión de calidad de datos complementarias y comunes entre los administradores de datos y otros profesionales de datos incluyen:

  • Elaboración de perfiles de datos
  • Limpieza de datos
  • Validación de datos
  • Supervisión de la calidad de los datos
  • Gestión de metadatos

Elaboración de perfiles de datos

Antes de mejorar los datos, es importante determinar dónde se necesita mejorar. El perfilado de datos es el proceso de revisión de la estructura y el contenido de los datos existentes para evaluar su calidad y establecer una base de referencia con la que medir la corrección.

El análisis realizado durante el perfilado de datos puede proporcionar información sobre los tipos de datos, revelar anomalías, identificar valores de datos no válidos o incompletos y evaluar las relaciones entre conjuntos de datos.

Limpieza de datos

La limpieza de datos, también conocida como limpieza de datos, es la corrección de errores e inconsistencias en conjuntos de datos sin procesar. Los métodos para lograr datos limpios incluyen la estandarización (hacer que los formatos y estructuras sean consistentes), ajustar o eliminar valores atípicos, deduplicación de datos y abordar missing values.

Validación de datos

A veces se considera parte de los enfoques de limpieza de datos, la validación de datos es la verificación de que los datos están limpios, son precisos y cumplen con reglas y requisitos específicos de calidad de datos (como restricciones de rango o integridad referencial) que los hacen listos para su uso.

Monitoreo de la calidad de los datos

Garantizar la calidad de los datos es un proceso continuo. Los cambios de esquema, la obsolescencia de los datos y los registros duplicados pueden comprometer la integridad de los datos con el tiempo. El monitoreo continuo de datos identifica los activos de datos existentes que ya no cumplen con los estándares de calidad de datos y los indicadores clave de rendimiento (KPI) de una organización.

Gestión de metadatos

Si bien la gestión de metadatos admite múltiples capacidades, como la seguridad y la gobernanza, a menudo también se incluye bajo el paraguas de DQM. Las técnicas de gestión de metadatos, como el enriquecimiento de metadatos, pueden garantizar que los metadatos incluyan información sobre reglas de datos, definiciones de datos y linaje de datos. Esto puede informar y optimizar los esfuerzos de gestión de datos, incluidas las iniciativas de calidad de datos.

Gestión de la calidad de los datos frente a otros procesos de datos

La gestión de la calidad de los datos, la gestión de datos, la gestión de datos maestros y la gobernanza de datos son procesos distintos pero relacionados para optimizar el valor de los activos de datos de una organización.

Gestión de datos

La gestión de datos abarca la supervisión y el manejo de los datos a lo largo de su ciclo de vida. Las estrategias de gestión de datos ayudan a las organizaciones a dar dirección al uso de diversas fuentes de datos y planificar la recuperación ante desastres, entre otras cuestiones. La gestión de la calidad de los datos puede considerarse una disciplina o subconjunto de la gestión de datos.

Master Data Management

La gestión de datos maestros es un enfoque integral que establece la coherencia para el manejo de datos críticos (datos maestros) en toda una organización.

A través de la gestión de datos maestros, los datos críticos son compartidos y utilizados por varias aplicaciones y sistemas dentro de la organización para reducir la fragmentación de datos, los datos aislados, la duplicación y las imprecisiones. Lo hace a través de una colección de procesos y herramientas tecnológicas, algunas de las cuales también se incorporan a la gestión de la calidad de los datos, como la limpieza de datos.

Gobernanza de datos

La gobernanza de datos define e implementa políticas, estándares y procedimientos para la recopilación, el almacenamiento de datos, la propiedad, el procesamiento y el uso de datos. Al igual que la gestión de la calidad de los datos, la gobernanza de datos también puede considerarse una disciplina de gestión de datos. Al mismo tiempo, los procedimientos establecidos a través de las infraestructuras de gobernanza de datos, como las políticas de gobernanza sobre el manejo coherente de los datos, pueden respaldar las iniciativas de DQM.

Herramientas de gestión de la calidad de los datos

Las herramientas de gestión de calidad de datos y las soluciones de software pueden reducir significativamente los esfuerzos manuales de DQM. Y aunque la proliferación de la IA es uno de los factores que impulsan la necesidad de gestión de la calidad de los datos, la IA también permite soluciones DQM más potentes. El machine learning, por ejemplo, se puede desplegar para la detección de anomalías de datos.

Otras capacidades que ofrecen las soluciones de gestión de calidad de datos incluyen:

  • Comprobaciones de calidad de datos predefinidas y reglas personalizables

  • Catálogos de datos con análisis de calidad de datos

  • Paneles completos para la administración de incidentes de datos

  • Alertas en tiempo real sobre anomalías y otros problemas de datos

  • Análisis de causa principal para informar la resolución de incidentes

  • Seguimiento del linaje de metadatos para la transparencia en la transformación de datos
Notas de pie de página

Overview of Data Quality: Examining the Dimensions, Antecedents, and Impacts of Data Quality.” Journal of the Knowledge Economy. 10 de febrero de 2023.