¿Qué es la gestión de la calidad de los datos?

Una mujer sentada en un mostrador rodeada de grandes monitores de ordenador que muestran gráficos.

Autores

Alice Gomstyn

Staff Writer

IBM Think

Alexandra Jonker

Staff Editor

IBM Think

¿Qué es la gestión de la calidad de los datos?

La gestión de la calidad de los datos, o DQM, es un conjunto de prácticas para mejorar y mantener la calidad de los datos de una organización.

 

A medida que la producción global de datos continúa a un ritmo vertiginoso, una gestión eficaz de la calidad de los datos ayuda a las empresas a evitar datos de baja calidad, lo que puede dar lugar a costosos errores e ineficiencias en los procesos empresariales. Con datos fiables y de confianza al alcance de la mano, las empresas pueden desbloquear conocimientos valiosos, lograr una mejor toma de decisiones e integrar la inteligencia artificial IA en sus operaciones.

La gestión de la calidad de los datos incluye prácticas como la elaboración de perfiles de datos, la limpieza de datos, la validación de datos, la monitorización de la calidad de los datos y la gestión de metadatos. Una gestión exitosa de la calidad de los datos da como resultado conjuntos de datos optimizados para dimensiones clave de calidad, como precisión, integridad, consistencia, puntualidad, singularidad y validez.

Las soluciones de software pueden ayudar a las organizaciones y a los profesionales de los datos a dirigir los problemas de calidad de los datos y a crear pipelines de datos de alta calidad. Estas herramientas ofrecen características como análisis de calidad de datos, detección de anomalías automatizada y alertas de incidentes en tiempo real y más.

Diseño 3D de bolas rodando por un circuito

Las últimas noticias + conocimientos de IA 


Descubra ideas y noticias de expertos sobre IA, nube y mucho más en el boletín semanal Think. 

¿Por qué es importante la gestión de la calidad de los datos?

Para comprender la importancia de la gestión de la calidad de los datos, considere lo que puede suceder en su ausencia: a medida que las empresas priorizan las funciones basadas en datos, la mala calidad de los datos puede provocar errores, retrasos, pérdidas financieras y daños a la reputación, entre otras consecuencias graves. Estos riesgos se multiplican en la era del "big data", ya que las organizaciones se enfrentan a conjuntos de datos masivos y complejos.

Imagine los siguientes escenarios de "datos incorrectos":

  • La tabla de datos de clientes de un minorista está plagada de imprecisiones, lo que da lugar a estrategias de marketing mal dirigidas e ineficaces.

  • Un estudio clínico contiene formatos incoherentes, lo que dificulta la comparación de los elementos de datos y dificulta la investigación sobre la progresión de la enfermedad y la asistencia sanitaria.

  • Una empresa de un sector altamente regulado está plagada de problemas de calidad de los datos y infringe las leyes y reglamentos gubernamentales, como el RGPD o la Ley Sarbanes-Oxley(SOX).

Por el contrario, los datos de alta calidad contribuyen a las iniciativas de inteligencia empresarial, lo que se traduce en eficiencia operativa, optimización de los flujos de trabajo, cumplimiento normativo, satisfacción del cliente y crecimiento de la empresa.

Los beneficios de la alta calidad de los datos se han intensificado aún más con la adopción generalizada de la inteligencia artificial. Los algoritmos requieren datos de alta calidad para un rendimiento eficaz del modelo; una buena calidad de los datos puede permitir resultados de modelos de IA más precisos y útiles.

De hecho, las empresas con grandes almacenes de datos en los que confían los stakeholders internos y externos obtienen casi el doble de la rentabilidad de la inversión en sus capacidades de IA, según un estudio del IBM Institute for Business Value.

AI Academy

¿Es la gestión de datos el secreto de la IA generativa?

Explore por qué los datos de alta calidad son esenciales para el uso satisfactorio de la IA generativa.

¿Cuáles son las seis dimensiones de la calidad de los datos?

Una gestión exitosa de la calidad de los datos garantiza que los datos de una organización cumplen seis dimensiones clave de la calidad de los datos:

  • exactitud
  • Integridad
  • Coherencia
  • Puntualidad
  • Singularidad
  • Validez
Precisión de los datos

Garantizar datos precisos (datos que representan correctamente los eventos y valores del mundo real) implica identificar y corregir los errores o tergiversaciones de un conjunto de datos.

Integridad de los datos

La integridad de los datos se logra cuando un conjunto de datos contiene todos los registros necesarios y no presenta lagunas ni valores faltantes.

Coherencia de datos

Los datos consistentes son coherentes y están estandarizados en toda la organización, lo que garantiza que los registros de datos de diferentes conjuntos de datos sean compatibles entre sí.

Puntualidad de los datos

La puntualidad de los datos es una medida de la actualización de los valores de los datos, lo que permite a las organizaciones evitar tomar decisiones basadas en información obsoleta.

Exclusividad de los datos

La exclusividad de los datos se refiere a la ausencia de datos redundantes o registros duplicados, lo que puede distorsionar el análisis.

Validez de los datos

La validez de los datos refleja si los datos se ajustan a las reglas empresariales, como estar dentro de los rangos permitidos para ciertos valores de datos y cumplir con los estándares de formato de datos especificados.

Aunque estas son algunas de las dimensiones de calidad de los datos más utilizadas por los profesionales del sector, existen otras métricas de calidad de los datos, como la accesibilidad, la relevancia, la representación concisa y la cantidad o volumen adecuados de datos1.

¿Qué prácticas comprenden la gestión de la calidad de los datos?

Las prácticas comunes y complementarias de gestión de la calidad de los datos entre los administradores de datos y otros profesionales de los datos incluyen:

  • Perfiles de datos
  • Limpieza de datos
  • Validación de datos
  • Supervisión de la calidad de los datos
  • Gestión de metadatos

Perfiles de datos

Antes de mejorar los datos, es importante determinar dónde se necesita mejorar. Elaboración de perfiles de datos es el proceso de reseñas de la estructura y contenido de los datos existentes para evaluar su calidad y establecer una línea de base con la que medir la corrección.

El análisis realizado durante la creación de perfiles de datos puede proporcionar información sobre los tipos de datos, revelar anomalías, identificar valores de datos no válidos o incompletos y evaluar las relaciones entre conjuntos de datos.

Limpieza de datos

La limpieza de datos es la corrección de errores e incoherencias en conjuntos de datos sin procesar. Los métodos para lograr datos limpios incluyen la estandarización (hacer que los formatos y las estructuras sean coherentes), ajustar o eliminar los valores atípicos, la deduplicación de datos y abordar los valores que faltan.

Validación de datos

La validación de datos, que a veces se considera parte de los enfoques de limpieza de datos, es la verificación de que los datos están limpios, son precisos y cumplen reglas y requisitos específicos de calidad de los datos (como restricciones de rango o integridad referencial) que los hacen listos para su uso.

Monitorización de la calidad de datos

Garantizar la calidad de los datos es un proceso continuo. Los cambios de esquema, la obsolescencia de los datos y los registros duplicados pueden comprometer la integridad de los datos con el tiempo. La monitorización de datos continua identifica los activos de datos existentes que ya no cumplen con los estándares de calidad de los datos y los indicadores clave de rendimiento (KPI) de una organización.

Gestión de metadatos

Aunque la gestión de metadatos admite múltiples capacidades, como la seguridad y el gobierno, también suele incluirse en el ámbito de la DQM. Las técnicas de gestión de metadatos, como el enriquecimiento de metadatos, pueden garantizar que los metadatos incluyan información sobre las reglas de los datos, las definiciones de los datos y el linaje de datos. Esto puede informar y optimizar los esfuerzos de gestión de datos, incluidas las iniciativas de calidad de los datos.

Gestión de la calidad de los datos frente a otros procesos de datos

La gestión de datos, la gestión de datos maestros, la gestión de la calidad de los datos y el gobierno de datos son procesos distintos pero relacionados para optimizar el valor de los activos de datos de una organización.

Gestión de datos

La gestión de datos abarca la supervisión y el manejo de los datos a lo largo de su ciclo de vida. Las estrategias de gestión de datos ayudan a las organizaciones a abordar el uso de diversas fuentes de datos y a planificar la recuperación ante desastres, entre otras cuestiones. La gestión de la calidad de los datos puede considerarse una disciplina o un subconjunto de la gestión de datos.

Gestión de datos maestros

La gestión de datos maestros es un enfoque integral que establece la coherencia para el manejo de datos críticos en toda la organización.

A través de la gestión de datos maestros, los datos críticos se comparten y utilizan en diversas aplicaciones y sistemas dentro de la organización para reducir la fragmentación de datos, los silos de datos, la duplicación y las imprecisiones. Lo hace a través de una colección de procesos y herramientas tecnológicas, algunas de las cuales también se incorporan a la gestión de la calidad de los datos, como la limpieza de datos.

Gobierno de datos

El gobierno de datos define e implementa políticas, normas y procedimientos para la recopilación, el almacenamiento de datos, la propiedad, el procesamiento y el uso de datos. Al igual que la gestión de la calidad de los datos, el gobierno de datos también puede considerarse una disciplina de gestión de datos. Al mismo tiempo, los procedimientos establecidos a través de marcos de gobierno de datos, como las políticas de gobierno sobre el tratamiento coherente de los datos, pueden respaldar las iniciativas de DQM.

Herramientas de gestión de la calidad de los datos

Las herramientas y soluciones de software de gestión de la calidad de los datos pueden reducir significativamente los esfuerzos manuales de DQM. Y, aunque la proliferación de la IA es uno de los factores que impulsan la necesidad de gestionar la calidad de los datos, la IA también permite soluciones de DQM más potentes. El machine learning, por ejemplo, se puede implementar para la detección de anomalías en los datos.

Otras capacidades que ofrecen las soluciones de gestión de calidad de los datos incluyen:

  • Comprobaciones de calidad de los datos predefinidas y reglas personalizables

  • Catálogos de datos con análisis de calidad integrado

  • Paneles de control completos para la gestión de incidentes de datos

  • Alertas en tiempo real para anomalías y otros problemas de datos

  • Análisis de causa raíz para informar la resolución de incidentes

  • Seguimiento del linaje de metadatos para transparencia en la transformación de datos
Notas a pie de página

Overview of Data Quality: Examining the Dimensions, Antecedents, and Impacts of Data Quality”. Revista de Economía del Conocimiento. 10 de febrero de 2023.