¿Qué son las dimensiones de la calidad de los datos?

Definición de las dimensiones de la calidad de los datos

Las dimensiones de la calidad de los datos proporcionan un enfoque estructurado para medir la calidad de los datos y evaluar la confiabilidad y la usabilidad de los datos.

Las seis dimensiones principales (precisión, integridad, congruencia, puntualidad, validez y singularidad) ayudan a las organizaciones a mantener la integridad de los datos, evaluar la exactitud de los elementos de datos y prevenir problemas de calidad de los datos.

El concepto de dimensiones de calidad de datos fue formalizado en 1996 por los profesores Richard Y. Wang y Diane M. Strong en su artículo “Beyond Accuracy: What Data Quality Means to Data Consumers”, 1 que originalmente identificó 15 dimensiones. Desde entonces, el concepto ha evolucionado significativamente sin un estándar universal. Sin embargo, de seis a 12 dimensiones centrales siguen siendo las más adoptadas en la práctica.

Como parte fundamental de las estrategias de gestión de datos, las dimensiones de la calidad de los datos ofrecen a las empresas un marco claro para lograr datos de alta calidad. Al garantizar que los datos cumplan con los estándares de precisión, integridad, coherencia y otras dimensiones, las organizaciones pueden reducir las ineficiencias operativas, mejorar la satisfacción del cliente y mantener el cumplimiento normativo.

Los datos de alta calidad también respaldan iniciativas avanzadas como la modelización predictiva, la innovación en inteligencia artificial (IA) y los servicios personalizados, lo que, en última instancia, impulsa un mejor rendimiento y una ventaja competitiva.

Las seis dimensiones principales de la calidad de los datos

Aunque el número de dimensiones reconocidas de la calidad de los datos varía, seis dimensiones básicas siguen siendo ampliamente adoptadas en todas las industrias. Cada dimensión aborda un aspecto específico de la calidad de los datos y proporciona criterios prácticos para evaluar la confiabilidad y la usabilidad. Estas dimensiones también sirven como base para definir métricas de calidad de datos, que las organizaciones utilizan para medir y monitorear el rendimiento a lo largo del tiempo. Las dimensiones principales incluyen:

  • Exactitud
  • Integridad
  • Coherencia
  • Puntualidad
  • Validez
  • Singularidad

Exactitud 

La precisión mide en qué medida los datos representan entidades o sucesos del mundo real y si pueden validarse con fuentes confiables. Contar con datos precisos garantiza que las decisiones empresariales se basen en información correcta, lo que reduce el riesgo de errores e ineficiencias. Por ejemplo, llevar un registro preciso de los niveles de inventario permite a las empresas tomar decisiones fundamentadas sobre la reposición de existencias.

Más allá de las ventajas operativas, la precisión de los datos es crítica para iniciativas estratégicas como los análisis predictivos y la segmentación de clientes. Las imprecisiones en los datos pueden dar lugar a previsiones erróneas, campañas de marketing desalineadas y riesgos de incumplimiento. Las empresas pueden invertir en herramientas de validación de datos, auditorías periódicas y capacitación de los empleados para minimizar los errores humanos y mantener la confianza en sus activos de datos.

Integridad

La integridad se centra en comprobar si todos los valores de datos obligatorios están presentes y se han rellenado. La falta de datos puede dar lugar a analytics poco confiables y decisiones erróneas. Por ejemplo, un registro de un paciente que no tiene campos críticos como la fecha de nacimiento o el historial médico puede comprometer la atención y el cumplimiento normativo.

Los valores de datos incompletos a menudo indican debilidades en los procesos de recopilación de datos o la integración del sistema. Para abordar este problema, las organizaciones pueden implementar alertas automáticas para los campos que faltan, aprovechar fuentes de datos de terceros para enriquecer los datos, supervisar los procesos de ingreso de datos y establecer políticas de gobernanza de datos que definan las responsabilidades en cuanto a la integridad de los datos.

Coherencia

Mantener la coherencia de los datos entre sistemas y fuentes es importante para obtener datos confiables. Los datos incoherentes, como el número de teléfono de un cliente que difiere entre los sistemas de gestión de relaciones con los clientes (CRM) y de gestión de pedidos, pueden crear confusión, duplicar el trabajo y otros problemas.

Los datos coherentes también desempeñan un papel vital en el cumplimiento normativo y la precisión de los informes. Las discrepancias entre sistemas pueden provocar fallas de auditoría o interpretaciones erróneas de los resultados financieros. Los marcos centralizados de gobernanza de datos y las herramientas de integración de datos ayudan a los departamentos a trabajar a partir de los mismos datos, lo que reduce el riesgo de errores.

Puntualidad

La puntualidad mide si los datos están disponibles cuando se necesitan y refleja la situación más actual. Los datos obsoletos o retrasados podrían significar oportunidades perdidas e ineficiencias operativas.

La puntualidad es cada vez más importante en industrias de rápido movimiento como las finanzas, la atención médica y el comercio electrónico, donde las decisiones deben tomarse al instante. Por ejemplo, las actualizaciones en tiempo real de los precios de las acciones en el mercado financiero son esenciales para tomar decisiones oportunas de compra o venta.

Las organizaciones pueden garantizar la puntualidad programando actualizaciones periódicas de datos, habilitando fuentes en tiempo real para operaciones críticas y monitoreando la latencia en los pipelines de datos. Además, las organizaciones pueden aprovechar tecnologías como arquitecturas impulsadas por eventos y analytics de streaming para mantener la actualización de los datos. Establecer acuerdos de nivel de servicio (SLA) para la entrega de datos también ayuda a mantener las expectativas y respalda la toma de decisiones ágil.

Validez

En el contexto de la calidad de los datos, la validez se refiere a si los datos se ajustan a reglas, formatos y estándares predefinidos. Si los datos infringen estas reglas, se consideran datos no válidos, lo que puede provocar fallas en los procesos, informes inexactos, entre otras cosas.

Más allá del cumplimiento del formato, la validez garantiza que los datos se alineen con las reglas lógicas y contextuales. Por ejemplo, una fecha de nacimiento no debe ser futura y los códigos de producto deben coincidir con las especificaciones del catálogo. Las organizaciones aplican la validez mediante la aplicación de reglas durante la entrada de datos, el uso de herramientas automatizadas de detección de anomalías y la alineación de los estándares con las regulaciones de la industria.

Singularidad
 

La singularidad determina si cada registro es distinto y no está duplicado. Mantener la singularidad no solo mejora la precisión de los informes, sino que también aumenta la eficiencia operativa y la confianza del cliente al confirmar que las interacciones se basan en información no redundante. Los registros duplicados pueden causar problemas, como métricas infladas, analytics distorsionados, recursos desperdiciados y retrasos en el servicio.

Los datos duplicados a menudo surgen de migraciones del sistema, errores de entrada manual o falta de integración entre plataformas. Para mitigar este problema, las organizaciones pueden desplegar algoritmos de comparación de datos, aplicar políticas de identidad estrictas (normas que definen cómo se generan los identificadores de usuario únicos durante la creación de cuentas)² y utilizar paneles de calidad de datos para supervisar las tendencias de duplicación.

Además de estas seis dimensiones, también se tienen en cuenta otras como la integridad, la trazabilidad, la disponibilidad, la confiabilidad, la precisión y la pertinencia, según las necesidades de la empresa.

Academia de IA

¿Es la gestión de datos el secreto de la IA generativa?

Explore por qué los datos de alta calidad son esenciales para el uso exitoso de la IA generativa.

¿Por qué son importantes las dimensiones de la calidad de los datos?

Como elementos fundamentales de la calidad de los datos, las dimensiones de la calidad de los datos ayudan a las organizaciones a cuantificar, verificar, monitorear y mejorar la confiabilidad de sus activos de información.

Los datos de baja calidad, como los conjuntos de datos con valores faltantes, duplicados o información obsoleta, pueden generar modelos con sesgo, insights incorrectos y resultados poco confiables, lo que genera importantes pérdidas financieras. De hecho, más del 25 % de los empleados globales de datos y analytics dice que la mala calidad de los datos dificulta la alfabetización en datos, lo que cuesta a sus organizaciones más de 5 millones de dólares al año. El 7 % informa pérdidas de 25 millones de dólares o más, informa Forrester.

En la era de la IA y el machine learning, las dimensiones de la calidad de los datos se han vuelto indispensables. Los flujos de trabajo de IA agéntica se están acelerando hacia la adopción generalizada y su éxito dependerá de la integridad y precisión de los datos subyacentes.

Un informe reciente del IBM Institute for Business Value, “From AI Projects to Profits”, estima que los flujos de trabajo de IA agéntica aumentarán ocho veces para 2026. Las organizaciones que no priorizan la calidad de los datos corren el riesgo de socavar la base misma de sus estrategias de IA, así como los analytics, el cumplimiento normativo y la toma de decisiones, convirtiendo los posibles avances en costosos contratiempos.

Cómo implementar las dimensiones de calidad de los datos

Antes de implementar dimensiones de calidad de los datos, es útil establecer un marco estructurado de calidad de datos. Este marco puede combinar políticas, procesos y tecnología para mantener las dimensiones a lo largo del ciclo de vida de los datos. Luego, las organizaciones suelen implementar dimensiones de calidad de datos a través de tres pasos interconectados:

  • Evaluación y definición
  • Medición y monitoreo
  • Corrección y mejora continua

Evaluación y definición

Las organizaciones a menudo comienzan por evaluar el estado actual de sus datos para comprender su calidad. Las herramientas de perfilado de datos se utilizan comúnmente para identificar problemas como valores faltantes, registros duplicados, formatos inválidos y tipos de datos incorrectos. Esta evaluación proporciona una línea de base para la mejora.

La coordinación entre los stakeholders también es fundamental en esta etapa. Las distintas unidades de negocio dan prioridad a diferentes aspectos: la rapidez puede ser lo más importante para los análisis en tiempo real, mientras que la precisión y la validez son críticas para el cumplimiento.

A continuación, la definición de requisitos y puntos de referencia establece expectativas claras de lo que constituye una calidad de datos aceptable, a menudo expresada como umbrales o puntuaciones mínimas para cada dimensión. Las organizaciones también pueden definir reglas para la calidad de datos: condiciones o restricciones específicas que los datos deben cumplir para satisfacer estos puntos de referencia. Estas reglas sirven de base para las comprobaciones de validación y la aplicación automática de las normas en etapas posteriores del proceso.

Medición y monitoreo

La calidad de los datos suele evaluarse mediante medidas cuantitativas que indican hasta qué punto cumplen los estándares definidos los datos. Las métricas comunes incluyen integridad (porcentaje de campos obligatorios completados), precisión (alineación con fuentes confiables) y coherencia (uniformidad en todos los sistemas). Estas métricas se integran en marcos de gobernanza y flujos de trabajo operativos para proporcionar visibilidad continua.

El monitoreo continuo es esencial porque la calidad de los datos es dinámica; los cambios en los sistemas de origen, los procesos o las reglas de negocio pueden introducir nuevos riesgos. El monitoreo puede implicar la aplicación de reglas de validación y la realización de controles de calidad a lo largo de todo el ciclo de vida de los datos, desde la ingestión hasta la elaboración de informes. Muchas herramientas de calidad de datos ofrecen paneles y alertas que se utilizan para supervisar el cumplimiento y detectar anomalías en tiempo real.

Corrección y mejora continua

La mejora continua de la calidad de los datos es un principio clave, respaldado por auditorías periódicas, estándares actualizados y ciclos de feedback que se adaptan a las necesidades comerciales en evolución y a los cambios de tecnología. Los insights de la medición y el monitoreo informan acciones correctivas, como la limpieza, el enriquecimiento y la deduplicación de datos. Además de corregir errores, las organizaciones pueden utilizar estos insights para refinar los procesos de gobernanza y mejorar los métodos de recopilación de datos para evitar problemas recurrentes.

Beneficios de las dimensiones de calidad de los datos

Definir y comprender las dimensiones de la calidad de los datos ofrece a las organizaciones numerosas ventajas, entre ellas:

  • Toma de decisiones fundamentada
  • Cumplimiento regulatorio
  • Optimización del flujo de trabajo
  • Satisfacción del cliente
  • Reducción de riesgos
Toma de decisiones fundamentada

Los datos precisos y de alta calidad garantizan que el análisis y la business intelligence proporcionen insights que se alineen con las circunstancias reales. Cuando los procesos de recopilación de datos se estandarizan y validan mediante la evaluación de la calidad de los datos, los responsables de la toma de decisiones pueden confiar en los insights y actuar con confianza en consecuencia.

Esta práctica reduce las conjeturas y respalda los modelos predictivos que impulsan la ventaja competitiva. Por ejemplo, las instituciones financieras confían en datos de transacciones oportunos y precisos para prevenir fraudes y mantener alertas en tiempo real, mientras que los fabricantes utilizan datos validados de proveedores e inventario para evitar retrasos en la producción.

Cumplimiento regulatorio

Las dimensiones de calidad de los datos ayudan a las organizaciones a cumplir con los estándares internos de gobernanza y los requisitos normativos externos, como auditorías financieras o mandatos de atención médica. La incorporación de controles de cumplimiento en los flujos de trabajo minimiza los riesgos legales y mantiene la transparencia en la forma en que se recopilan, almacenan y utilizan los datos. En la atención médica, por ejemplo, las reglas de validación garantizan que los registros de los pacientes sigan los formatos correctos para las fechas de nacimiento y los códigos médicos, lo que reduce el riesgo de recetas incorrectas o denegaciones de reclamaciones.

Optimización del flujo de trabajo

La implementación de dimensiones de calidad de los datos agiliza los flujos de trabajo al reducir las correcciones manuales, el manejo duplicado y la repetición del trabajo causado por datos inexactos o incompletos. Cuando los datos son precisos, coherentes y oportunos, los equipos pueden automatizar los procesos con confianza, acelerar la toma de decisiones y minimizar los cuellos de botella operativos.

Satisfacción del cliente

Los datos precisos, completos y coherentes de los clientes, como las direcciones correctas de los clientes, permiten experiencias oportunas y relevantes que aumentan la satisfacción de los clientes, mejorando la lealtad y la reputación de la marca. En la venta minorista, los datos precisos de precios en los catálogos de productos y los listados en línea evitan la pérdida de ingresos y la insatisfacción, mientras que en los servicios públicos, los registros ciudadano sincronizados garantizan que los beneficios se entreguen de manera eficiente.

Reducción de riesgos

La detección temprana de anomalías mediante controles de calidad de los datos reduce la probabilidad de que se produzcan interrupciones importantes en las operaciones. Las dimensiones como la integridad y la trazabilidad ayudan a las organizaciones a supervisar los flujos de trabajo e identificar problemas antes de que se agraven, lo que reduce los riesgos financieros y de reputación. Por ejemplo, los bancos utilizan la deduplicación y la validación para evitar transacciones duplicadas, mientras que los organismos de gobierno aplican controles de integridad para evitar retrasos en la prestación de servicios críticos, como la atención médica o la ayuda para la vivienda.

Techsplainers | Pódcast

Escuche: "¿Qué son las dimensiones de la calidad de los datos?"

Siga a Techsplainers en: Spotifyy Apple Podcasts

Autores

Judith Aquino

Staff Writer

IBM Think

Alexandra Jonker

Staff Editor

IBM Think

Soluciones relacionadas
IBM StreamSets

Cree y gestione canalizaciones de datos de streaming inteligentes a través de una interfaz gráfica intuitiva, y facilite una integración de datos fluida en entornos híbridos y multinube.

Explorar StreamSets
IBM watsonx.data™

watsonx.data le permite escalar los analytics y la IA con todos sus datos, residan donde residan, a través de un almacén de datos abierto, híbrido y gestionado.

Descubra watsonx.data
Servicios de consultoría en datos y analytics

Desbloquee el valor de los datos empresariales con IBM Consulting, y construya una organización impulsada por insights que ofrezca ventajas empresariales.

Descubra los servicios de analytics
Dé el siguiente paso

Diseñe una estrategia de datos que elimine los silos de datos, reduzca la complejidad y mejore la calidad de los datos para ofrecer experiencias excepcionales a clientes y empleados.

  1. Explore las soluciones de gestión de datos
  2. Descubra watsonx.data
Notas de pie de página

1 Beyond accuracy: What data quality means to data consumers, Journal of Management Information Systems, Spring 1996

2 Creating an identity policy, IBM Security Identity Manager. 13 de mayo de 2022