El diablo está en los datos: cómo las métricas de calidad de los datos ayudan a las empresas a salir adelante

El director de producto preside una reunión y explica los datos en una pantalla con gráficos.

Autores

Alice Gomstyn

Staff Writer

IBM Think

Alexandra Jonker

Staff Editor

IBM Think

Cultivar un entorno de datos dinámico puede ayudar a las empresas a acelerar el crecimiento, según una nueva investigación del IBM Institute for Business Value. Pero, ¿cómo pueden saber las organizaciones si sus datos son realmente dinámicos y están preparados para impulsar el crecimiento?

El uso de métricas de calidad de los datos puede ayudar.

Las métricas de calidad de los datos son medidas cuantitativas para evaluar la calidad de los datos. Las organizaciones pueden aprovechar las métricas de calidad de los datos para realizar un seguimiento y supervisar la calidad de los datos a lo largo del tiempo, lo que ayuda a identificar datos de alta calidad adecuados para toma de decisiones basada en datos y casos de uso de la inteligencia artificial (IA).

Las métricas varían según la organización y pueden reflejar dimensiones tradicionales de la calidad de los datos, como la precisión, la puntualidad y la singularidad, así como características específicas de los pipelines de datos modernos, como la duración del pipeline. A través de las métricas de calidad de los datos, las dimensiones de la calidad de los datos pueden asignarse a valores numéricos.

Las herramientas de calidad de datos impulsadas por la automatización y el machine learning pueden ayudar a los ingenieros de datos a evaluar las métricas de calidad de los datos e identificar problemas de calidad de los datos en tiempo real. Esto permite a las organizaciones y a sus equipos de datos tomar las medidas necesarias para optimizar la fiabilidad de sus conjuntos de datos y pipelines de datos.

Diseño 3D de bolas rodando por un circuito

Las últimas noticias + conocimientos de IA 


Descubra ideas y noticias de expertos sobre IA, nube y mucho más en el boletín semanal Think. 

¿Por qué son importantes las métricas de calidad de los datos?

Mantener datos fiables y de alta calidad es un objetivo para muchas organizaciones modernas, y con razón.

Los buenos datos contribuyen a una valiosa inteligencia empresarial, eficiencia operativa, flujos de trabajo optimizados, cumplimiento normativo, satisfacción del cliente, crecimiento empresarial y progreso en los indicadores clave de rendimiento (KPI). La alta calidad de los datos también resulta crítica para que las iniciativas de IA sean eficaces, ya que los modelos de IA requieren un entrenamiento con datos fiables y precisos para ofrecer resultados útiles.

Pero para cosechar tales recompensas, las organizaciones deben asegurarse de que sus datos sean realmente de alta calidad. Ahí es donde las métricas de calidad de los datos desempeñan un papel clave. Las métricas de calidad de los datos pueden ayudarle a determinar la calidad de sus datos asignando dimensiones de calidad de los datos a valores numéricos, como puntuaciones1.

A través de las evaluaciones de la calidad de los datos, las organizaciones pueden determinar la usabilidad de sus datos para las decisiones empresariales y el entrenamiento de modelos de IA. Los datos de baja calidad identificados a través de medidas de calidad de los datos a menudo se pueden mejorar mediante esfuerzos de corrección.

AI Academy

¿Es la gestión de datos el secreto de la IA generativa?

Explore por qué los datos de alta calidad son esenciales para el uso satisfactorio de la IA generativa.

Dimensiones clave de la calidad de los datos

Las seis dimensiones tradicionales rastreadas a través de métricas de calidad de los datos son:

  • Precisión de los datos: los datos representan correctamente eventos y valores del mundo real.
  • Exhaustividad de los datos: los datos contienen todos los registros necesarios sin valores faltantes.
  • Coherencia de los datos: los datos son coherentes y están estandarizados en toda la organización, lo que garantiza que los registros de datos de los diferentes conjuntos de datos son compatibles.
  • Puntualidad de los datos: los valores de los datos están actualizados, lo que permite a las organizaciones evitar tomar decisiones basándose en información obsoleta.
  • Unicidad de los datos: los datos no contienen redundancias ni registros duplicados, lo que puede distorsionar el análisis.
  • Validez de los datos: los datos se ajustan a normas empresariales, como estar dentro de los rangos permitidos para ciertos valores de datos y cumplir con los estándares de formato de datos especificados.

Las dimensiones comunes de la calidad de los datos a menudo se pueden medir a través de ratios simples, como la relación entre el número de resultados preferidos (el número de puntos de datos precisos, entradas de datos válidas, etc.) y el número total de resultados2.

Por ejemplo, una forma básica de calcular la integridad de los datos es:

Integridad = (número de elementos de datos completos) / (número total de elementos de datos)

Como alternativa, también se puede utilizar una métrica inversa centrada en los datos incorrectos:

Integridad = 1 – [(elementos de datos que faltan) / (número total de elementos de datos)]

Otros métodos para medir dimensiones requieren cálculos más complejos.

Por ejemplo, las fórmulas para calcular la puntualidad de los datos pueden basarse en variables como la antigüedad de los datos, la hora de entrega (cuando se entregan los datos), la hora de entrada (cuando se reciben los datos) y la volatilidad (el tiempo durante el que los datos son válidos).

Métricas adicionales de calidad de los datos

Además de las métricas de datos que representan las dimensiones tradicionales de la calidad de los datos, otras métricas clave pueden ayudar a las organizaciones a mantener sus pipelines de datos funcionando sin problemas. Algunos ejemplos son:

  • Actualización de los datos: a veces se utiliza indistintamente con "oportunidad de los datos", la actualización de los datos se refiere específicamente a la frecuencia con la que se actualizan los datos en un sistema. La obsolescencia de los datos se produce cuando existen diferencias significativas entre las actualizaciones de los datos.
  • Linaje de datos: el linaje de datos, el proceso de observar y rastrear puntos de contacto a lo largo del recorrido de los datos, puede ayudar a las organizaciones a confirmar la precisión y la coherencia de los datos.
  • Recuentos nulos: los ingenieros y analistas de datos pueden realizar un seguimiento del número de valores nulos o del porcentaje de valores nulos en una columna. El aumento de los recuentos nulos podría indicar problemas como missing values y la desviación de datos.
  • Cambios de esquema: los cambios de esquema frecuentes, como cambios en el tipo de datos de columnas o columnas nuevas, pueden indicar una fuente de datos no confiable.
  • Errores de pipeline: los errores de pipeline pueden causar problemas de salud de los datos, como cambios de esquema, operaciones de datos faltantes y datos obsoletos.
  • Duración del pipeline: los pipelines de datos complejas suelen tardar cantidades similares de tiempo en completar diferentes ejecuciones. Los cambios importantes en la duración podrían provocar el procesamiento de datos obsoletos.

Más información sobre las principales métricas de calidad de los datos para su entorno.

Métricas de calidad de los datos en procesos de datos clave

Las métricas de calidad de los datos apoyan los procesos de datos clave, como el gobierno de datos, la observabilidad de los datos y la gestión de la calidad de los datos.

Gobierno de datos

El gobierno de datos es una disciplina de gestión de datos que ayuda a garantizar la integridad y la seguridad de datos mediante la definición y la implementación de políticas, normas de calidad y procedimientos para la recopilación, la propiedad, el almacenamiento, el procesamiento y el uso de los datos. Las métricas de calidad de los datos, como la coherencia y la integridad, ayudan a las organizaciones a evaluar el progreso hacia el cumplimiento de los estándares establecidos a través de prácticas de gobernanza.

Observabilidad de los datos

La observabilidad de los datos es la práctica de monitorizar y gestionar los datos para ayudar a garantizar su calidad, disponibilidad y fiabilidad en varios procesos, sistemas y pipelines dentro de una organización. Las métricas de calidad de los datos rastreadas a través de las prácticas de observabilidad de los datos incluyen la frescura de los datos, los recuentos nulos y los cambios de esquema.

Gestión de la calidad de los datos

La gestión de la calidad de los datos o DQM es un conjunto de prácticas para mejorar y mantener la calidad de los datos de una organización. Una práctica fundamental de DQM es la elaboración de perfiles de datos, que implica revisar la estructura y el contenido de los datos existentes para evaluar su calidad y establecer una línea de base contra la cual medir la corrección. La calidad de los datos se evalúa de acuerdo con las dimensiones y métricas de calidad de los datos.

La mala calidad de los datos revelada a través de la elaboración de perfiles se puede abordar mediante otra práctica de DQM: la limpieza de datos. La limpieza de datos, también conocida como limpieza de datos, es la corrección de los errores e incoherencias de los datos en los conjuntos de datos sin procesar. Limpiar los datos es un primer paso esencial para la transformación de los datos, que convierte los datos sin procesar en un formato utilizable para el análisis.

Herramientas para el seguimiento de las métricas de calidad de los datos

Las soluciones de software pueden proporcionar monitorización de la calidad de los datos en tiempo real, incluido el seguimiento del rendimiento de las métricas de calidad de los datos. Las soluciones líderes pueden incluir características como:

Paneles de control exhaustivos

Una visualización agregada de los pipelines y los activos de datos de una organización permite la gestión de incidentes de datos en toda la pila de datos.

Supervisión en tiempo real

Monitorización de las comprobaciones de calidad de los datos y las infracciones de las normas del acuerdo de nivel de servicio (SLA) relacionadas con entregas de datos omitidas, cambios de esquema y anomalías.

Alertas personalizadas

Notificaciones personalizadas y automatizadas entregadas a los stakeholders en los datos a través de herramientas y plataformas como Slack, PagerDuty y correo electrónico.

Gráficos a nivel de tendencia

Los gráficos en filas y operaciones escritos y leídos cada día pueden ayudar a las empresas a identificar tendencias importantes y patrones problemáticos.

Linaje de extremo a extremo

El linaje de datos de extremo a extremo muestra conjuntos de datos y pipelines dependientes que se ven afectados por problemas de calidad de los datos.

Soluciones relacionadas
Soluciones de calidad de datos

IBM ofrece soluciones de calidad de datos que optimizan dimensiones clave como la precisión, la integridad y la coherencia.

Explore las soluciones de calidad de datos
IBM Databand

IBM Databand proporciona una monitorización de la calidad de los datos en tiempo real para detectar problemas de mala calidad de los datos y garantizar una mejor calidad de los mismos.

Explorar Databand
Servicios de asesoramiento sobre datos y análisis

Desbloquee el valor de los datos empresariales con IBM Consulting y cree una organización impulsada por conocimientos que ofrezca ventajas empresariales.

Descubra los servicios de análisis
De el siguiente paso

Diseñe una estrategia de datos que elimine los silos, reduzca la complejidad y mejore la calidad de los datos para ofrecer experiencias excepcionales a clientes y empleados.

Explore las soluciones de gestión de datos Descubra watsonx.data
Notas a pie de página

1, 2A Survey of Data Quality Measurement and Monitoring Tools”. Frontiers in Big Data. 30 de marzo de 2023.