El diablo está en los datos: cómo las métricas de calidad de los datos ayudan a las empresas a salir adelante

Gerente de producto dirigiendo una reunión, explicando datos en una pantalla con gráficos.

Autores

Alice Gomstyn

Staff Writer

IBM Think

Alexandra Jonker

Staff Editor

IBM Think

Cultivar un entorno de datos vibrante puede ayudar a las empresas a acelerar el crecimiento, según una nueva investigación del IBM Institute for Business Value. Pero, ¿cómo pueden saber las organizaciones si sus datos son realmente dinámicos y están preparados para impulsar el crecimiento?

El uso de métricas de calidad de los datos puede resultar útil.

Las métricas de calidad de los datos son medidas cuantitativas para evaluar la calidad de los datos. Las organizaciones pueden aprovechar las métricas de calidad de los datos para realizar un seguimiento y monitorear la calidad de los datos a lo largo del tiempo, lo que ayuda a identificar datos de alta calidad adecuados para toma de decisiones basadas en datos y casos de uso de la inteligencia artificial (IA).

Las métricas varían según la organización y pueden reflejar dimensiones tradicionales de la calidad de los datos, como la precisión, la puntualidad y la singularidad, así como características específicas de los flujos de datos modernos, como la duración del flujo. A través de métricas de calidad de datos, las dimensiones de la calidad de los datos pueden asignar a valores numéricos.

Las herramientas de calidad de datos impulsadas por la Automatización y el machine learning pueden ayudar a los ingenieros de datos a evaluar las métricas de calidad de los datos e identificar problemas de calidad de datos en tiempo real. Esto permite a las organizaciones y a sus equipos de datos tomar las medidas necesarias para optimizar la confiabilidad de sus conjuntos de datos y pipelines de datos.

Diseño 3D de pelotas rodando en una pista

Las últimas novedades e insights sobre IA

Descubra insights y noticias de expertos sobre IA, la nube y mucho más en el boletín semanal Think. 

¿Por qué son importantes las métricas de calidad de los datos?

Mantener datos fiables y de alta calidad es un objetivo para muchas organizaciones modernas, y con razón.

Los buenos datos contribuyen a una valiosa business intelligence, eficiencia operativa, flujos de trabajo optimizados, cumplimiento normativo, satisfacción del cliente, crecimiento empresarial y progreso en los indicadores clave de rendimiento (KPI). La alta calidad de los datos también resulta crítica para que las iniciativas de IA sean eficaces, ya que los modelos de IA requieren un entrenamiento con datos fiables y precisos para ofrecer resultados útiles.

Pero para obtener tales recompensas, las organizaciones deben cerciorar de que sus datos sean realmente de alta calidad. Ahí es donde las métricas de calidad de datos juegan un papel clave. Las métricas de calidad de datos pueden ayudarlo a determinar la calidad de los datos mediante la asignación de dimensiones de calidad de datos a valores numéricos, como puntajes.1

A través de evaluaciones de calidad de datos, las organizaciones pueden determinar la usabilidad de sus datos para tomar decisiones comerciales y entrenar modelos de IA. Los datos de baja calidad identificados a través de medidas de calidad de datos a menudo se pueden mejorar mediante esfuerzos de corrección de datos.

Academia de IA

¿Es la gestión de datos el secreto de la IA generativa?

Explore por qué los datos de alta calidad son esenciales para el uso exitoso de la IA generativa.

Dimensiones clave de la calidad de los datos

Las seis dimensiones tradicionales de las que se realiza un seguimiento a través de las métricas de calidad de los datos son:

  • Precisión de los datos: Los datos representan correctamente eventos y valores del mundo real.
  • Integridad de los datos: los datos contienen todos los registros necesarios sin missing values.
  • Consistencia de los datos: los datos son coherentes y estandarizados en toda la organización, lo que garantiza que los registros de datos en diferentes conjuntos de datos sean compatibles.
  • Puntualidad de los datos: Los valores de los datos están actualizados, lo que permite a las organizaciones evitar tomar decisiones basadas en información obsolenta.
  • Unicidad de los datos: los datos están libres de redundancias o registros duplicados, que pueden distorsionar el análisis.
  • Validez de los datos: Los datos se ajustan a business rules, como estar dentro de los rangos permitidos para ciertos valores de datos y cumplir con los estándares de formato de datos especificados.

Las dimensiones comunes de la calidad de los datos a menudo se pueden medir a través de proporciones simples, como la relación entre el número de resultados preferidos (el número de puntos de datos precisos, entradas de datos válidas, etc.) y el número total de resultados.2

Por ejemplo, una forma básica de calcular la integridad de los datos es:

Integridad = (número de elementos de datos completos) / (número total de elementos de datos)

Alternativamente, usar una métrica inversa centrada en datos incorrectos también es una opción:

Integridad = 1 – [(elementos de datos faltantes) / (número total de elementos de datos)]

Otros métodos para medir dimensiones requieren cálculos más complejos.

Por ejemplo, las fórmulas para calcular la puntualidad de los datos pueden basarse en variables como la antigüedad de los datos, el tiempo de entrega (cuando se entregan los datos), el tiempo de entrada (cuando se reciben los datos) y la volatilidad (la cantidad de tiempo en que los datos son válidos).

Métricas adicionales de calidad de datos

Además de las métricas de datos que representan las dimensiones tradicionales de la calidad de los datos, otras métricas clave pueden ayudar a las organizaciones a mantener sus pipelines de datos funcionando sin problemas. Ejemplos:

  • Actualización de los datos: a veces se usa indistintamente con la puntualidad de los datos, la frescura de los datos se refiere específicamente a la frecuencia con la que se actualizan los datos en un sistema. La obsolescencia de los datos ocurre cuando hay brechas significativas entre las actualizaciones de datos.
  • Recuentos nulos: los ingenieros de datos y los analistas pueden realizar un seguimiento del número de nulos o porcentajes de nulos en una columna. El aumento de los recuentos nulos podría indicar problemas, como missing values y desviación de datos.
  • Cambios de esquema: los cambios frecuentes de esquema, como cambios en el tipo de datos de columna o nuevas columnas, pueden indicar una fuente de datos poco confiable.
  • Fallas de canalización: Las fallas de canalización pueden causar problemas de estado de los datos, como cambios de esquema, operaciones de datos faltantes y datos obsoletos.
  • Duración del pipeline: los pipelines de datos complejos suelen tardar cantidades similares de tiempo en completar diferentes ejecuciones. Los cambios importantes en la duración podrían dar lugar al procesamiento de datos obsoletos.

Aprenda más sobre las principales métricas de calidad de datos para su entorno.

Métricas de calidad de datos en procesos de datos clave

Las métricas de calidad de datos respaldan procesos de datos clave, como la gobernanza de datos, la observabilidad de los datos y la gestión de calidad de datos.

Gobernanza de datos

Lagobernanza de datos es una disciplina de gestión de datos que ayuda a garantizar la integridad y la seguridad de los datos mediante la definición e implementación de políticas, estándares de calidad y procedimientos para la recopilación, propiedad, almacenamiento, procesamiento y uso de datos. Las métricas de calidad de los datos, como la coherencia y la integridad de los datos, ayudan a las organizaciones a evaluar el progreso hacia el cumplimiento de los estándares establecidos a través de las prácticas de gobernanza.

Observabilidad de los datos

La observabilidad de los datos es la práctica de monitorear y gestionar datos para ayudar a garantizar su calidad, disponibilidad y confiabilidad en varios procesos, sistemas y canales dentro de una organización. Las métricas de calidad de datos rastreadas a través de prácticas de observabilidad de los datos incluyen frescura de datos, recuentos nulos y cambios de esquema.

Gestión de la calidad de los datos

La gestión de la calidad de los datos o DQM es un conjunto de prácticas para mejorar y mantener la calidad de los datos de una organización. Una práctica básica de DQM es data profiling, que implica revisar la estructura y el contenido de los datos existentes para evaluar su calidad y establecer una línea de base contra la cual medir la corrección. La calidad de los datos se evalúa de acuerdo con las dimensiones y métricas de calidad de los datos.

La mala calidad de los datos revelada a través de la elaboración de perfiles se puede abordar a través de otra práctica de DQM: la limpieza de datos. La limpieza de datos, también conocida como limpieza de datos, es la corrección de errores e inconsistencias de datos en conjuntos de datos sin procesar. La limpieza de datos es un primer paso esencial para la transformación de datos, que convierte los datos sin procesar en un formato utilizable para el análisis.

Herramientas para el seguimiento de métricas de calidad de datos

Las soluciones de software pueden proporcionar supervisión de la calidad de los datos en tiempo real, incluido el seguimiento del rendimiento en métricas de calidad de los datos. Las soluciones líderes pueden incluir características tales como:

Paneles integrales

Una visualización agregada de los procesos y activos de datos de una organización permite gestionar los incidentes relacionados con los datos en toda la pila de datos.

Monitoreo en tiempo real

Supervisión de verificaciones de calidad de datos e infracciones de reglas de acuerdos de nivel de servicio (SLA) relacionadas con entregas de datos perdidas, cambios de esquema y anomalías.

Alertas personalizadas

Notificaciones personalizadas y automatizadas entregadas a los stakeholders en los datos a través de herramientas y plataformas como Slack, PagerDuty y correo electrónico.

Gráficos a nivel de tendencia

Los gráficos en filas y operaciones escritos y leídos cada día pueden ayudar a las empresas a identificar tendencias importantes y patrones problemáticos.

Linaje de extremo a extremo

El linaje de datos de extremo a extremo muestra conjuntos de datos y canales dependientes que se ven afectados por problemas de calidad de datos.

Soluciones relacionadas
Soluciones de calidad de datos

IBM ofrece soluciones de calidad de datos que optimizan dimensiones clave como la precisión, la integridad y la coherencia.

Explorar las soluciones de calidad de datos
IBM Databand

IBM Databand proporciona un monitoreo de la calidad de los datos en tiempo real para detectar problemas de mala calidad de los datos y garantizar una mejor calidad de los mismos.

Explore Databand
Servicios de consultoría en datos y analytics

Desbloquee el valor de los datos empresariales con IBM Consulting y cree una organización impulsada por insights que ofrezca ventajas empresariales.

Descubra los servicios de analytics
Dé el siguiente paso

Diseñe una estrategia de datos que elimine los silos de datos, reduzca la complejidad y mejore la calidad de los datos para ofrecer experiencias excepcionales a clientes y empleados.

Explore las soluciones de gestión de datos Descubra watsonx.data
Notas de pie de página

1, 2A Survey of Data Quality Measurement and Monitoring Tools.” Frontiers in Big Data. 30 de marzo de 2022.