Inicio
Temas
Fiabilidad de los datos
La confiabilidad de los datos se refiere a la integridad y precisión de los datos como una medida de qué tanto puede contarse con que son constantes y no presentan errores en los distintos tiempos y fuentes.
Cuanto más confiables sean los datos, más se puede contar con ellos. La confianza en los datos proporciona una base sólida para obtener insights significativos y para una toma de decisiones bien fundamentada, ya sea en investigación académica, analytics de negocio o políticas públicas.
Los datos poco precisos o poco confiables pueden conducir a conclusiones incorrectas, modelos defectuosos y una mala toma de decisiones. Es por eso que cada vez más empresas están introduciendo Chief Data Officers, una cantidad que se ha duplicado entre las principales empresas que cotizan en la bolsa entre 2019 y 2021.1
Los riesgos de datos malos por un lado, y las ventajas competitivas de los datos precisos por el otro significan que las iniciativas de confiabilidad de los datos deben ser la prioridad de cualquier negocio. Para tener éxito, es importante comprender qué implica evaluar y mejorar la confiabilidad, lo que se reduce en gran parte a la observabilidad de los datos, y luego establecer responsabilidades y objetivos claros para la mejora.
La implementación de la observabilidad de datos de extremo a extremo ayuda a los equipos de ingeniería de datos a garantizar la confiabilidad en toda su pila de datos identificando, solucionando y resolviendo problemas antes de que los problemas de datos malos tengan la oportunidad de propagarse.
Vea cómo la observabilidad proactiva de los datos puede ayudarle a detectar incidentes de datos con antelación y resolverlos más rápido.
Medir la confiabilidad de sus datos requiere observar tres factores principales:
1. ¿Es válido?
La validez de los datos depende de si están almacenados y formateados correctamente y de si miden lo que deben medir. Por ejemplo, si está recopilando nuevos datos sobre un fenómeno particular del mundo real, los datos solo son válidos si reflejan con precisión ese fenómeno y no están influenciados por factores extraños.
2. ¿Están completos?
La integridad de los datos identifica si falta algo en la información. Si bien los datos pueden ser válidos, pueden estar incompletos si no hay algunos campos críticos que podrían cambiar la comprensión de la información. Los datos incompletos pueden dar lugar a análisis sesgados o incorrectos.
3. ¿Son únicos?
La unicidad de los datos revisa si hay duplicados en el conjunto de datos. Esta singularidad es importante para evitar una representación excesiva, que sería inexacta.
Para ir un paso más adelante, algunos equipos de datos también analizan otros factores, entre ellos:
Medir la fiabilidad de los datos es esencial para ayudar a los equipos a generar confianza en sus conjuntos de datos y detectar posibles problemas en una fase temprana. Las pruebas de datos periódicas y eficaces pueden ayudar a los equipos de datos a localizar rápidamente los problemas para determinar su origen y tomar medidas para solucionarlos.
Una plataforma de datos moderna está respaldada no solo por la Tecnología, sino también por las filosofías DevOps, DataOps y ágiles. Aunque DevOps y DataOps tienen propósitos completamente diferentes, cada uno es similar a la filosofía ágil, que está diseñada para acelerar los ciclos de trabajo de los proyectos.
DevOps se centra en el desarrollo de productos, mientras que DataOps, en crear y mantener un sistema de arquitectura de datos distribuido que ofrece valor comercial a partir de los datos.
Ágil es una filosofía para el desarrollo de software que promueve la velocidad y eficiencia, pero sin eliminar el factor “humano”. Pone énfasis en las conversaciones cara a cara como una forma de maximizar las comunicaciones, al tiempo que enfatiza la automatización como un medio para minimizar los errores.
La confiabilidad de los datos y la validez de los datos abordan dos aspectos distintos de la calidad de los datos.
En el contexto de la administración de datos, ambas cualidades juegan un papel crucial para garantizar la integridad y utilidad de los datos en cuestión.
Aunque la confiabilidad de los datos y la validez de los datos están relacionadas, no son intercambiables. Por ejemplo, es posible que tenga un proceso de recopilación de datos altamente confiable (que proporcione resultados sistemáticos y repetibles), pero si los datos que se recopilan no están validados (no cumplen con las reglas o formatos requeridos), el resultado final seguirá siendo datos de baja calidad.
Por el contrario, podría tener datos perfectamente válidos (que cumplan con todas las reglas de formato e integridad), pero si el proceso de recopilación de esos datos no es confiable (da resultados diferentes con cada medición u observación), la utilidad y confiabilidad de esos datos se vuelve cuestionable.
Para mantener la confiabilidad de los datos, se debe establecer y seguir de cerca un método uniforme para recopilar y procesar todo tipo de datos. Para la validez de los datos, deben existir protocolos rigurosos de validación de datos. Esto puede incluir comprobaciones de tipo de datos, verificaciones de rango, comprobaciones de integridad referenciales y otras. Estos protocolos ayudarán a garantizar que los datos estén en el formato correcto y se adhieran a todas las reglas necesarias.
Todas las iniciativas de confiabilidad de datos plantean problemas y retos considerables en muchos ámbitos de la investigación y el análisis de datos, entre ellos:
La forma en que se recopilan los datos puede afectar enormemente su confiabilidad. Si el método utilizado para recopilar datos es defectuoso o sesgado, los datos no serán confiables. Además, pueden producirse errores de medición en el momento de la recopilación de datos, durante la entrada de datos o cuando se procesan o analizan los datos.
Los datos deben ser constantes con el tiempo y en diferentes contextos para ser confiables. Pueden surgir datos inconstantes debido a cambios en las técnicas de medición, las definiciones o los sistemas utilizados para recopilar datos.
El error humano siempre es una fuente potencial de falta de confiabilidad. Esto puede ocurrir de muchas maneras, como el ingreso de datos incorrecto, la codificación de datos inconstante y la interpretación errónea de los datos.
En algunos casos, lo que se mide puede cambiar con el tiempo, provocando problemas de fiabilidad. Por ejemplo, un modelo de aprendizaje automático que predice el comportamiento del consumidor podría ser confiable cuando se crea por primera vez, pero podría volverse inexacto a medida que cambia el comportamiento subyacente del consumidor.
Las prácticas inconstante de gobernanza de datos y la falta de administración de datos pueden dar lugar a la falta de responsabilidad por la calidad y confiabilidad de los datos.
Cuando las fuentes de datos cambian o se actualizan, eso puede alterar la confiabilidad de los datos, especialmente si cambian los formatos o estructuras de los datos. La integración de datos de diferentes fuentes de datos también puede dar lugar a problemas de fiabilidad de los datos en su plataforma de datos moderna.
Los registros o entradas duplicados pueden generar inexactitudes y resultados sesgados. Identificar y manejar duplicados es un desafío para mantener la confiabilidad de los datos.
Abordar estos problemas y desafíos requiere una combinación de procesos de calidad de datos, gobernanza de datos, validación de datos y prácticas de gestión de datos.
Garantizar la fiabilidad de sus datos es un aspecto fundamental de una gestión sólida de los datos. A continuación se presentan algunas prácticas recomendadas para mantener y mejorar la confiabilidad de los datos en toda su pila de datos:
La observabilidad de los datos consiste en comprender la salud y el estado de los datos en su sistema. Incluye diversas actividades que van más allá de solo describir un problema. La observabilidad de los datos puede ayudar a identificar, solucionar y resolver problemas de datos casi en tiempo real.
Es importante destacar que la observabilidad de los datos es esencial para adelantarse a los problemas de datos incorrectos, que se encuentran en el corazón de la confiabilidad de los datos. Mirando más profundamente, la observabilidad de datos abarca actividades como monitoreo, alertas, seguimiento, comparaciones, análisis, registro, seguimiento de SLA y linaje de datos, todas las cuales trabajan juntas para comprender la calidad de los datos de extremo a extremo, incluida la confiabilidad de los datos.
Cuando se hace bien, la observabilidad de los datos puede ayudar a mejorar la confiabilidad de los datos al hacer posible identificar los problemas desde el principio, para que todo el equipo de datos pueda responder más rápidamente, comprender el alcance del impacto y restaurar la confiabilidad.
Al implementar prácticas y herramientas de observabilidad de datos, las organizaciones pueden mejorar la confiabilidad de los datos, asegurando que sean precisos, constantes y confiables a lo largo de todo el ciclo de vida de los datos. Esto es especialmente crucial en entornos basados en datos donde los datos de alta calidad pueden impactar directamente en business intelligence, las decisiones basadas en datos y los resultados de negocio.
IBM® Databand es un software de observabilidad para canalizaciones de datos y almacenes de datos, que recopila metadatos de forma automática para crear referencias históricas, detectar anomalías, y evaluar y priorizar las alertas para corregir los problemas relacionados con la calidad de los datos.
Al admitir los patrones ETL y ELT, IBM® DataStage ofrece una integración de datos flexible y casi en tiempo real tanto on premises como en la nube.
IBM® Knowledge Catalog, un catálogo de datos inteligente en la era de la IA, le permite acceder, curar, categorizar y compartir datos, activos de conocimiento y sus relaciones, independientemente de dónde residan.
Ahora puede ampliar la analítica y la IA con un almacén de datos adaptado a sus necesidades, construido sobre una arquitectura de lago abierta, respaldada por consultas, gobernanza y formatos de datos abiertos para acceder a los datos y compartirlos.
Profundice para comprender qué es la observabilidad de los datos, por qué es importante, cómo ha evolucionado junto con los sistemas de datos modernos y las mejores prácticas para implementar un marco de observabilidad de datos.
Garantizar datos de alta calidad es responsabilidad de los ingenieros de datos y de toda la organización. Esta publicación describe la importancia de la calidad de los datos, cómo auditar y monitorear sus datos y cómo obtener la aceptación de las partes interesadas clave.
Cuando se trata de la calidad de los datos, hay algunas métricas importantes, como integridad, consistencia, conformidad, precisión, integridad, puntualidad, disponibilidad y continuidad, solo por nombrar algunas.
1. En los datos en los que confiamos, PwC, 28 de abril de 2022