La calidad de los datos es esencialmente la medida de la integridad de los datos. La precisión, integridad, coherencia, validez, singularidad y puntualidad de un conjunto de datos son las medidas de calidad de los datos que las organizaciones emplean para determinar la utilidad y eficacia de los datos para un caso de uso empresarial determinado.

Cómo determinar la calidad de los datos

Los analistas de calidad de datos evaluarán un conjunto de datos utilizando las dimensiones enumeradas anteriormente y asignarán una puntuación general. Cuando los datos ocupan un lugar destacado en todas las dimensiones, se consideran datos de alta calidad que son fiables y de confianza para el caso de uso o la aplicación previstos. Para medir y mantener datos de alta calidad, las organizaciones utilizan reglas de calidad de los datos, también conocidas como reglas de validación de datos, para garantizar que los conjuntos de datos cumplan con los criterios definidos por la organización.

Los beneficios de una buena calidad de los datos

Mayor eficacia

Los usuarios empresariales y los científicos de datos no tienen que perder tiempo localizando o formateando datos en sistemas dispar. En su lugar, pueden acceder fácilmente a los conjuntos de datos y analizarlos con mayor confianza. Se ahorra tiempo adicional que, de otro modo, se habría desperdiciado actuando sobre datos incompletos o inexactos.

Mayor valor de los datos

Dado que los datos tienen un formato coherente y están contextualizados para el usuario o la aplicación, las organizaciones pueden obtener valor de datos que, de otro modo, podrían haberse descartado o ignorado.

Mejora de la colaboración y mejor toma de decisiones

Los datos de alta calidad eliminan las incongruencias entre sistemas y departamentos y garantizan la coherencia de los datos en todos los procesos y procedimientos. La colaboración y la toma de decisiones entre las partes interesadas mejoran porque todas se basan en los mismos datos.

Reducción de costes y mejora del cumplimiento normativo

Los datos de alta calidad son fáciles de localizar y acceder. Como no hay necesidad de volver a crear o rastrear conjuntos de datos, se reducen los costes de mano de obra y es menos probable que se produzcan errores en la introducción manual de datos. Y como los datos de alta calidad son fáciles de almacenar en el entorno correcto, así como de recopilar y compilar en informes obligatorios, una organización puede garantizar mejor el cumplimiento y evitar sanciones normativas.

Mejora de las experiencias de los empleados y la experiencia del cliente

Los datos de alta calidad proporcionan conocimientos más precisos y profundos que una organización puede utilizar para ofrecer una experiencia más personalizada e impactante a empleados y clientes.

Las seis dimensiones de la calidad de los datos

Para determinar la calidad de los datos y asignar una puntuación general, los analistas evalúan un conjunto de datos utilizando estas seis dimensiones, también conocidas como características de los datos:

Precisión: ¿son los datos demostrablemente correctos y reflejan el conocimiento del mundo real? Integridad: ¿los datos comprenden toda la información relevante y disponible? ¿Faltan elementos de datos o campos en blanco? Coherencia: ¿coinciden los valores de datos correspondientes en todas las ubicaciones y entornos? Validez: ¿se recopilan los datos en el formato correcto para el uso previsto? Unicidad: ¿los datos están duplicados o se superponen con otros datos? Puntualidad: ¿los datos están actualizados y disponibles cuando se necesitan?

Cuanto más alta sea la puntuación de un conjunto de datos en cada una de estas dimensiones, mayor será su puntuación general. Una puntuación general alta indica que un conjunto de datos es fiable, de fácil acceso y relevante.

Cómo mejorar la calidad de los datos

Algunos métodos e iniciativas comunes que utilizan las organizaciones para mejorar la calidad de los datos incluyen:

Perfiles de datos

La elaboración de perfiles de datos, también conocida como evaluación de la calidad de los datos, es el proceso de auditar los datos de una organización en su estado actual. Esto se hace para descubrir errores, imprecisiones, lagunas, datos incoherentes, duplicaciones y barreras de accesibilidad. Cualquier número de herramientas de calidad de los datos se puede utilizar para perfilar conjuntos de datos y detectar anomalías en los datos que necesitan corrección.

Limpieza de datos

La limpieza de datos es el proceso de remediar los problemas de calidad de los datos y las incoherencias descubiertas durante la creación de perfiles de datos. Esto incluye la deduplicación de conjuntos de datos, para que no existan involuntariamente varias entradas de datos en varias ubicaciones.

Estandarización de datos

Este es el proceso de conformar activos de datos dispar y big data no estructurado en un formato coherente que garantiza que los datos estén completos y listos para su uso, independientemente de la fuente de datos. Para estandarizar los datos, se aplican reglas empresariales para garantizar que los conjuntos de datos se ajusten a los estándares y las necesidades de una organización.

Geocodificación

La geocodificación es el proceso de añadir metadatos de ubicación a los conjuntos de datos de una organización. Al etiquetar los datos con coordenadas geográficas para rastrear su origen, dónde han estado y dónde residen, una organización puede garantizar que se cumplen los estándares de datos geográficos nacionales y globales. Por ejemplo, los metadatos geográficos pueden ayudar a una organización a garantizar que su gestión de los datos de los clientes cumpla con el RGPD.

Coincidencia o vinculación

Este es el método de identificar, fusionar y resolver datos duplicados o redundantes.

Supervisión de la calidad de los datos

Para mantener una buena calidad de los datos, es necesaria una gestión continua de los mismos. La monitorización de la calidad de los datos es la práctica de revisar conjuntos de datos previamente puntuados y reevaluarlos en función de las seis dimensiones de la calidad de los datos. Muchos analistas de datos utilizan un panel de control de calidad de los datos para visualizar y realizar un seguimiento de los KPI.

Validación por lotes y en tiempo real

Se trata de la implementación de reglas de validación de datos en todas las aplicaciones y tipos de datos a escala para garantizar que todos los conjuntos de datos se adhieran a estándares específicos. Esto se puede hacer periódicamente como un proceso por lotes, o de forma continua en tiempo real a través de procesos como la captura de datos modificados.

Master Data Management

La gestión de datos maestros (MDM) es el acto de crear y mantener un registro centralizado de la organización donde todos los datos se catalogan y se rastrean. Esto proporciona a la organización una única ubicación para ver y evaluar rápidamente sus conjuntos de datos, independientemente de dónde residan esos datos o de su tipo. Por ejemplo, los datos de los clientes, la información de la cadena de suministro y los datos de marketing residirían en un entorno de MDM.