La integridad de los datos frente a la calidad de los datos: ¿Existe alguna diferencia?

Ilustración de una persona sosteniendo una llave frente a una ventana de seguridad, rodeada de íconos que representan computación en la nube y protección con contraseña.

En resumen, sí. Cuando hablamos de integridad de los datos, nos referimos a la integridad, precisión, coherencia, accesibilidad y seguridad generales de los datos de una organización. Juntos, estos factores determinan la confiabilidad de los datos de la organización. La calidad de los datos utiliza esos criterios para medir el nivel de integridad de los datos y, a su vez, su confiabilidad y aplicabilidad para el uso previsto. La calidad y la integridad de los datos son vitales para una organización basada en datos que emplea analytics para tomar decisiones empresariales, ofrece acceso a datos de autoservicio para los stakeholders internos y ofrece ofertas de datos a los clientes.

Las últimas noticias tecnológicas, respaldadas por los insights de expertos

Manténgase al día sobre las tendencias más importantes e intrigantes de la industria sobre IA, automatización, datos y más con el boletín Think. Consulte la Declaración de privacidad de IBM.

¡Gracias! Ya está suscrito.

Su suscripción se entregará en inglés. En cada boletín, encontrará un enlace para darse de baja. Puede gestionar sus suscripciones o darse de baja aquí. Consulte nuestra Declaración de privacidad de IBM para obtener más información.

Integridad de los datos

Para lograr un alto nivel de integridad de los datos, una organización implementa procesos, reglas y estándares que rigen la forma en que se recopilan, almacenan, acceden, editan y utilizan los datos. Estos procesos, reglas y estándares funcionan en conjunto para:

  • Valide los datos y la entrada
  • Eliminar datos duplicados
  • Proporcione copias de seguridad y garantice la continuidad de negocio
  • Proteja los datos a través de controles de acceso
  • Mantenga un registro de auditoría para la responsabilidad y el cumplimiento

Una organización puede utilizar cualquier cantidad de herramientas y entornos de nube pública o privada a lo largo del ciclo de vida de los datos para mantener la integridad de los datos a través de algo conocido como gobernanza de datos. Esta es la práctica de crear, actualizar y hacer cumplir constantemente los procesos, reglas y estándares que evitan errores, pérdida de datos, corrupción de datos, mal manejo de datos confidenciales o regulados y filtraciones de datos.

Los beneficios de la integridad de los datos

Una organización con un alto nivel de integridad de datos puede:

  • Aumente la probabilidad y la velocidad de recuperación de datos en caso de una filtración o tiempo de inactividad no planificado
  • Protéjase contra el acceso no autorizado y la modificación de datos
  • Logre y mantenga el cumplimiento de manera más eficaz

Una buena integridad de los datos también puede mejorar los resultados de las decisiones empresariales al aumentar la precisión de los analytics de una organización. Cuanto más completo, preciso y coherente sea un conjunto de datos, más informados estarán la business intelligence y los procesos empresariales. Como resultado, los líderes están mejor equipados para establecer y alcanzar objetivos que beneficien a su organización y fomenten la confianza de los empleados y consumidores.

Las tareas de ciencia de datos, como el machine learning, también se benefician enormemente de una buena integridad de los datos. Cuando un modelo de machine learning subyacente se entrena con registros de datos que son confiables y precisos, mejor será ese modelo para hacer predicciones comerciales o automatizar tareas.

Los diferentes tipos de integridad de datos

Hay dos categorías principales de integridad de datos: integridad física de datos e integridad lógica de datos.

La integridad física de los datos es la protección de la integridad de los datos (lo que significa que no falta información importante), la accesibilidad y la precisión mientras los datos están almacenados o en tránsito. Los desastres naturales, los cortes de energía, los errores humanos y los ciberataques plantean riesgos para la integridad física de los datos.

La integridad lógica de los datos se refiere a la protección de la coherencia y la integridad de los datos mientras diferentes stakeholders y aplicaciones acceden a ellos en todos los departamentos, disciplinas y ubicaciones. La integridad lógica de los datos se logra mediante:

  • Prevención de la duplicación (integridad de la entidad)
  • Dictar cómo se almacenan y utilizan los datos (integridad referencial)
  • Preservar los datos en un formato aceptable (integridad del dominio)
  • Garantizar que los datos satisfagan las necesidades únicas o específicas de la industria de una organización (integridad definida por el usuario)

En qué se diferencia la integridad de los datos de la seguridad de los datos

La seguridad de los datos es un subcomponente de la integridad de los datos y se refiere a las medidas adoptadas para evitar el acceso o la manipulación no autorizados de los datos. Los protocolos y herramientas de seguridad de datos eficaces contribuyen a una sólida integridad de los datos. En otras palabras, la seguridad de los datos es el medio, mientras que la integridad de los datos es el objetivo. La capacidad de recuperación de los datos, en caso de una filtración, ataque, corte de energía o interrupción del servicio, entra en el ámbito de la seguridad de los datos.

Las consecuencias de una mala integridad de los datos

Los errores humanos, los errores de transferencia, los actos maliciosos, la seguridad insuficiente y el mal funcionamiento del hardware contribuyen a los "datos incorrectos", lo que afecta negativamente la integridad de los datos de una organización. Una organización que se enfrenta a uno o más de estos problemas corre el riesgo de experimentar:

Mala calidad de los datos

Los datos de baja calidad llevan a una mala toma de decisiones debido a analytics inexactos y desinformados. La reducción de la calidad de los datos puede provocar pérdidas de productividad, disminución de los ingresos y daños a la reputación.

Seguridad de datos insuficiente

Los datos que no están debidamente protegidos corren un mayor riesgo de sufrir una filtración de datos o perderse debido a un desastre natural u otro evento imprevisto. Y sin insight y control adecuados sobre la seguridad de los datos, una organización puede incumplir más fácilmente con las normativas locales, regionales y globales, como el Reglamento General de Protección de Datos de la Unión Europea.

Academia de IA

¿Es la gestión de datos el secreto de la IA generativa?

Explore por qué los datos de alta calidad son esenciales para el uso exitoso de la IA generativa.

Data quality

La calidad de los datos es esencialmente la medida de la integridad de los datos. La precisión, integridad, coherencia, validez, singularidad y puntualidad de un conjunto de datos son las medidas de calidad de los datos que emplean las organizaciones para determinar la utilidad y eficacia de los datos para un caso de uso empresarial determinado.

Cómo determinar la calidad de los datos

Los analistas de calidad de datos evaluarán un conjunto de datos utilizando las dimensiones enumeradas anteriormente y asignarán una puntuación general. Cuando los datos ocupan un lugar destacado en todas las dimensiones, se consideran datos de alta calidad que son confiables para el caso de uso o la aplicación previstos. Para medir y mantener datos de alta calidad, las organizaciones utilizan reglas de calidad de datos, también conocidas como reglas de validación de datos, para garantizar que los conjuntos de datos cumplan con los criterios definidos por la organización.

Los beneficios de una buena calidad de datos

Mayor eficiencia

Los usuarios empresariales y los científicos de datos no tienen que perder tiempo localizando o formateando datos en sistemas Dispar. En cambio, pueden acceder fácilmente y analizar conjuntos de datos con mayor confianza. Se ahorra tiempo adicional que, de otro modo, se habría desperdiciado actuando sobre datos incompletos o inexactos.

Mayor valor de los datos

Dado que los datos tienen un formato coherente y están contextualizados para el usuario o la aplicación, las organizaciones pueden obtener valor de datos que, de otro modo, podrían haberse descartado o ignorado.

Mejora de la colaboración y mejor toma de decisiones

Los datos de alta calidad eliminan las incongruencias entre sistemas y departamentos y garantizan datos coherentes en todos los procesos y procedimientos. La colaboración y la toma de decisiones entre los stakeholders mejoran porque todas dependen de los mismos datos.

Reducción de costos y mejora del cumplimiento normativo

Los datos de alta calidad son fáciles de localizar y acceder. Debido a que no hay necesidad de volver a crear o rastrear conjuntos de datos, los costos de mano de obra se reducen y los errores de entrada manual de datos son menos probables. Y debido a que los datos de alta calidad son fáciles de almacenar en el entorno correcto, así como de recopilar y compilar en informes obligatorios, una organización puede garantizar mejor el cumplimiento y evitar sanciones normativas.

Mejora de las experiencias de los empleados y la experiencia del cliente

Los datos de alta calidad proporcionan insights más precisos y profundos que una organización puede utilizar para proporcionar una experiencia más personalizada e impactante para empleados y clientes.

Las seis dimensiones de la calidad de los datos

Para determinar la calidad de los datos y asignar una puntuación general, los analistas evalúan un conjunto de datos utilizando estas seis dimensiones, también conocidas como características de los datos:

  1. Precisión: ¿Son los datos comprobablemente correctos y reflejan el conocimiento del mundo real?
  2. Integridad: ¿Los datos comprenden toda la información relevante y disponible? ¿Faltan elementos de datos o campos en blanco?
  3. Coherencia: ¿los valores de datos correspondientes coinciden en todas las ubicaciones y entornos?
  4. Validez: ¿Se recopilan los datos en el formato correcto para el uso previsto?
  5. Unicidad: ¿los datos están duplicados o se superponen con otros datos?
  6. Puntualidad: ¿Los datos están actualizados y disponibles cuando se necesitan?

Cuanto más alto sea el puntaje de un conjunto de datos en cada una de estas dimensiones, mayor será su puntaje general. Una puntuación general alta indica que un conjunto de datos es confiable, de fácil acceso y relevante.

Cómo mejorar la calidad de los datos

Algunos métodos e iniciativas comunes que utilizan las organizaciones para mejorar la calidad de los datos incluyen:

Elaboración de perfiles de datos

El perfilado de datos, también conocido como evaluación de la calidad de los datos, es el proceso de auditar los datos de una organización en su estado actual. Esto se hace para descubrir errores, imprecisiones, lagunas, datos incoherentes, duplicaciones y barreras de accesibilidad. Se puede utilizar cualquier cantidad de herramientas de calidad de datos para perfilar conjuntos de datos y detectar anomalías de datos que necesitan corrección.

Limpieza de datos

La limpieza de datos es el proceso de remediar los problemas de calidad de los datos y las inconsistencias descubiertas durante el perfilado de datos. Esto incluye la deduplicación de conjuntos de datos, para que no existan involuntariamente múltiples entradas de datos en múltiples ubicaciones.

Estandarización de datos

Este es el proceso de conformar activos de datos Dispar y big data no estructurados en un formato coherente que garantiza que los datos estén completos y listos para su uso, independientemente de la fuente de datos. Para estandarizar los datos, se aplican business rules para garantizar que los conjuntos de datos se ajusten a los estándares y necesidades de una organización.

Geocodificación

La geocodificación es el proceso de agregar metadatos de ubicación a los conjuntos de datos de una organización. Al etiquetar los datos con coordenadas geográficas para rastrear de dónde se originaron, dónde han estado y dónde residen, una organización puede garantizar que se cumplan los estándares de datos geográficos nacionales y globales. Por ejemplo, los metadatos geográficos pueden ayudar a una organización a garantizar que su gestión de los datos de los clientes cumpla con el RGPD.

Coincidencia o vinculación

Este es el método de identificar, fusionar y resolver datos duplicados o redundantes.

Supervisión de la calidad de los datos

Mantener una buena calidad de los datos requiere una gestión continua de la calidad de los datos. El monitoreo de la calidad de los datos es la práctica de revisar conjuntos de datos previamente puntuados y reevaluarlos en función de las seis dimensiones de la calidad de los datos. Muchos analistas de datos utilizan un panel de calidad de datos para visualizar y rastrear los KPI de calidad de datos.

Validación por lotes y en tiempo real

Se trata del despliegue de reglas de validación de datos en todas las aplicaciones y tipos de datos a escala para garantizar que todos los conjuntos de datos se adhieran a estándares específicos. Esto se puede hacer periódicamente como un proceso por lotes, o continuamente en tiempo real a través de procesos como la captura de datos modificados.

Master data management

La gestión de dispositivos móviles (MDM) es el acto de crear y mantener un registro de datos centralizado en toda la organización donde todos los datos se catalogan y rastrean. Esto le da a la organización una única ubicación para ver y evaluar rápidamente sus conjuntos de datos, independientemente de dónde residan esos datos o de su tipo. Por ejemplo, los datos de los clientes, la información de la cadena de suministro y los datos de marketing residirían en un entorno de gestión de dispositivos móviles (MDM).

Integridad de datos, calidad de datos e IBM

IBM ofrece una amplia gama de capacidades integradas de calidad y gobernanza de datos, que incluyen perfiles de datos, limpieza de datos, monitoreo de datos, coincidencia de datos y enriquecimiento de datos para garantizar que los consumidores de datos tengan acceso a datos confiables y de alta calidad. La solución de gobernanza de datos de IBM ayuda a las organizaciones a establecer una base automatizada, basada en metadatos, que asigna puntuaciones de calidad de datos a los activos y mejora la curaduría a través de reglas de Automatización listas para usar para simplificar la gestión de la calidad de los datos.

Con capacidades de observabilidad de los datos, IBM puede ayudar a las organizaciones a detectar y resolver problemas dentro de los pipelines de datos más rápido. La asociación con Manta para capacidades automatizadas de linaje de datos permite a IBM ayudar a los clientes a encontrar, rastrear y prevenir problemas más cerca de la fuente.

Soluciones relacionadas
IBM StreamSets

Cree y gestione canalizaciones de datos de streaming inteligentes a través de una interfaz gráfica intuitiva, y facilite una integración de datos fluida en entornos híbridos y multinube.

Explorar StreamSets
IBM watsonx.data™

watsonx.data le permite escalar los analytics y la IA con todos sus datos, residan donde residan, a través de un almacén de datos abierto, híbrido y gestionado.

Descubra watsonx.data
Servicios de consultoría en datos y analytics

Desbloquee el valor de los datos empresariales con IBM Consulting, y construya una organización impulsada por insights que ofrezca ventajas empresariales.

Descubra los servicios de analytics
Dé el siguiente paso

Diseñe una estrategia de datos que elimine los silos de datos, reduzca la complejidad y mejore la calidad de los datos para ofrecer experiencias excepcionales a clientes y empleados.

Explore las soluciones de gestión de datos Descubra watsonx.data