En resumen, sí. Cuando hablamos de integridad de los datos, nos referimos a la integridad, precisión, coherencia, accesibilidad y seguridad generales de los datos de una organización. Juntos, estos factores determinan la fiabilidad de los datos de la organización. La calidad de los datos utiliza esos criterios para medir el nivel de integridad de los datos y, a su vez, su fiabilidad y aplicabilidad para el uso previsto. La calidad de los datos y la integridad son vitales para una organización basada en datos que emplea análisis para tomar decisiones empresariales, ofrece acceso de autoservicio a los datos para las partes interesadas internas y ofrece ofertas de datos a los clientes.
Boletín del sector
Manténgase al día sobre las tendencias más importantes e intrigantes del sector en materia de IA, automatización, datos y mucho más con el boletín Think. Consulte la Declaración de privacidad de IBM.
Su suscripción se enviará en inglés. Encontrará un enlace para darse de baja en cada boletín. Puede gestionar sus suscripciones o darse de baja aquí. Consulte nuestra Declaración de privacidad de IBM para obtener más información.
Para lograr un alto nivel de integridad de los datos, una organización implementa procesos, reglas y estándares que rigen cómo se recopilan, almacenan, acceden, editan y utilizan los datos. Estos procesos, reglas y estándares funcionan en conjunto para:
Una organización puede utilizar cualquier cantidad de herramientas y entornos de nube pública o privada a lo largo del ciclo de vida de los datos para mantener la integridad de los datos a través de algo conocido como gobierno de datos. Se trata de la práctica de crear, actualizar y aplicar de forma coherente los procesos, reglas y estándares que evitan errores, pérdida de datos, corrupción de datos, mal manejo de datos sensibles o regulados y vulneraciones de datos.
Una organización con un alto nivel de integridad de datos puede:
Una buena integridad de los datos también puede mejorar los resultados de las decisiones empresariales al aumentar la precisión de los análiss de una organización. Cuanto más completo, preciso y coherente sea un conjunto de datos, más informados estarán la inteligencia empresarial y los procesos empresariales. Como resultado, los líderes están mejor equipados para establecer y alcanzar resultados que beneficien a su organización e impulsen la confianza de los empleados y consumidores.
Las tareas de ciencia de datos, como el machine learning, también se benefician enormemente de una buena integridad de los datos. Cuando un modelo de machine learning subyacente se entrena con registros de datos que son fiables y precisos, mejor será ese modelo para hacer predicciones empresariales o automatizar tareas.
Hay dos categorías principales de integridad de datos: integridad física de datos e integridad lógica de datos.
La integridad física de los datos es la protección de la integridad de los datos (es decir, que no falte información importante), la accesibilidad y la precisión mientras los datos están almacenados o en tránsito. Los desastres naturales, los cortes de energía, los errores humanos y los ciberataques plantean riesgos para la integridad física de los datos.
La integridad lógica de los datos se refiere a la protección de la coherencia y la integridad de los datos mientras las diferentes partes interesadas y las aplicaciones acceden a ellos en todos los departamentos, disciplinas y ubicaciones. La integridad lógica de los datos se logra:
La seguridad de datos es un subcomponente de la integridad de los datos y se refiere a las medidas adoptadas para prevenir el acceso no autorizado a datos o la manipulación de datos. Los protocolos y herramientas de seguridad de datos eficaces contribuyen a una sólida integridad de los datos. En otras palabras, la seguridad de datos es el medio, mientras que la integridad de los datos es el objetivo. La recuperabilidad de los datos (en caso de una violación, ataque, corte de energía o interrupción del servicio) entra en el ámbito de la seguridad de datos.
Los errores humanos, los errores de transferencia, los actos maliciosos, la seguridad insuficiente y el mal funcionamiento del hardware contribuyen a los "datos incorrectos", lo que afecta negativamente a la integridad de los datos de una organización. Una organización que se enfrenta a uno o más de estos problemas corre el riesgo de tener una experiencia:
Los datos de baja calidad conducen a una mala toma de decisiones debido a análisis inexactos y mal informados. La reducción de la calidad de los datos puede resultar en pérdidas de productividad, disminución de los ingresos y daños a la reputación.
Los datos que no están debidamente protegidos corren un mayor riesgo de sufrir una vulneración de datos o de perderse debido a un desastre natural u otro suceso imprevisto. Y sin un conocimiento y un control adecuados de la seguridad de datos, una organización puede incumplir más fácilmente las normativas locales, regionales y globales, como el Reglamento General de Protección de Datos de la Unión Europea.
La calidad de los datos es esencialmente la medida de la integridad de los datos. La precisión, integridad, coherencia, validez, singularidad y puntualidad de un conjunto de datos son las medidas de calidad de los datos que las organizaciones emplean para determinar la utilidad y eficacia de los datos para un caso de uso empresarial determinado.
Los analistas de calidad de datos evaluarán un conjunto de datos utilizando las dimensiones enumeradas anteriormente y asignarán una puntuación general. Cuando los datos ocupan un lugar destacado en todas las dimensiones, se consideran datos de alta calidad que son fiables y de confianza para el caso de uso o la aplicación previstos. Para medir y mantener datos de alta calidad, las organizaciones utilizan reglas de calidad de los datos, también conocidas como reglas de validación de datos, para garantizar que los conjuntos de datos cumplan con los criterios definidos por la organización.
Los usuarios empresariales y los científicos de datos no tienen que perder tiempo localizando o formateando datos en sistemas dispar. En su lugar, pueden acceder fácilmente a los conjuntos de datos y analizarlos con mayor confianza. Se ahorra tiempo adicional que, de otro modo, se habría desperdiciado actuando sobre datos incompletos o inexactos.
Dado que los datos tienen un formato coherente y están contextualizados para el usuario o la aplicación, las organizaciones pueden obtener valor de datos que, de otro modo, podrían haberse descartado o ignorado.
Los datos de alta calidad eliminan las incongruencias entre sistemas y departamentos y garantizan la coherencia de los datos en todos los procesos y procedimientos. La colaboración y la toma de decisiones entre las partes interesadas mejoran porque todas se basan en los mismos datos.
Los datos de alta calidad son fáciles de localizar y acceder. Como no hay necesidad de volver a crear o rastrear conjuntos de datos, se reducen los costes de mano de obra y es menos probable que se produzcan errores en la introducción manual de datos. Y como los datos de alta calidad son fáciles de almacenar en el entorno correcto, así como de recopilar y compilar en informes obligatorios, una organización puede garantizar mejor el cumplimiento y evitar sanciones normativas.
Los datos de alta calidad proporcionan conocimientos más precisos y profundos que una organización puede utilizar para ofrecer una experiencia más personalizada e impactante a empleados y clientes.
Para determinar la calidad de los datos y asignar una puntuación general, los analistas evalúan un conjunto de datos utilizando estas seis dimensiones, también conocidas como características de los datos:
Cuanto más alta sea la puntuación de un conjunto de datos en cada una de estas dimensiones, mayor será su puntuación general. Una puntuación general alta indica que un conjunto de datos es fiable, de fácil acceso y relevante.
Algunos métodos e iniciativas comunes que utilizan las organizaciones para mejorar la calidad de los datos incluyen:
La elaboración de perfiles de datos, también conocida como evaluación de la calidad de los datos, es el proceso de auditar los datos de una organización en su estado actual. Esto se hace para descubrir errores, imprecisiones, lagunas, datos incoherentes, duplicaciones y barreras de accesibilidad. Cualquier número de herramientas de calidad de los datos se puede utilizar para perfilar conjuntos de datos y detectar anomalías en los datos que necesitan corrección.
La limpieza de datos es el proceso de remediar los problemas de calidad de los datos y las incoherencias descubiertas durante la creación de perfiles de datos. Esto incluye la deduplicación de conjuntos de datos, para que no existan involuntariamente varias entradas de datos en varias ubicaciones.
Este es el proceso de conformar activos de datos dispar y big data no estructurado en un formato coherente que garantiza que los datos estén completos y listos para su uso, independientemente de la fuente de datos. Para estandarizar los datos, se aplican reglas empresariales para garantizar que los conjuntos de datos se ajusten a los estándares y las necesidades de una organización.
La geocodificación es el proceso de añadir metadatos de ubicación a los conjuntos de datos de una organización. Al etiquetar los datos con coordenadas geográficas para rastrear su origen, dónde han estado y dónde residen, una organización puede garantizar que se cumplen los estándares de datos geográficos nacionales y globales. Por ejemplo, los metadatos geográficos pueden ayudar a una organización a garantizar que su gestión de los datos de los clientes cumpla con el RGPD.
Este es el método de identificar, fusionar y resolver datos duplicados o redundantes.
Para mantener una buena calidad de los datos, es necesaria una gestión continua de los mismos. La monitorización de la calidad de los datos es la práctica de revisar conjuntos de datos previamente puntuados y reevaluarlos en función de las seis dimensiones de la calidad de los datos. Muchos analistas de datos utilizan un panel de control de calidad de los datos para visualizar y realizar un seguimiento de los KPI.
Se trata de la implementación de reglas de validación de datos en todas las aplicaciones y tipos de datos a escala para garantizar que todos los conjuntos de datos se adhieran a estándares específicos. Esto se puede hacer periódicamente como un proceso por lotes, o de forma continua en tiempo real a través de procesos como la captura de datos modificados.
La gestión de datos maestros (MDM) es el acto de crear y mantener un registro centralizado de la organización donde todos los datos se catalogan y se rastrean. Esto proporciona a la organización una única ubicación para ver y evaluar rápidamente sus conjuntos de datos, independientemente de dónde residan esos datos o de su tipo. Por ejemplo, los datos de los clientes, la información de la cadena de suministro y los datos de marketing residirían en un entorno de MDM.
IBM ofrece una amplia gama de capacidades integradas de calidad de los datos y gobierno de datos, incluida la creación de perfiles de datos, la limpieza de datos, la monitorización de datos, la coincidencia de datos y el enriquecimiento de datos para garantizar que los consumidores de datos tengan acceso a datos de alta calidad y fiables. La solución de gobierno de datos de IBM ayuda a las organizaciones a establecer una base automatizada, basada en metadatos, que asigna puntuaciones de calidad de datos a los activos y mejora la curación mediante reglas de automatización listas para usar para simplificar la gestión de la calidad de los datos.
Con las capacidades de observabilidad de los datos, IBM puede ayudar a las organizaciones a detectar y resolver problemas dentro de los pipelines de datos más rápido. La asociación con Manta para las capacidades automatizadas de linaje de datos permite a IBM ayudar a los clientes a encontrar, rastrear y prevenir problemas más cerca de la fuente.
Cree y gestione canalizaciones de datos de streaming inteligentes a través de una interfaz gráfica intuitiva, y facilite una integración de datos fluida en entornos híbridos y multinube.
Watsonx.data le permite escalar la analítica y la IA con todos sus datos, residan donde residan, a través de un almacén de datos abierto, híbrido y gobernado.
Desbloquee el valor de los datos empresariales con IBM Consulting, y construya una organización impulsada por conocimientos que ofrezca ventajas empresariales.