¿Qué son los datos erróneos?

Datos erróneos, definidos

Los datos erróneos se refieren a la información que compromete la toma de decisiones por ser inexacta, incoherente, inválida o estar anticuada, duplicada, o sesgada.

Las causas de los datos erróneos varían. A veces se debe a una arquitectura de datos deficiente; otras veces es el resultado de un error humano. Independientemente de su origen, cuando las organizaciones utilizan datos erróneos de forma involuntaria, las consecuencias pueden ir desde pequeños inconvenientes, como enviar documentos fiscales a una dirección equivocada, hasta riesgos graves, como el incumplimiento normativo, el daño a la reputación y las pérdidas económicas.

Uno de los principales riesgos de los datos erróneos radica en su carácter encubierto. A diferencia de una interrupción del sistema, los efectos de los datos erróneos pueden pasar desapercibidos hasta que se produzca un daño importante. Las organizaciones pueden operar sin saberlo con datos erróneos durante años. Por ejemplo, un equipo de ventas se daría cuenta inmediatamente si su panel de control de Salesforce no se carga, pero tardaría mucho más en darse cuenta de que los datos mostrados eran incorrectos.

A medida que los volúmenes de big data se disparan y los líderes empresariales dependen cada vez más de los datos para impulsar la inteligencia artificial (IA) y la toma de decisiones, maximizar la calidad de los datos es más importante que nunca. Mediante un sólido gobierno de datos y unas buenas prácticas de gestión de la calidad de los datos y herramientas de observabilidad de los datos, las organizaciones pueden ayudar a garantizar que sus activos de datos impulsen el crecimiento, en lugar de convertirse en pasivos invisibles.

Tipos de datos erróneos

Los datos erróneos se pueden clasificar en términos generales utilizando las dimensiones clave de la calidad de los datos:

  • Datos inexactos
  • Datos incompletos
  • Datos incoherentes
  • Datos obsoletos
  • Datos duplicados
  • Datos no válidos
  • Datos sesgados

Datos inexactos

La precisión de los datos mide hasta qué punto los datos reflejan hechos y valores verdaderos del mundo real. Cuando los datos son inexactos, contienen errores y no son fiables para la toma de decisiones. Por ejemplo, los datos inexactos de los clientes (como los datos sobre los precios) pueden distorsionar la comprensión de una empresa sobre su público y dar lugar a acciones equivocadas que erosionan los índices de satisfacción del cliente.

Datos incompletos

A los datos incompletos les faltan los registros y valores necesarios, lagunas que afectan al proceso de datos y análisis de los datos. Un vacío grande puede incluso introducir sesgos, ya que los resultados del análisis pueden no ser representativos del conjunto de datos real. Por ejemplo, si a la mayoría de las entradas de una base de datos de clientes les falta información de contacto, los equipos de ventas perderán oportunidades de captar a sus clientes.

Datos incoherentes

Los datos incoherentes carecen de estandarización y son en gran medida incompatibles entre diferentes conjuntos de datos y sistemas. Las discrepancias en los formatos de las fechas, las convenciones de nomenclatura y las unidades de medida pueden generar confusión entre los usuarios, crear silos de datos dentro de plataformas específicas e introducir errores en los informes o análisis.

Datos obsoletos

Los datos obsoletos son información que ya no está actualizada, lo que puede provocar que los responsables de la toma de decisiones utilicen información irrelevante que no representa las condiciones del mundo real. La frescura de los datos es una métrica que indica la frecuencia con la que se actualiza la información de la base de datos. Unos intervalos significativamente largos entre actualizaciones pueden derivar en estancamiento de los datos.

Datos duplicados

Los datos duplicados (o datos redundantes) se refieren a entradas repetidas en un conjunto de datos; los datos únicos solo aparecen una vez. Puede distorsionar el análisis al sobrerrepresentar ciertos valores o tendencias de datos. Es importante señalar que, en algunos casos de uso, se recurre a la redundancia intencionada de datos en el diseño de las bases de datos para garantizar la alta disponibilidad, la integridad y la coherencia de la información.

Datos no válidos

Los datos no válidos son información que no se ajusta al sistema o a las reglas empresariales (como los rangos de valores permitidos, los formatos requeridos y los tipos de datos definidos). Los ejemplos incluyen datos que contienen un carácter especial no compatible o números de teléfono formateados sin los guiones necesarios.

Datos sesgados

Aunque el sesgo no es en sí mismo una dimensión de la calidad de los datos, es un factor importante que las partes interesadas deben tener en cuenta, ya que influye en varias de las dimensiones. Los datos sesgados son sesgados o no son representativos de los acontecimientos, las poblaciones y las condiciones reales. Puede traducirse en resultados injustos, inexactos y poco fiables, y cuando se utiliza en sistemas de machine learning (ML) e IA, puede tener graves consecuencias para las personas, las organizaciones y la sociedad.

AI Academy

¿Es la gestión de datos el secreto de la IA generativa?

Explore por qué los datos de alta calidad son esenciales para el uso satisfactorio de la IA generativa.

¿Cuál es el impacto de los datos erróneos?

Los datos erróneos son la antítesis de los datos correctos. Mientras que los datos de alta calidad promueven el crecimiento y la innovación, los datos de mala calidad ralentizan el progreso.

Las organizaciones se basan en los datos para tomar decisiones informadas, obtener perspectivas útiles y hacer previsiones sobre sus operaciones internas y la experiencia de los clientes. Las decisiones basadas en datos erróneos pueden provocar oportunidades perdidas, ineficiencias operativas y reputaciones dañadas. En sectores como las finanzas o la sanidad, donde los datos ayudan a tomar decisiones importantes, los datos erróneos pueden tener un impacto grave o incluso catastrófico.

Pensemos en un estudio clínico que contenga datos de pacientes incoherentes. Los investigadores tendrían dificultades para comparar los resultados, lo que podría retrasar el desarrollo de posibles tratamientos. En el ámbito financiero, los datos inexactos o incompletos pueden acarrear elevados costes de cumplimiento normativo. Informes financieros inexactos pueden conllevar violaciones de normativas como la Ley Sarbanes-Oxley (SOX), que puede conllevar multas de hasta 1 millón de dólares y hasta 10 años de prisión.

Los riesgos de los datos erróneos aumentan en el contexto de la inteligencia artificial. Cuando modelos de IA o ML se entrenan con datos inexactos, incoherentes o sesgados, sus resultados reflejan esos errores. Para ayudar a maximizar las inversiones en IA y ML, las organizaciones deben asegurarse de que sus datos estén preparados para la IA.

Unity Technologies es un ejemplo primordial de las consecuencias de los datos erróneos en la IA y el ML. En 2022, el algoritmo de emplazamiento publicitario de la empresa de videojuegos ingirió datos erróneos de un gran cliente. El rendimiento del algoritmo se vio afectado hasta el punto de que tuvieron que reconstruirlo. El incidente contribuyó a una caída del 37 % en las acciones de Unity y a un impacto estimado de 110 millones de dólares en el negocio.

Por otro lado, unos datos correctos y precisos pueden ser una bendición para las iniciativas de IA. Una investigación del IBM Institute for Business Value descubrió que las organizaciones con datos fiables obtuvieron casi el doble de retorno de la inversión de sus capacidades de IA. En resumen: los buenos datos son una prioridad innegociable para cualquier estrategia basada en datos o en IA.

¿Cuáles son las causas de los datos erróneos?

No hay una única causa raíz de los datos erróneos. Puede deberse a la tecnología, a los procesos o a las personas; y, por lo general, se trata de una combinación de varios factores. Algunas de las causas más comunes de la mala calidad de los datos son:

  • Fallos del sistema
  • Degradación de datos
  • Recopilación de datos poco fiable
  • Gobierno de datos débil
  • Error humano
  • Integración de datos o fallos de migración
Fallos del sistema

Las arquitecturas de datos mal diseñadas pueden dar lugar a silos de datos, un rendimiento lento y errores de software que degradan la coherencia y la fiabilidad de los datos. Cuando los sistemas fallan, los archivos pueden corromperse o quedar incompletos, lo que provoca valores faltantes e imprecisiones en los procesos posteriores.

Degradación de datos

Muchos tipos de datos empresariales (como las métricas sobre el comportamiento de los consumidores) pierden su vigencia si no se actualizan periódicamente. Cuando las bases de datos están anticuadas, cualquier perspectiva o decisión basada en los datos es obsoleta y es probable que sea inexacta.

Recopilación de datos poco fiable

Los datos erróneos pueden originarse en el momento de la recopilación, y no solo de fuentes o proveedores de datos de mala calidad. Los sesgos, los métodos incoherentes, las herramientas defectuosas o las mediciones inexactas durante la introducción y el procesamiento de los datos pueden comprometer la calidad de los datos.

Gobierno de datos débil

Como disciplina, el gobierno de datos define y aplica políticas, normas y procedimientos para todo el ciclo de vida de los datos. Cuando estas prácticas se aplican de forma inconsistente o sin rendir cuentas, la calidad de los datos se deteriora rápidamente.

Error humano

Los errores humanos son una causa frecuente de datos erróneos. Los errores tipográficos durante la entrada manual de datos, la codificación incoherente de los datos, los sesgos o las interpretaciones erróneas pueden provocar inexactitudes en los datos. El error humano se agrava por la presión del tiempo, la formación insuficiente y sistemas mal diseñados.

Interrupciones de integración o migración

La migración o integración de datos sin los procesos, la planificación y la tecnología adecuados puede provocar la pérdida de datos y resultar en incoherencias e imprecisiones. Estos problemas suelen deberse a formatos y estructuras de datos incompatibles o a dependencias que pasan desapercibidas.

Cómo evitar datos erróneos

En un mundo ideal, los datos erróneos se detectarían en el origen y nunca llegarían a los sistemas posteriores ni a los flujos de trabajo de análisis de datos. En realidad, sin embargo, la calidad de los datos puede degradarse en cualquier punto de su ciclo de vida y por muchas razones diferentes.

Prevenir datos erróneos en todas las etapas requiere una estrategia integral que aborde los riesgos en cada fase. Esta estrategia puede incorporar las siguientes prácticas:

  • Gobierno y estrategia
  • Monitorización y visibilidad
  • Limpieza y corrección
  • Habilidades en datos y alfabetización

Gobierno y estrategia

Establecer un gobierno de datos sólido es un primer paso crítico para prevenir datos erróneos. Define y aplica las políticas, normas y procedimientos necesarios para mantener datos precisos y de alta calidad a lo largo de su ciclo de vida. Unos marcos de gobierno sólidos pueden ayudar a las organizaciones a identificar y abordar las imprecisiones antes de que influyan en la toma de decisiones y en la eficacia operativa.

Un gobierno de datos eficaz debe complementar y mejorar la estrategia de datos más amplia de una organización. Suele trabajar junto con otras disciplinas (como la gestión de datos, la seguridad de datos y la arquitectura de datos) para mantener la coherencia y la fiabilidad de los datos.

Monitorización y visibilidad

No puede corregir datos erróneos si no sabe que existen. Las organizaciones pueden utilizar varios procesos para obtener visibilidad y monitorizar continuamente la salud de sus datos:

  • Linaje de datos: estas herramientas proporcionan una visión clara de cómo los datos (y sus metadatos) se mueven y cambian a lo largo de su ciclo de vida, incluyendo su origen y su destino final. La visibilidad del linaje de datos favorece el análisis de causa raíz y el cumplimiento de la normativa.

  • Auditorías de datos: la revisión y el análisis periódicos de los datos empresariales ayudan a mapear una visión del entorno de datos. Las auditorías ayudan a las organizaciones a descubrir, clasificar y monitorizar sus datos para detectar riesgos, imprecisiones e inconsistencias.

  • Perfilado de datos: el proceso de perfilado de datos analiza los datos para obtener perspectivas sobre su estructura y calidad, de modo que los equipos puedan planificar su corrección. Normalmente lo realizan ingenieros de datos que utilizan una serie de reglas empresariales y algoritmos analíticos.

  • Observabilidad de los datos: más allá de la monitorización tradicional, las herramientas de observabilidad de los datos utilizan la automatización y la inteligencia para ayudar a identificar, solucionar y resolver los problemas de datos en casi en tiempo real, antes de que tengan la oportunidad de extenderse a las operaciones.

Limpieza y corrección

Una vez identificados los errores en los datos y sus causas raíz, es necesario corregir los datos erróneos. Los procesos de limpieza de datos trabajan para abordar problemas comunes de calidad de datos como registros duplicados, valores faltantes, inconsistencias, errores de sintaxis, datos irrelevantes y errores estructurales. Las técnicas habituales incluyen la normalización, el tratamiento de los valores atípicos y faltantes, la deduplicación y la validación de datos.

Los equipos de datos utilizan cada vez más la IA para automatizar y optimizar varios de estos pasos, especialmente tareas como la normalización y la deduplicación.

Habilidades y alfabetización en datos

Las organizaciones alfabetizadas en datos tienen las habilidades para leer, comprender, utilizar y comunicarse con los datos para una mejor toma de decisiones. La capacidad de evaluar críticamente los datos también mejora la calidad general de los datos: los empleados con habilidades de datos incluso rudimentarias están mejor preparados para reconocer sesgos, inconsistencias, inexactitudes o valores que faltan.

Alexandra Jonker

Staff Editor

IBM Think

Tom Krantz

Staff Writer

IBM Think

Representación en 3D de una espiral de varios iconos alineados, como una cámara, un potenciómetro de volumen y un portapapeles
Soluciones relacionadas
IBM StreamSets

Cree y gestione canalizaciones de datos de streaming inteligentes a través de una interfaz gráfica intuitiva, y facilite una integración de datos fluida en entornos híbridos y multinube.

Explore StreamSets
IBM watsonx.data

Watsonx.data le permite escalar la analítica y la IA con todos sus datos, residan donde residan, a través de un almacén de datos abierto, híbrido y gobernado.

Descubra watsonx.data
Servicios de asesoramiento sobre datos y análisis

Desbloquee el valor de los datos empresariales con IBM Consulting, y construya una organización impulsada por conocimientos que ofrezca ventajas empresariales.

Descubra los servicios de análisis
De el siguiente paso

Diseñe una estrategia de datos que elimine los silos, reduzca la complejidad y mejore la calidad de los datos para ofrecer experiencias excepcionales a clientes y empleados.

  1. Explore las soluciones de gestión de datos
  2. Descubra watsonx.data