¿Qué son datos erróneos?

Definición de datos erróneos

Los datos erróneos se refieren a la información que compromete la toma de decisiones porque es inexacta, está incompleta, es incongruente, está obsoleta o duplicada, es inválida o tiene sesgo .

Las causas de los datos erróneos varían. A veces se debe a una arquitectura de datos deficiente; otras veces es el resultado de un error humano. Independientemente del origen, cuando las organizaciones utilizan involuntariamente datos incorrectos, las consecuencias pueden variar desde inconvenientes menores, como enviar documentos fiscales a la dirección incorrecta, hasta riesgos graves, como incumplimiento normativo, daños a la reputación y pérdidas financieras.

Un peligro único de los datos erróneos reside en su sigilo. A diferencia de una interrupción del sistema, los efectos de los datos erróneos pueden pasar desapercibidos hasta que se produce un daño significativo. Las organizaciones pueden estar trabajando con datos erróneos durante años sin darse cuenta. Por ejemplo, un equipo de ventas se daría cuenta de inmediato si su panel de Salesforce no se carga, pero tardaría mucho más en darse cuenta de que los datos mostrados eran incorrectos.

A medida que los volúmenes de big data se disparan y los líderes empresariales dependen cada vez más de los datos para impulsar la inteligencia artificial (IA) y la toma de decisiones, maximizar la calidad de los datos es más importante que nunca. A través de una sólida gobernanza de datos, prácticas de gestión de calidad de datos y herramientas de observabilidad de los datos, las organizaciones pueden ayudar a garantizar que sus activos de datos fomenten el crecimiento, en lugar de convertirse en pasivos invisibles.

Tipos de datos erróneos

Los datos erróneos pueden clasificarse, a grandes rasgos, según las dimensiones clave de la calidad de los datos:

  • Datos inexactos
  • Datos incompletos
  • Datos incongruentes
  • Datos obsoletos
  • Datos duplicados
  • Datos inválidos
  • Datos con sesgo

Datos inexactos

La precisión de los datos mide en qué grado estos reflejan fielmente los acontecimientos y valores del mundo real. Cuando los datos son inexactos, contienen errores y no son confiables para la toma de decisiones. Por ejemplo, los datos inexactos de los clientes (como puntos de datos sobre precios) pueden distorsionar la comprensión de una empresa sobre su audiencia y llevar a acciones equivocadas que erosionan las tasas de satisfacción del cliente.

Datos incompletos

A los datos incompletos les faltan los registros y valores necesarios, deficiencias que afectan el procesamiento y análisis de datos. Una deficiencia grande puede incluso introducir sesgo, ya que los resultados del análisis pueden no ser representativos del verdadero conjunto de datos. Por ejemplo, si a la mayoría de las entradas en una base de datos de clientes les falta información de contacto, los equipos de ventas perderán oportunidades para interactuar con sus clientes.

Datos incoherentes

Los datos incoherentes carecen de estandarización y, en gran medida, son incompatibles entre los distintos conjuntos de datos y sistemas. Las discrepancias en los formatos de fecha, las convenciones de nomenclatura y las unidades de medida pueden generar confusión entre los usuarios, crear silos de datos dentro de plataformas específicas e introducir errores en los informes o análisis.

Datos obsoletos

Los datos obsoletos son información que ya no está actualizada, lo que puede hacer que los responsables de la toma de decisiones utilicen información irrelevante que no representa las condiciones del mundo real. La actualidad de los datos es un indicador que muestra con qué frecuencia se actualiza la información de la base de datos. Los intervalos significativamente largos entre actualizaciones pueden provocar estancamiento de los datos.

Datos duplicados

Los datos duplicados (o datos redundantes) se refieren a entradas repetidas en un conjunto de datos: los datos únicos solo aparecen una vez. Puede sesgar el análisis al sobrerrepresentar ciertos valores de datos o tendencias. (Es importante tener en cuenta que existen casos de uso para la redundancia intencional de datos en el diseño de bases de datos para garantizar una alta disponibilidadintegridad y coherencia de los datos.

Datos inválidos

Los datos inválidos son información que no se ajusta a las reglas del sistema o del negocio (como rangos de valores permitidos, formatos requeridos y tipos de datos definidos). Los ejemplos incluyen datos que contienen un carácter especial no admitido o números de teléfono formateados sin guiones requeridos.

Datos con sesgo

Aunque el sesgo no es en sí mismo una dimensión de la calidad de los datos, es un factor importante que los stakeholders deben considerar, ya que influye en varias de las dimensiones. Los datos con sesgo están distorsionados o no son representativos de eventos, poblaciones y condiciones reales. Pueden derivar en resultados injustos, inexactos y poco confiables, y cuando se utilizan en sistemas de machine learning (ML) e IA, puede tener graves consecuencias para las personas, las organizaciones y la sociedad.

Academia de IA

¿Es la gestión de datos el secreto de la IA generativa?

Explore por qué los datos de alta calidad son esenciales para el uso exitoso de la IA generativa.

¿Qué consecuencias tiene el uso de datos erróneos?

Los datos erróneos son la antítesis de los datos adecuados. Mientras que los datos de alta calidad promueven el crecimiento y la innovación, los datos de mala calidad ralentizan el progreso.

Las organizaciones dependen de los datos para tomar decisiones informadas, obtener insights aplicables en la práctica y realizar pronósticos tanto para las operaciones internas como para las experiencias del cliente. Las decisiones basadas en datos erróneos pueden provocar oportunidades perdidas, ineficiencias operativas y reputaciones dañadas. En industrias como las finanzas o la atención médica, donde los datos ayudan a tomar decisiones de alto riesgo, los datos erróneos pueden tener impactos graves o incluso catastróficos.

Considere un estudio clínico que contiene datos incongruentes de pacientes. Los investigadores tendrían dificultades para comparar los resultados, lo que podría retrasar el desarrollo de posibles tratamientos. En finanzas, los datos inexactos o faltantes pueden generar elevados costos de cumplimiento. Los informes financieros inexactos pueden dar lugar a infracciones de normativas como la Ley Sarbanes-Oxley (SOX), que pueden conllevar multas de hasta 1 millón de dólares y hasta 10 años de prisión.

Los riesgos de datos erróneos escalan en el contexto de la inteligencia artificial. Cuando los modelos de IA o machine learning (ML) se entrenan con datos inexactos, incoherentes o con sesgo, sus resultados reflejan esos errores. Para maximizar las inversiones en IA y ML, las organizaciones deben asegurarse de que sus datos estén preparados para la IA.

Unity Technologies es un ejemplo claro de las consecuencias de los datos erróneos en IA y ML. En 2022, el algoritmo de colocación publicitaria de la empresa de videojuegos ingirió datos erróneos de un gran cliente. El rendimiento del algoritmo se vio tan afectado que tuvieron que volver a desarrollarlo. El incidente contribuyó a una caída del 37 % en las acciones de Unity y a un impacto estimado de 110 millones de dólares en el negocio.

Por otro lado, contar con datos de calidad y precisos puede ser una gran ventaja para las iniciativas de IA. Una investigación del IBM Institute for Business Value encontró que las organizaciones con datos confiables obtuvieron casi el doble de retorno de la inversión de sus capacidades de IA. En resumen: los datos adecuados son una prioridad innegociable para cualquier estrategia basada en IA o en datos.

¿Qué causa los datos erróneos?

No existe una causa principal de datos erróneos. Puede deberse a la tecnología, a los procesos o a las personas; y, por lo general, se trata de una combinación de varios factores. Algunas causas comunes de mala calidad de los datos incluyen:

  • Fallas del sistema
  • Degradación de datos
  • Recopilación de datos poco confiables
  • Gobernanza de datos débil
  • Error humano
  • Fallas en la integración o migración de datos
Fallas del sistema

Las arquitecturas de datos mal diseñadas pueden dar lugar a silos de datos, un rendimiento lento y errores de software que merman la coherencia y la confiabilidad de los datos. Cuando los sistemas fallan, los archivos pueden corromperse o quedar incompletos, lo que da como resultado valores faltantes e imprecisiones en los procesos posteriores.

Degradación de datos

Muchos tipos de datos empresariales (como las métricas sobre el comportamiento de los consumidores) pierden vigencia si no se actualizan con regularidad. Cuando las bases de datos están desactualizadas, cualquier insight o decisión basado en los datos resulta obsoleta y probablemente inexacta.

Recopilación de datos poco confiables

Los datos erróneos pueden tener su origen en el momento de la recopilación, y no solo en fuentes o proveedores de datos de mala calidad. Los sesgos, los métodos incoherentes, las herramientas defectuosas o las mediciones inexactas durante la entrada y el procesamiento de datos pueden comprometer la calidad de los datos.

Gobernanza de datos débil

Como disciplina, la gobernanza de datos define y aplica políticas, normas y procedimientos para todo el ciclo de vida de los datos. Cuando estas prácticas se aplican de manera incongruente o sin responsabilidad, la calidad de los datos se erosiona rápidamente.

Error humano

El error humano es una causa frecuente de datos erróneos. Los errores tipográficos durante la entrada manual de datos, la programación de datos incoherentes, los sesgos o las interpretaciones erróneas pueden derivar en inexactitudes de los datos. El error humano se ve exacerbado por las presiones de tiempo, la capacitación inadecuada y los sistemas mal diseñados.

Fallas en la integración o migración

La migración o integración de datos sin los procesos, la planificación y la tecnología adecuados pueden resultar en pérdidas, incongruencias e inexactitudes de datos. Estos problemas a menudo surgen de formatos y estructuras de datos que no coinciden o de dependencias no observadas.

Cómo evitar los datos erróneos

En un mundo ideal, los datos erróneos se detectarían en el origen y nunca llegarían a los sistemas posteriores ni a los flujos de trabajo de analytics de datos. Sin embargo, en realidad, la calidad de los datos puede degradarse en cualquier punto de su ciclo de vida y por muchas razones diferentes.

La prevención de datos erróneos en todas las etapas requiere una estrategia integral que aborde los riesgos en cada fase. Esta estrategia puede incorporar las siguientes prácticas:

  • Gobernanza y estrategia
  • Monitoreo y visibilidad
  • Limpieza y corrección
  • Habilidades y alfabetización en datos

Gobernanza y estrategia

Establecer una gobernanza de datos sólida es un primer paso fundamental para prevenir datos erróneos. Define y aplica las políticas, estándares y procedimientos necesarios para mantener datos precisos y de alta calidad a lo largo de su ciclo de vida. Los sólidos marcos de gobernanza pueden ayudar a las organizaciones a identificar y abordar las imprecisiones antes de que influyan en la toma de decisiones y la eficiencia operativa.

Una gobernanza eficaz de los datos debe complementar y mejorar la estrategia de datos más amplia de una organización. Por lo general, funciona junto con otras disciplinas, como gestión de datos, seguridad de datos y arquitectura de datos, para mantener los datos congruentes y confiables.

Monitoreo y visibilidad

No se pueden arreglar datos erróneos si no se sabe que existen. Las organizaciones pueden utilizar varios procesos para obtener información sobre el estado de sus datos y supervisarlo de forma continua:

  • Linaje de datos: estas herramientas ofrecen una visión clara de cómo se mueven y cambian los datos (y sus metadatos) a lo largo de su ciclo de vida, incluyendo su origen y su destino final. La visibilidad del linaje de datos facilita el análisis de causa principal y el cumplimiento normativo.

  • Auditorías de datos: la revisión y el análisis periódicos de los datos de la empresa ayudan a crear una visión general del entorno de datos. Las auditorías ayudan a las organizaciones a identificar, clasificar y supervisar sus datos para detectar riesgos, inexactitudes e incongruencias.

  • Elaboración de perfiles de datos: el proceso de elaboración de perfiles de datos analiza los datos para obtener insight sobre su estructura y calidad, de modo que los equipos puedan planificar las medidas correctivas. Normalmente lo realizan ingenieros de datos que usan una variedad de reglas de negocio y algoritmos analíticos.

  • Observabilidad de los datos: más allá de la supervisión tradicional, las herramientas de observabilidad de los datos utilizan la automatización y la inteligencia para identificar, diagnosticar y resolver problemas relacionados con los datos casi en tiempo real, antes de que puedan afectar las operaciones comerciales.

Limpieza y corrección

Una vez identificadas los errores en los datos y sus causas principales, se deben corregir los datos incorrectos. Los procesos de limpieza de datos sirven para resolver problemas comunes relacionados con la calidad de los datos, como registros duplicados, valores faltantes, incongruencias, errores sintácticos, datos irrelevantes y errores estructurales. Entre las técnicas más comunes se encuentran la estandarización, el tratamiento de los valores atípicos y los valores faltantes, la deduplicación y la validación de datos.

Los equipos de datos utilizan cada vez más la IA para automatizar y optimizar varios de estos pasos, especialmente tareas como la estandarización y la deduplicación.

Habilidades y alfabetización en datos

Las organizaciones alfabetizadas en datos tienen las habilidades para leer, comprender y usar datos y comunicarse con ellos para una mejor toma de decisiones. La capacidad de evaluar críticamente los datos también mejora la calidad general de los datos: los empleados con habilidades de datos incluso rudimentarias están mejor equipados para reconocer sesgos, incongruencias, imprecisiones o valores faltantes.

Alexandra Jonker

Staff Editor

IBM Think

Tom Krantz

Staff Writer

IBM Think

Representación 3D de una espiral de varios iconos alineados, como una cámara, una perilla de volumen y un portapapeles
Soluciones relacionadas
IBM StreamSets

Cree y gestione canalizaciones de datos de streaming inteligentes a través de una interfaz gráfica intuitiva, y facilite una integración de datos fluida en entornos híbridos y multinube.

Explorar StreamSets
IBM watsonx.data™

watsonx.data le permite escalar los analytics y la IA con todos sus datos, residan donde residan, a través de un almacén de datos abierto, híbrido y gestionado.

Descubra watsonx.data
Servicios de consultoría en datos y analytics

Desbloquee el valor de los datos empresariales con IBM Consulting, y construya una organización impulsada por insights que ofrezca ventajas empresariales.

Descubra los servicios de analytics
Dé el siguiente paso

Diseñe una estrategia de datos que elimine los silos de datos, reduzca la complejidad y mejore la calidad de los datos para ofrecer experiencias excepcionales a clientes y empleados.

  1. Explore las soluciones de gestión de datos
  2. Descubra watsonx.data