¿Qué son datos erróneos?

By Alexandra Jonker , Tom Krantz

Definición de datos erróneos

Los datos erróneos se refieren a la información que compromete la toma de decisiones porque es inexacta, está incompleta, es incongruente, está obsoleta o duplicada, es inválida o tiene sesgo .

Las causas de los datos erróneos varían. A veces se debe a una arquitectura de datos deficiente; otras veces es el resultado de un error humano. Independientemente del origen, cuando las organizaciones utilizan involuntariamente datos incorrectos, las consecuencias pueden variar desde inconvenientes menores, como enviar documentos fiscales a la dirección incorrecta, hasta riesgos graves, como incumplimiento normativo, daños a la reputación y pérdidas financieras.

Un peligro único de los datos erróneos reside en su sigilo. A diferencia de una interrupción del sistema, los efectos de los datos erróneos pueden pasar desapercibidos hasta que se produce un daño significativo. Las organizaciones pueden estar trabajando con datos erróneos durante años sin darse cuenta. Por ejemplo, un equipo de ventas se daría cuenta de inmediato si su panel de Salesforce no se carga, pero tardaría mucho más en darse cuenta de que los datos mostrados eran incorrectos.

A medida que los volúmenes de big data se disparan y los líderes empresariales dependen cada vez más de los datos para impulsar la inteligencia artificial (IA) y la toma de decisiones, maximizar la calidad de los datos es más importante que nunca. A través de una sólida gobernanza de datos, prácticas de gestión de calidad de datos y herramientas de observabilidad de los datos, las organizaciones pueden ayudar a garantizar que sus activos de datos fomenten el crecimiento, en lugar de convertirse en pasivos invisibles.

Las últimas noticias tecnológicas, respaldadas por los insights de expertos

Manténgase al día sobre las tendencias más importantes e intrigantes de la industria sobre IA, automatización, datos y más con el boletín Think. Consulte la Declaración de privacidad de IBM.

Tipos de datos erróneos

Los datos erróneos pueden clasificarse, a grandes rasgos, según las dimensiones clave de la calidad de los datos:

Datos inexactos
Datos incompletos
Datos incongruentes
Datos obsoletos
Datos duplicados
Datos inválidos
Datos con sesgo

Datos inexactos

La precisión de los datos mide en qué grado estos reflejan fielmente los acontecimientos y valores del mundo real. Cuando los datos son inexactos, contienen errores y no son confiables para la toma de decisiones. Por ejemplo, los datos inexactos de los clientes (como puntos de datos sobre precios) pueden distorsionar la comprensión de una empresa sobre su audiencia y llevar a acciones equivocadas que erosionan las tasas de satisfacción del cliente.

Datos incompletos

A los datos incompletos les faltan los registros y valores necesarios, deficiencias que afectan el procesamiento y análisis de datos. Una deficiencia grande puede incluso introducir sesgo, ya que los resultados del análisis pueden no ser representativos del verdadero conjunto de datos. Por ejemplo, si a la mayoría de las entradas en una base de datos de clientes les falta información de contacto, los equipos de ventas perderán oportunidades para interactuar con sus clientes.

Datos incoherentes

Los datos incoherentes carecen de estandarización y, en gran medida, son incompatibles entre los distintos conjuntos de datos y sistemas. Las discrepancias en los formatos de fecha, las convenciones de nomenclatura y las unidades de medida pueden generar confusión entre los usuarios, crear silos de datos dentro de plataformas específicas e introducir errores en los informes o análisis.

Datos obsoletos

Los datos obsoletos son información que ya no está actualizada, lo que puede hacer que los responsables de la toma de decisiones utilicen información irrelevante que no representa las condiciones del mundo real. La actualidad de los datos es un indicador que muestra con qué frecuencia se actualiza la información de la base de datos. Los intervalos significativamente largos entre actualizaciones pueden provocar estancamiento de los datos.

Datos duplicados

Los datos duplicados (o datos redundantes) se refieren a entradas repetidas en un conjunto de datos: los datos únicos solo aparecen una vez. Puede sesgar el análisis al sobrerrepresentar ciertos valores de datos o tendencias. (Es importante tener en cuenta que existen casos de uso para la redundancia intencional de datos en el diseño de bases de datos para garantizar una alta disponibilidad, integridad y coherencia de los datos.

Datos inválidos

Los datos inválidos son información que no se ajusta a las reglas del sistema o del negocio (como rangos de valores permitidos, formatos requeridos y tipos de datos definidos). Los ejemplos incluyen datos que contienen un carácter especial no admitido o números de teléfono formateados sin guiones requeridos.

Datos con sesgo

Aunque el sesgo no es en sí mismo una dimensión de la calidad de los datos, es un factor importante que los stakeholders deben considerar, ya que influye en varias de las dimensiones. Los datos con sesgo están distorsionados o no son representativos de eventos, poblaciones y condiciones reales. Pueden derivar en resultados injustos, inexactos y poco confiables, y cuando se utilizan en sistemas de machine learning (ML) e IA, puede tener graves consecuencias para las personas, las organizaciones y la sociedad.

Academia de IA

¿Es la gestión de datos el secreto de la IA generativa?

Explore por qué los datos de alta calidad son esenciales para el uso exitoso de la IA generativa.

Ir al episodio

¿Qué consecuencias tiene el uso de datos erróneos?

Los datos erróneos son la antítesis de los datos adecuados. Mientras que los datos de alta calidad promueven el crecimiento y la innovación, los datos de mala calidad ralentizan el progreso.

Las organizaciones dependen de los datos para tomar decisiones informadas, obtener insights aplicables en la práctica y realizar pronósticos tanto para las operaciones internas como para las experiencias del cliente. Las decisiones basadas en datos erróneos pueden provocar oportunidades perdidas, ineficiencias operativas y reputaciones dañadas. En industrias como las finanzas o la atención médica, donde los datos ayudan a tomar decisiones de alto riesgo, los datos erróneos pueden tener impactos graves o incluso catastróficos.

Considere un estudio clínico que contiene datos incongruentes de pacientes. Los investigadores tendrían dificultades para comparar los resultados, lo que podría retrasar el desarrollo de posibles tratamientos. En finanzas, los datos inexactos o faltantes pueden generar elevados costos de cumplimiento. Los informes financieros inexactos pueden dar lugar a infracciones de normativas como la Ley Sarbanes-Oxley (SOX), que pueden conllevar multas de hasta 1 millón de dólares y hasta 10 años de prisión.

Los riesgos de datos erróneos escalan en el contexto de la inteligencia artificial. Cuando los modelos de IA o machine learning (ML) se entrenan con datos inexactos, incoherentes o con sesgo, sus resultados reflejan esos errores. Para maximizar las inversiones en IA y ML, las organizaciones deben asegurarse de que sus datos estén preparados para la IA.

Unity Technologies es un ejemplo claro de las consecuencias de los datos erróneos en IA y ML. En 2022, el algoritmo de colocación publicitaria de la empresa de videojuegos ingirió datos erróneos de un gran cliente. El rendimiento del algoritmo se vio tan afectado que tuvieron que volver a desarrollarlo. El incidente contribuyó a una caída del 37 % en las acciones de Unity y a un impacto estimado de 110 millones de dólares en el negocio.

Por otro lado, contar con datos de calidad y precisos puede ser una gran ventaja para las iniciativas de IA. Una investigación del IBM Institute for Business Value encontró que las organizaciones con datos confiables obtuvieron casi el doble de retorno de la inversión de sus capacidades de IA. En resumen: los datos adecuados son una prioridad innegociable para cualquier estrategia basada en IA o en datos.

¿Qué causa los datos erróneos?

No existe una causa principal de datos erróneos. Puede deberse a la tecnología, a los procesos o a las personas; y, por lo general, se trata de una combinación de varios factores. Algunas causas comunes de mala calidad de los datos incluyen:

Fallas del sistema
Degradación de datos
Recopilación de datos poco confiables
Gobernanza de datos débil
Error humano
Fallas en la integración o migración de datos

Fallas del sistema

Las arquitecturas de datos mal diseñadas pueden dar lugar a silos de datos, un rendimiento lento y errores de software que merman la coherencia y la confiabilidad de los datos. Cuando los sistemas fallan, los archivos pueden corromperse o quedar incompletos, lo que da como resultado valores faltantes e imprecisiones en los procesos posteriores.

Degradación de datos

Muchos tipos de datos empresariales (como las métricas sobre el comportamiento de los consumidores) pierden vigencia si no se actualizan con regularidad. Cuando las bases de datos están desactualizadas, cualquier insight o decisión basado en los datos resulta obsoleta y probablemente inexacta.

Recopilación de datos poco confiables

Los datos erróneos pueden tener su origen en el momento de la recopilación, y no solo en fuentes o proveedores de datos de mala calidad. Los sesgos, los métodos incoherentes, las herramientas defectuosas o las mediciones inexactas durante la entrada y el procesamiento de datos pueden comprometer la calidad de los datos.

Gobernanza de datos débil

Como disciplina, la gobernanza de datos define y aplica políticas, normas y procedimientos para todo el ciclo de vida de los datos. Cuando estas prácticas se aplican de manera incongruente o sin responsabilidad, la calidad de los datos se erosiona rápidamente.

Error humano

El error humano es una causa frecuente de datos erróneos. Los errores tipográficos durante la entrada manual de datos, la programación de datos incoherentes, los sesgos o las interpretaciones erróneas pueden derivar en inexactitudes de los datos. El error humano se ve exacerbado por las presiones de tiempo, la capacitación inadecuada y los sistemas mal diseñados.

Fallas en la integración o migración

La migración o integración de datos sin los procesos, la planificación y la tecnología adecuados pueden resultar en pérdidas, incongruencias e inexactitudes de datos. Estos problemas a menudo surgen de formatos y estructuras de datos que no coinciden o de dependencias no observadas.

Cómo evitar los datos erróneos

En un mundo ideal, los datos erróneos se detectarían en el origen y nunca llegarían a los sistemas posteriores ni a los flujos de trabajo de analytics de datos. Sin embargo, en realidad, la calidad de los datos puede degradarse en cualquier punto de su ciclo de vida y por muchas razones diferentes.

La prevención de datos erróneos en todas las etapas requiere una estrategia integral que aborde los riesgos en cada fase. Esta estrategia puede incorporar las siguientes prácticas:

Gobernanza y estrategia
Monitoreo y visibilidad
Limpieza y corrección
Habilidades y alfabetización en datos

Gobernanza y estrategia

Establecer una gobernanza de datos sólida es un primer paso fundamental para prevenir datos erróneos. Define y aplica las políticas, estándares y procedimientos necesarios para mantener datos precisos y de alta calidad a lo largo de su ciclo de vida. Los sólidos marcos de gobernanza pueden ayudar a las organizaciones a identificar y abordar las imprecisiones antes de que influyan en la toma de decisiones y la eficiencia operativa.

Una gobernanza eficaz de los datos debe complementar y mejorar la estrategia de datos más amplia de una organización. Por lo general, funciona junto con otras disciplinas, como gestión de datos, seguridad de datos y arquitectura de datos, para mantener los datos congruentes y confiables.

Monitoreo y visibilidad

No se pueden arreglar datos erróneos si no se sabe que existen. Las organizaciones pueden utilizar varios procesos para obtener información sobre el estado de sus datos y supervisarlo de forma continua:

Linaje de datos: estas herramientas ofrecen una visión clara de cómo se mueven y cambian los datos (y sus metadatos) a lo largo de su ciclo de vida, incluyendo su origen y su destino final. La visibilidad del linaje de datos facilita el análisis de causa principal y el cumplimiento normativo.
Auditorías de datos: la revisión y el análisis periódicos de los datos de la empresa ayudan a crear una visión general del entorno de datos. Las auditorías ayudan a las organizaciones a identificar, clasificar y supervisar sus datos para detectar riesgos, inexactitudes e incongruencias.
Elaboración de perfiles de datos: el proceso de elaboración de perfiles de datos analiza los datos para obtener insight sobre su estructura y calidad, de modo que los equipos puedan planificar las medidas correctivas. Normalmente lo realizan ingenieros de datos que usan una variedad de reglas de negocio y algoritmos analíticos.
Observabilidad de los datos: más allá de la supervisión tradicional, las herramientas de observabilidad de los datos utilizan la automatización y la inteligencia para identificar, diagnosticar y resolver problemas relacionados con los datos casi en tiempo real, antes de que puedan afectar las operaciones comerciales.

Limpieza y corrección

Una vez identificadas los errores en los datos y sus causas principales, se deben corregir los datos incorrectos. Los procesos de limpieza de datos sirven para resolver problemas comunes relacionados con la calidad de los datos, como registros duplicados, valores faltantes, incongruencias, errores sintácticos, datos irrelevantes y errores estructurales. Entre las técnicas más comunes se encuentran la estandarización, el tratamiento de los valores atípicos y los valores faltantes, la deduplicación y la validación de datos.

Los equipos de datos utilizan cada vez más la IA para automatizar y optimizar varios de estos pasos, especialmente tareas como la estandarización y la deduplicación.

Habilidades y alfabetización en datos

Las organizaciones alfabetizadas en datos tienen las habilidades para leer, comprender y usar datos y comunicarse con ellos para una mejor toma de decisiones. La capacidad de evaluar críticamente los datos también mejora la calidad general de los datos: los empleados con habilidades de datos incluso rudimentarias están mejor equipados para reconocer sesgos, incongruencias, imprecisiones o valores faltantes.

Alexandra Jonker

Staff Editor

IBM Think

Tom Krantz

Staff Writer

IBM Think

Representación 3D de una espiral de varios iconos alineados, como una cámara, una perilla de volumen y un portapapeles

Lea la guía del líder de datos para saber cómo puede hacer que los datos de su organización estén preparados para IA.

Recursos

Representación 3D de varios iconos alineados, como un micrófono y una cámara

Los agentes de IA funcionan con datos. ¿Están listos los suyos?

Sus datos son su ventaja competitiva. Aprenda a desbloquear de forma segura y a generar un retorno de la inversión (ROI) medible de la IA en este breve seminario web.

Explicación de la gestión de datos

Techsplainers de IBM desglosa los aspectos esenciales de los datos para la IA, desde conceptos clave hasta casos de uso del mundo real. Los episodios claros y rápidos le ayudan a aprender los fundamentos rápidamente.

Representación 3D de varios iconos alineados, como una perilla de volumen y un portapapeles

Unifique y acceda a sus datos para ayudar a escalar su IA

Descubra por qué el camino hacia los datos preparados para la IA a menudo comienza con el acceso efectivo a datos estructurados y no estructurados y los desafíos que pueden obstaculizar a los líderes de datos.

Gastos generales legales convertidos en insights estratégicos

Descubra cómo un agente legal impulsado por IA ayuda a acelerar la toma de decisiones, reducir el trabajo manual y mejorar el cumplimiento.

AI Academy: creación de una estrategia de datos para la IA empresarial

En este episodio, Cathy Reese explica cómo las organizaciones de hoy necesitan una estrategia de datos que esté lista para la IA avanzada, lo que requerirá que aprovechen sus activos de datos de la más alta calidad.

Representación 3D de varios iconos alineados, como una cámara y aviones de papel

El lakehouse de datos híbrido y abierto para la IA

Simplifique el acceso a los datos y automatice su gobernanza. Descubra el poder de integrar una estrategia de lakehouse de datos en su arquitectura de datos, incluida la optimización de costos de sus cargas de trabajo y el escalado de IA y analytics, con todos sus datos, en cualquier lugar.

Informe del costo de una filtración de datos 2025

Los costos de la filtración de datos alcanzaron un nuevo máximo. Obtenga insights actualizados sobre las amenazas de ciberseguridad y sus impactos financieros en las organizaciones.

Representación 3D de dos líneas de varios íconos, como una cámara, una perilla de volumen y un portapapeles

La guía del líder de datos preparados para IA

Comprenda los pasos aplicables en la práctica que los líderes de datos pueden tomar para superar los desafíos de los datos, establecer los fundamentos para una base de datos confiable y ayudar a preparar los datos de su organización para la IA.

Representación 3D de varios íconos alineados, como una cámara, una perilla de volumen y un portapapeles

Cómo los altos ejecutivos están convirtiendo la información en impacto

Explore los insights de 1700 CDO en este informe de industrias para líderes de datos.

Soluciones relacionadas

IBM StreamSets

Cree y gestione canalizaciones de datos de streaming inteligentes a través de una interfaz gráfica intuitiva, y facilite una integración de datos fluida en entornos híbridos y multinube.

Explorar StreamSets

IBM watsonx.data™

watsonx.data le permite escalar los analytics y la IA con todos sus datos, residan donde residan, a través de un almacén de datos abierto, híbrido y gestionado.

Descubra watsonx.data

Servicios de consultoría en datos y analytics

Desbloquee el valor de los datos empresariales con IBM Consulting, y construya una organización impulsada por insights que ofrezca ventajas empresariales.

Descubra los servicios de analytics

Dé el siguiente paso

Diseñe una estrategia de datos que elimine los silos de datos, reduzca la complejidad y mejore la calidad de los datos para ofrecer experiencias excepcionales a clientes y empleados.