¿Qué son los datos obsoletos?

Datos obsoletos, definidos

Los datos obsoletos son información que está desactualizada, no está alineada con las condiciones actuales o que ya no es adecuada para su propósito original. También conocida como información obsoleta o datos antiguos, representa uno de los desafíos más generalizados y poco abordados de la gestión de datos moderna.


A diferencia de los errores que se introducen en el momento de recopilar los datos, el estancamiento es producto del tiempo. Los datos se vuelven obsoletos a medida que cambian las condiciones que describen, degradando gradualmente la calidad y la puntualidad de los datos.

Los datos obsoletos no se anuncian. Persisten en toda la infraestructura de datos y los sistemas de inteligencia artificial (IA), e influyen silenciosamente en las decisiones mucho después de que su precisión haya dejado de ser válida. Según un informe de 2025 elaborado por el IBM Institute for Business Value (IBV), el 43 % de los directores de operaciones considera que los problemas relacionados con la calidad de los datos son su principal prioridad.1

A medida que las organizaciones dependen cada vez más de los datos para el análisis y la IA, las consecuencias de trabajar con información obsoleta se han vuelto demasiado graves como para ignorarlas: se pierden oportunidades, hay ineficiencias operativas y se reduce la confianza en los sistemas que sustentan la toma de decisiones.

Causas de los datos obsoletos

Los datos quedan obsoletos cuando las condiciones del mundo real que representan evolucionan más rápido de lo que tardan en actualizarse. Esta obsolescencia puede ser gradual, debido a cambios habituales en los datos de los clientes, o repentina, a raíz de acontecimientos que dejan obsoletos los conjuntos de datos existentes de la noche a la mañana, como la crisis financiera de 2008, la pandemia de la COVID-19 o los aranceles.

Comprender la causa raíz del estancamiento de los datos es esencial para mitigarlo. Hay varios factores que contribuyen al estancamiento de los datos:

Desajustes en la frecuencia de actualización

Cuando los datos no se recopilan o actualizan con frecuencia, pueden producirse discrepancias entre lo que reflejan los datos y lo que realmente es cierto. Un trabajo semanal de procesamiento por lotes que alimenta un sistema de decisiones en tiempo real, por ejemplo, sería una descoordinación estructural que conduce a outputs poco fiables.

Latencia del pipeline

Incluso en sistemas diseñados para la velocidad, los datos deben pasar por capas de ingesta, transformación y almacenamiento antes de ser utilizables. Cada etapa conlleva retrasos. En entornos de baja latencia, como los sistemas de procesamiento transaccional, esos retrasos son mínimos. En arquitecturas complejas de múltiples saltos, generan cuellos de botella que pueden acumularse y provocar retrasos considerables, sobre todo cuando intervienen procesos ETL o la sincronización entre fuentes de datos distribuidas.

Conjuntos de datos abandonados u olvidados

Las organizaciones pueden acumular datos que eran relevantes en el momento de la recopilación de datos, pero que nunca se actualizan. Estos conjuntos de datos siguen estando disponibles (e incluso se pueden consultar) sin que haya ningún indicio de que la información que contienen haya caducado. En algunos casos, los datos obsoletos permanecen activos simplemente porque no existen políticas de retención o procedimientos de archivo para marcarlos o eliminarlos.

Desviación del esquema y de la fuente

Cuando los sistemas de origen modifican su estructura o lógica sin propagar esos cambios a los sistemas posteriores, los datos que llegan pueden estar técnicamente actualizados, pero semánticamente desalineados. Las interfaces de programación de aplicaciones (API) que no se versionan o no se mantienen de forma coherente pueden generar discrepancias ocultas entre las fuentes de datos y los flujos de trabajo posteriores.

Almacenamiento en caché sin controles de caducidad

Los sistemas que utilizan el almacenamiento en caché para optimizar el rendimiento pueden proporcionar, sin querer, datos obsoletos si la lógica de invalidación de la caché no está configurada correctamente. Si no se definen umbrales que indiquen cuándo deben actualizarse o eliminarse los datos almacenados en caché, la información obsoleta puede permanecer mucho más tiempo del previsto.

AI Academy

¿Es la gestión de datos el secreto de la IA generativa?

Explore por qué los datos de alta calidad son esenciales para el uso satisfactorio de la IA generativa.

Los peligros de los datos obsoletos

Los datos obsoletos no son un fenómeno aislado. Constituyen una de las dimensiones de un problema más amplio relacionado con la calidad de los datos y vinculado a cuestiones como la exactitud, la exhaustividad y la coherencia, aunque son distintos de ellos. Un conjunto de datos puede ser completo e internamente coherente y, al mismo tiempo, estar obsoleto. Por el contrario, la actualidad de los datos por sí sola no es suficiente si los datos subyacentes son inexactos.

Lo que distingue la obsolescencia de los datos de otras dimensiones de la calidad es su relación con el tiempo y la actualidad. Cualquier problema relacionado con la calidad de los datos merma la confianza y genera riesgos. Pero los datos obsoletos lo hacen de una manera concreta. Dan una apariencia de fiabilidad sin que esta exista realmente: los sistemas siguen funcionando; se siguen tomando decisiones. El fracaso es silencioso y acumulativo en lugar de inmediato y visible, lo que hace que la observabilidad y la eficacia operativa sean objetivos inseparables para cualquier programa serio de gestión de datos.

El riesgo que plantean los datos obsoletos va más allá de los informes inexactos o los paneles de control desactualizados. Más de una cuarta parte de las empresas calcula que pierde más de 5 millones de dólares al año debido a la mala calidad de los datos. En los entornos de datos actuales, especialmente en aquellos basados en la IA y la automatización, los datos obsoletos pueden propagarse a escala y afectar a sistemas que nunca se diseñaron para cuestionar la actualidad de la información que reciben. Los riesgos potenciales incluyen:

  • Los sistemas de machine learning amplifican el problema
  • Los flujos de trabajo automatizados heredan el estancamiento
  • La toma de decisiones se erosiona gradualmente
  • Los riesgos de cumplimiento aumentan con el tiempo

Los sistemas de machine learning amplifican el problema

Se espera que los modelos que se basan en datos históricos se generalicen a las condiciones actuales. Cuando los datos de entrenamiento están desactualizados, el algoritmo aprende patrones que quizá ya no sean válidos. Las investigaciones del IBV muestran que casi la mitad (45 %) de los líderes empresariales citan la precisión y el sesgo de los datos como una de las principales barreras para escalar iniciativas de IA.

El problema se agrava en los sistemas de generación aumentada por recuperación (RAG), donde la base de conocimientos se consulta en tiempo real. Si el almacén de datos subyacente no se mantiene actualizado, incluso un pipeline RAG bien diseñado recuperará contexto desactualizado y lo mostrará como una respuesta segura.

Los flujos de trabajo automatizados heredan la obsolescencia

Según el estudio From AI Projects to Profits del IBV, se espera que los flujos de trabajo habilitados para IA se multipliquen por ocho, del 3 % en 2024 al 25 % a finales de 2026. A medida que esos sistemas se amplían, también lo hacen las consecuencias de las entradas obsoletas.

Los pipelines de datos y los sistemas de IA agéntica se construyen para actuar sobre los datos, no para interrogarlos. Aunque existen medidas de seguridad para detectar errores estructurales y problemas de esquema, la falta de actualización es más difícil de detectar. Los datos pueden llegar correctamente formateados y aun así reflejar condiciones inexactas.

Cuando los datos obsoletos entran en un flujo de trabajo automatizado, se desencadena una acción: los modelos de precios se ajustan; las recomendaciones salen a la luz; las señales de fraude se disparan (o no se activan). La automatización hace exactamente lo que se diseñó para hacer, con una premisa que ya no es cierta.

La toma de decisiones se erosiona gradualmente

Los casos individuales de datos obsoletos pueden parecer inofensivos. Pero la exposición repetida a información anticuada, como datos de clientes que no se han actualizado o datos de inventario con un retraso de horas, agrava el sesgo sistemático. Los líderes toman decisiones basadas en datos frente a una realidad que ha cambiado silenciosamente, creando oportunidades perdidas que son difíciles de rastrear hasta su origen.

Los riesgos de cumplimiento aumentan con el tiempo

En los sectores regulados, la precisión de los datos es más que una preocupación operativa. Los datos personales desactualizados o las cifras informativas desalineadas pueden exponer a las organizaciones a sanciones reglamentarias y a dañar su reputación en marcos como el Reglamento General de Protección de Datos (RGPD) y mandatos similares de gobierno de datos. La gestión de permisos y controles de acceso sobre datos obsoletos añade otra capa de riesgo para la seguridad que las organizaciones suelen pasar por alto.

Ejemplos reales de datos obsoletos

Las consecuencias de la obsolescencia de los datos se manifiestan de forma diferente en los distintos sectores, pero el patrón es coherente: los datos obsoletos llegan a un sistema que los trata como actuales y, como resultado, las decisiones se resienten.

En la atención sanitaria, los datos obsoletos conllevan mayores riesgos. La falta de actualizaciones recientes en el historial de los pacientes (listas de medicamentos, historiales de alergias, diagnósticos recientes) puede provocar errores clínicos. Cuando la integración de datos entre sistemas de historiales electrónicos de salud se retrasa, los equipos de atención pueden trabajar a partir de información desactualizada en los momentos en que las decisiones más importantes.

En el sector de los servicios financieros, los modelos basados en datos de gestión de la relación con el cliente (CRM) o en fuentes de información de mercado son especialmente vulnerables. Un algoritmo de riesgo crediticio entrenado con datos que no reflejan las condiciones económicas actuales puede aprobar o denegar aplicaciones basándose en una realidad que ya no existe. Incluso un retraso de horas en los datos en tiempo real puede traducirse en una exposición significativa en entornos de alta frecuencia.

En el comercio electrónico, los datos de inventario obsoletos pueden hacer que los clientes compren artículos que ya no están en stock, lo que provoca fallos de cumplimiento y erosiona la confianza de los clientes. Cuando la disponibilidad o los precios de los productos no se sincronizan en tiempo real entre las distintas plataformas, las repercusiones afectan tanto a las operaciones como a la experiencia del cliente. Scott Brokaw, vicepresidente de integración de datos de IBM, pintó recientemente el panorama en Think:

Detección y medición de la obsolescencia de los datos

Dado que los datos obsoletos rara vez provocan fallos evidentes, su detección requiere una supervisión planificada, en lugar de una resolución de problemas reactiva. Los acuerdos de nivel de servicio (SLA) para la latencia de los datos pueden ayudar a formalizar las expectativas sobre cómo deben ser los datos actuales antes de que se consideren aptos para su uso. Estos acuerdos son especialmente importantes en los sistemas de decisión automatizados y en los entornos de datos en tiempo real, en los que incluso un retraso modesto puede degradar los resultados.

La observabilidad de los datos, la práctica de monitorizar, gestionar y mantener los datos en toda la infraestructura de datos de una organización, es fundamental para este esfuerzo. Con ese fin, las organizaciones suelen seguir varias métricas:

  • Marcas de tiempo y cadencia de actualización: la medida más sencilla del estancamiento es el intervalo entre el momento en que los datos se actualizaron por última vez y el momento en que se están utilizando. Establecer umbrales y avisar cuando se superan es un paso fundamental en muchos programas de calidad de los datos. Las marcas de tiempo en los conjuntos de datos y en los registros individuales permiten sacar a la luz datos antiguos antes de que influyan en los resultados.
  • Seguimiento de linaje y procedencia: las herramientas de linaje de datos permiten rastrear la información hasta su origen y entender cuándo se produjo cada transformación en el pipeline. Cuando surgen problemas relacionados con la actualidad de los datos, los registros de linaje permiten un diagnóstico más rápido y una corrección más específica.
  • Detección de anomalías en los patrones de datos: el seguimiento estadístico puede revelar el estancamiento de forma indirecta. Cuando un conjunto de datos que se actualiza con frecuencia muestra una meseta inesperada, o cuando las métricas posteriores se desvían de los datos iniciales, a menudo es señal de que los datos han dejado de fluir o se han quedado estancados en un estado obsoleto. Las comprobaciones de validación en puntos clave de los pipelines de datos pueden detectar estos problemas antes de que lleguen a la producción.

Cómo evitar datos obsoletos

La investigación del IBV descubrió que las empresas con grandes almacenes de datos fiables vieron casi el doble de retorno de la inversión en sus capacidades de IA. Para las organizaciones que construyen sistemas de IA o automatizan flujos de trabajo en entornos distribuidos, tratar la actualidad de los datos como una dimensión de calidad de primera clase es clave para operar con precisión y a escala.

Dicho esto, la prevención es más eficaz que la corrección. Las siguientes prácticas pueden ayudar a las organizaciones a mitigar la prevalencia y el impacto de los datos obsoletos y a optimizar su infraestructura de datos para que estén actualizados:

Diseñar pipelines teniendo en cuenta la actualidad de los datos

Los requisitos de actualidad suelen definirse en la fase de diseño del pipeline. Esto significa elegir los modelos de ingesta (procesamiento por lotes, en tiempo real o híbrido) en función de la velocidad de cambio de las fuentes de datos y no solo de los costes de almacenamiento o de las convenciones arquitectónicas.

Implementar metadatos actualizados

Los conjuntos de datos suelen contener metadatos que indican cuándo se actualizaron por última vez y a qué nivel de frescura pertenecen. Las marcas de tiempo, los calendarios de actualización de datos y los marcadores de linaje pueden hacerse visibles para los consumidores posteriores, ya sea un analista humano que revisa los paneles de control o un flujo de trabajo automatizado que actúa sobre los nuevos datos. Esta visibilidad ayuda a los usuarios a evaluar la condición física antes de actuar sobre los datos.

Automatizar las políticas de actualización y caducidad de datos

En lugar de depender de procesos manuales para mantener los datos actualizados, las organizaciones pueden definir ventanas de caducidad y reglas de archivo automatizadas. Si los datos superan el umbral de vigencia, pueden marcarse, ponerse en cuarentena o actualizarse. Las políticas de retención también se pueden aplicar en todas las fuentes de datos para reducir los costes de almacenamiento y los riesgos de seguridad asociados con la acumulación de datos obsoletos.

Aplicar marcos de gobierno de datos

Los programas de gobierno de datos que abordan la actualidad de los datos junto con otras dimensiones de calidad como la precisión y la coherencia proporcionan a las organizaciones una base estructurada para gestionar la obsolescencia de los datos a escala. Las políticas de gobierno deben especificar los umbrales de vigencia aceptables por caso de uso, asignar la propiedad para mantenerlos y establecer procedimientos claros para la integración y sincronización de los datos en todos los sistemas.

Invertir en la observabilidad de los datos

Las herramientas de observabilidad dan a los equipos una visibilidad en tiempo real del estado de sus pipelines de datos. Al monitorizar las tasas de ingesta, la latencia de transformación y las actualizaciones de datos en toda la pila, las organizaciones pueden detectar y resolver problemas relacionados con la actualidad de los datos antes de que afecten a los paneles de control, los modelos de machine learning o los flujos de trabajo empresariales. La monitorización de ETL, la validación de API y las alertas automáticas sobre información obsoleta pueden contribuir a una postura de gestión de datos más resiliente.

Monitorice continuamente las entradas de IA

Para los sistemas de IA en concreto, la monitorización de la calidad de los datos debe extenderse a las entradas consumidas en el momento de la inferencia, no solo a los conjuntos de datos utilizados durante el entrenamiento. La monitorización de los valores de características, el contexto recuperado y las entradas del modelo pueden ayudar a detectar cuándo la actualidad de los datos se ha degradado hasta el punto de que los outputs del modelo ya no son fiables. Esto es especialmente crítico en los sistemas agénticos, donde los datos obsoletos pueden desencadenar acciones automatizadas a escala.

Autores

Tom Krantz

Staff Writer

IBM Think

Alexandra Jonker

Staff Editor

IBM Think

Soluciones relacionadas
IBM StreamSets

Cree y gestione canalizaciones de datos de streaming inteligentes a través de una interfaz gráfica intuitiva, y facilite una integración de datos fluida en entornos híbridos y multinube.

Explore StreamSets
IBM watsonx.data

Watsonx.data le permite escalar la analítica y la IA con todos sus datos, residan donde residan, a través de un almacén de datos abierto, híbrido y gobernado.

Descubra watsonx.data
Servicios de asesoramiento sobre datos y análisis

Desbloquee el valor de los datos empresariales con IBM Consulting, y construya una organización impulsada por conocimientos que ofrezca ventajas empresariales.

Descubra los servicios de análisis
De el siguiente paso

Diseñe una estrategia de datos que elimine los silos, reduzca la complejidad y mejore la calidad de los datos para ofrecer experiencias excepcionales a clientes y empleados.

  1. Explore las soluciones de gestión de datos
  2. Descubra watsonx.data
Notas a pie de página

1 “The 2025 CDO Study: The AI multiplier effect". IBM Institute for Business Value. 12 de noviembre de 2025