A diferencia de los errores introducidos en el punto de recopilación de datos, la obsolescencia es producto del tiempo. Los datos se vuelven obsoletos a medida que cambian las condiciones que describen, degradando gradualmente la calidad y la puntualidad de los datos.
Los datos obsoletos no se anuncian. Persisten en toda la infraestructura de datos y los sistemas de inteligencia artificial (IA), influyendo silenciosamente en las decisiones mucho después de que su precisión haya caducado. Un informe de 2025 del IBM Institute for Business Value (IBV) encontró que el 43 % de los directores de operaciones identifica problemas de calidad de datos como su prioridad de datos más significativa.1
A medida que las organizaciones aumentan su dependencia de los datos para analytics e IA, las consecuencias de operar con datos obsoletos se han vuelto demasiado grandes para ignorarlas: oportunidades perdidas, ineficiencias operativas y confianza erosionada en los sistemas que sustentan la toma de decisiones.
Manténgase al día sobre las tendencias más importantes e intrigantes de la industria sobre IA, automatización, datos y más con el boletín Think. Consulte la Declaración de privacidad de IBM.
Los datos se vuelven obsoletos cuando las condiciones del mundo real que representan evolucionan más rápido de lo que se actualizan los datos en sí. Esto puede suceder gradualmente a través de la deriva rutinaria en los datos de los clientes, o abruptamente a través de eventos que hacen que los conjuntos de datos existentes queden obsoletos de la noche a la mañana (como la crisis financiera de 2008, la COVID-19 o los aranceles).
Comprender la causa principal de la obsolescencia de los datos es esencial para mitigarla. Varios factores contribuyen a la obsolescencia de los datos:
Cuando los datos no se recopilan o actualizan con frecuencia, pueden producirse discrepancias entre lo que reflejan los datos y lo que realmente es cierto. Un trabajo semanal de procesamiento por lotes que impulsa un sistema de decisión en tiempo real, por ejemplo, sería un desajuste estructural que lleva a resultados poco confiables.
Incluso en sistemas diseñados para la velocidad, los datos deben pasar por capas de ingesta, transformación y almacenamiento antes de ser utilizables. Cada etapa introduce retrasos. En entornos de baja latencia, como los sistemas de procesamiento transaccional, esos retrasos son mínimos. En arquitecturas complejas de múltiples saltos, crean cuellos de botella que pueden acumularse en un rezago significativo, especialmente cuando se trata de procesos ETL o sincronización entre fuentes de datos distribuidas.
Las organizaciones pueden acumular datos que eran relevantes en el momento de la recopilación de datos, pero que nunca se actualizan. Estos datasets siguen siendo accesibles, incluso consultables, sin ninguna indicación de que la información que contienen haya caducado. En algunos casos, los datos obsoletos siguen activos simplemente porque no existen políticas de retención ni procedimientos de archivo que permitan identificarlos o eliminarlos.
Cuando los sistemas ascendentes cambian su estructura o lógica sin propagar esos cambios descendentes, los datos que llegan pueden ser técnicamente actuales, pero estar semánticamente desalineados. Las interfaces de programación de aplicaciones (API) que no están versionadas o se mantienen de forma congruente pueden introducir discrepancias silenciosas entre las fuentes de datos y los flujos de trabajo posteriores.
Los sistemas que utilizan el almacenamiento en caché para optimizar el rendimiento pueden, sin quererlo, proporcionar datos obsoletos si la lógica de invalidación de la caché no está configurada correctamente. Sin umbrales definidos para cuándo se deben actualizar o descartar los datos almacenados en caché, la información obsoleta puede persistir mucho más tiempo de lo previsto.
Los datos obsoletos no existen de forma aislada. Es una de las facetas de un problema más amplio relacionado con la calidad de los datos, vinculado a cuestiones de exactitud, exhaustividad y coherencia, pero distinto de ellas. Un conjunto de datos puede estar completo y ser coherente internamente, pero aun así ser obsoleto. Por el contrario, la actualidad de los datos por sí sola no es suficiente si los datos subyacentes son inexactos.
Lo que distingue la obsolescencia de los datos de otras dimensiones de calidad es su relación con el tiempo y la puntualidad. Todos los problemas de calidad de los datos degradan la confianza e introducen riesgos. Pero los datos obsoletos lo hacen de una manera particular. Crean la apariencia de confiabilidad sin su esencia: los sistemas continúan funcionando; las decisiones se siguen tomando. La falla es silenciosa y acumulativa, en lugar de inmediata y visible, lo que convierte a la observabilidad y la eficiencia operativa en objetivos inseparables para cualquier programa serio de gestión de datos.
El riesgo que suponen los datos obsoletos va más allá de los informes inexactos o los paneles estancados. Más de una cuarta parte de las empresas calculan que pierden más de 5 millones de dólares al año debido a la mala calidad de los datos. En los entornos de datos modernos, particularmente aquellos construidos en torno a la IA y la automatización, los datos obsoletos pueden propagarse a escala, influyendo en sistemas que nunca fueron diseñados para cuestionar la actualidad de los datos de sus entradas. Los riesgos potenciales incluyen:
Se espera que los modelos entrenados con datos históricos se generalicen a las condiciones actuales. Cuando los datos de entrenamiento son obsoletos, el algoritmo aprende patrones que quizá ya no sean válidos. Las investigaciones del IBV muestran que casi la mitad (45 %) de los líderes empresariales citan la precisión y el sesgo de los datos como una de las principales barreras para escalar iniciativas de IA.
El problema se agrava aún más en los sistemas de generación aumentada por recuperación (RAG, por sus siglas en inglés), en los que la base de conocimientos se consulta en tiempo real. Si el almacén de datos subyacente no se mantiene actualizado, incluso un pipeline de RAG bien diseñado recuperará el contexto obsoleto y lo mostrará como una respuesta confiable.
Según el estudio From AI Projects to Profits de IBV, se espera que los flujos de trabajo habilitados por IA se multipliquen por ocho, del 3 % en 2024 al 25 % a finales de 2026. A medida que esos sistemas crecen, también lo hacen las consecuencias de utilizar entradas obsoletas.
Los flujos de datos y los sistemas de IA agéntica están diseñados para actuar sobre los datos, no para analizarlos. Aunque existen medidas de seguridad para detectar errores estructurales y problemas de esquema, la obsolescencia es más difícil de detectar. Los datos pueden llegar con el formato correcto y seguir reflejando condiciones inexactas.
Cuando los datos obsoletos ingresan a un flujo de trabajo automatizado, desencadenan una acción: los modelos de precios se ajustan; las recomendaciones surgen; las señales de fraude se disparan (o no). La automatización hace exactamente lo que fue diseñada para hacer, bajo una premisa que ya no es cierta.
Los casos individuales de datos obsoletos pueden parecer inofensivos. Pero la exposición repetida a información obsoleta, como datos de clientes que no se han actualizado o datos de inventario que se retrasan por horas, se convierte en un sesgo sistemático. Los líderes toman decisiones basadas en datos frente a una realidad que ha cambiado silenciosamente, creando oportunidades perdidas que son difíciles de rastrear hasta su origen.
En las industrias reguladas, la precisión de los datos es algo más que una simple cuestión operativa. Los datos personales obsoletos o las cifras de informes desalineadas pueden exponer a las organizaciones a sanciones regulatorias y daños a la reputación bajo marcos como el Reglamento General de Protección de Datos (RGPD) y mandatos similares de gobernanza de datos. La gestión de los permisos y los controles de acceso sobre los datos obsoletos supone un riesgo adicional para la seguridad que las organizaciones suelen pasar por alto.
Las consecuencias de la obsolescencia de los datos se manifiestan de manera diferente en todas las industrias, pero el patrón es constante: los datos obsoletos llegan a un sistema que los trata como actuales y, como resultado, las decisiones se ven afectadas.
En el ámbito de la atención médica, los datos obsoletos conllevan mayores riesgos. Los registros de pacientes que carecen de actualizaciones recientes (listas de medicamentos, historiales de alergias, diagnósticos recientes) pueden dar lugar a errores clínicos. Cuando la integración de datos entre los sistemas electrónicos de registros médicos se retrasan, los equipos de atención pueden estar trabajando a partir de información obsoleta en los momentos en que las decisiones son más importantes.
En el sector de los servicios financieros, los modelos que se basan en datos de gestión de relaciones con los clientes (CRM) o en fuentes de datos de mercado son especialmente vulnerables. Un algoritmo de riesgo crediticio entrenado con datos que no reflejan las condiciones económicas actuales puede aprobar o denegar aplicaciones en función de una realidad que ya no existe. Incluso un retraso de unas horas en los datos en tiempo real puede traducirse en una exposición significativa en entornos de alta frecuencia.
En el comercio electrónico, los datos de inventario obsoletos pueden hacer que los clientes compren artículos que ya no están en stock, lo que desencadena fallas en el cumplimiento y erosiona la confianza del cliente. Cuando la disponibilidad o los precios de los productos no se sincronizan en tiempo real entre las distintas plataformas, las repercusiones se extienden tanto a las operaciones como a la experiencia del cliente. Scott Brokaw, vicepresidente de integración de datos de IBM, expuso recientemente el panorama en Think:
Debido a que los datos obsoletos rara vez fallan de forma ruidosa, detectarlos requiere instrumentación deliberada en lugar de una resolución reactiva de problemas. Los acuerdos de nivel de servicio (SLA) para la latencia de datos pueden ayudar a formalizar las expectativas sobre cómo deben ser los datos actuales antes de que se consideren aptos para su uso. Estos acuerdos son especialmente importantes en los sistemas de toma de decisiones automatizados y en los entornos de datos en tiempo real, donde incluso un retraso mínimo puede afectar negativamente los resultados.
La observabilidad de los datos (la práctica de supervisar, gestionar y mantener los datos en toda la infraestructura de datos de una organización) es fundamental para esta iniciativa. Con ese fin, las organizaciones suelen seguir varias métricas:
La investigación de IBV encontró que las empresas con grandes almacenes de datos confiables vieron casi el doble de retorno de la inversión en sus capacidades de IA. Para las organizaciones que construyen sistemas de IA o automatizan flujos de trabajo en entornos distribuidos, tratar la actualidad de los datos como una dimensión de calidad de primera clase es clave para operar con precisión y a escala.
Dicho esto, la prevención es más efectiva que la corrección. Las siguientes prácticas pueden ayudar a las organizaciones a mitigar la prevalencia y el impacto de los datos obsoletos y optimizar su infraestructura de datos para la actualidad:
Los requisitos de actualidad a menudo se definen en la etapa de diseño del pipeline. Eso significa seleccionar patrones de ingesta (procesamiento por lotes, transmisión o híbridos) basados en la tasa de cambio en las fuentes de datos, no solo en los costos de almacenamiento de información o la convención arquitectónica.
Los conjuntos de datos suelen contener metadatos que indican cuándo se actualizaron por última vez y a qué nivel de actualidad pertenecen. Las marcas de tiempo, los horarios de actualización de datos y los marcadores de linaje pueden hacerse visibles para los usuarios posteriores, ya sea un analista humano que revisa los paneles o un flujo de trabajo automatizado que actúa sobre los nuevos datos. Esta visibilidad ayuda a los usuarios a evaluar la aptitud antes de actuar sobre los datos.
En lugar de depender de procesos manuales para mantener los datos actualizados, las organizaciones pueden definir ventanas de vencimiento automatizadas y reglas de archivado. Si los datos permanecen más allá de su umbral de actualidad, se pueden marcar, poner en cuarentena o actualizar. Las políticas de retención también se pueden aplicar en todas las fuentes de datos para reducir los costos de almacenamiento y los riesgos de seguridad asociados con la acumulación de datos obsoletos.
Los programas de gobernanza de datos que abordan la actualidad de los datos junto con otras dimensiones de calidad como la precisión y la congruencia proporcionan a las organizaciones una base estructurada para gestionar la obsolescencia de datos a gran escala. Las políticas de gobierno deben especificar umbrales de actualidad aceptables por caso de uso, asignar la propiedad para mantenerlos y establecer procedimientos claros para la integración y sincronización de datos entre sistemas.
Las herramientas de observabilidad brindan a los equipos visibilidad en tiempo real del estado de sus pipelines de datos. Al monitorear las tasas de ingesta, la latencia de transformación y las actualizaciones de datos en toda la pila, las organizaciones pueden detectar y resolver problemas de actualidad antes de que afecten a los paneles, los modelos de machine learning o los flujos de trabajo del negocio. El monitoreo de procesos ETL, la validación de API y las alertas automáticas sobre información obsoleta pueden contribuir a una estrategia de gestión de datos más resiliente.
En el caso concreto de los sistemas de IA, el control de la calidad de los datos debe abarcar también los datos de entrada que se utilizan en el momento de la inferencia, y no solo los conjuntos de datos usados durante el entrenamiento. El monitoreo continuo de los valores de características, el contexto recuperado y las entradas del modelo puede ayudar a detectar cuándo la actualidad de los datos se degradó hasta el punto de que las salidas del modelo ya no pueden ser confiables. Esto es especialmente crítico en los sistemas con agentes donde los datos obsoletos pueden desencadenar acciones automatizadas a escala.
Cree y gestione canalizaciones de datos de streaming inteligentes a través de una interfaz gráfica intuitiva, y facilite una integración de datos fluida en entornos híbridos y multinube.
watsonx.data le permite escalar los analytics y la IA con todos sus datos, residan donde residan, a través de un almacén de datos abierto, híbrido y gestionado.
Desbloquee el valor de los datos empresariales con IBM Consulting, y construya una organización impulsada por insights que ofrezca ventajas empresariales.
1 “The 2025 CDO Study: The AI multiplier effect.” IBM Institute for Business Value. 12 de noviembre de 2025