Los datos se encuentran en el centro de la empresa moderna. Determinan las estrategias empresariales, influyen en la toma de decisiones y sustentan todo, desde los modelos de precios hasta la automatización. A medida que las organizaciones dependen cada vez más del big data y del análisis en tiempo real para impulsar sus iniciativas de inteligencia artificial (IA), el impacto de la mala calidad de los datos se ha vuelto imposible de ignorar.
Un informe de 2025 del IBM Institute for Business Value (IBV) descubrió que el 43 % de los directores de operaciones identifican los problemas de calidad de los datos como su prioridad de datos más importante.1 Y por una buena razón: más de una cuarta parte de las organizaciones estiman que pierden más de 5 millones de dólares al año debido a la mala calidad de los datos, y el 7 % informa pérdidas de 25 millones de dólares o más.
Sin embargo, la mala calidad de los datos a menudo pasa desapercibida porque su impacto rara vez aparece en el punto de falla. En cambio, aparece en sentido descendente como pérdida de ingresos, ineficiencias, riesgos de incumplimiento y oportunidades perdidas. Ese retraso es lo que hace que la mala calidad de los datos sea especialmente peligrosa. Influye gradualmente en los conjuntos de datos y los sistemas, determinando las decisiones estratégicas mucho antes de que se identifiquen el problema y sus causas principales.
Este efecto insidioso se vuelve aún más importante en el ámbito actual impulsado por IA, particularmente con el auge de la IA generativa. Investigaciones adicionales de IBM IBV muestran que la calidad y la gobernanza de los datos se encuentran entre los principales desafíos que frenan la adopción de la IA. Las preocupaciones sobre la precisión o el sesgo de los datos se clasifican como una barrera principal para escalar las iniciativas de IA, reportadas por casi la mitad (45 %) de los líderes empresariales.
La razón es simple: los sistemas de IA heredan y amplifican los problemas de calidad de los datos. Cuando esos datos son incongruentes, están incompletos, tienen sesgo o están desactualizados, tanto los modelos como los agentes basados en ellos son menos precisos y propensos a propagar problemas a escala. En cambio, las organizaciones con infraestructuras maduras de calidad de datos y gobernanza tienen más probabilidades de llevar los casos de uso de la IA del piloto a la producción, manteniendo el valor a lo largo del tiempo.
Manténgase al día sobre las tendencias más importantes e intrigantes de la industria sobre IA, automatización, datos y más con el boletín Think. Consulte la Declaración de privacidad de IBM.
Los datos de mala calidad se producen cuando los conjuntos de datos no cumplen con los requisitos de una operación empresarial específica. Incluso los datos que parecen precisos y completos pueden funcionar como “datos malos” si no son adecuados para su propósito, lo que significa que no son compatibles con el caso de uso, el flujo de trabajo o el resultado de la IA que está destinado a habilitar.
Esa falla puede deberse a una variedad de problemas, incluidos datos inexactos, campos de datos incompletos, formatos de datos incongruentes o puntos de datos faltantes. Incluso pequeños errores humanos al ingresar información de contacto (ya sea un número de teléfono mal escrito o datos de dirección no válidos) pueden propagarse en etapas posteriores. Estas discrepancias pueden generar registros duplicados o datos faltantes durante las primeras etapas de la recopilación e integración de datos, lo que debilita el análisis de datos, reduce el rendimiento de la IA y, en última instancia, afecta los resultados de negocio.
A menudo, los problemas relacionados con la calidad de los datos se describen utilizando dimensiones tales como la precisión, la integridad, la puntualidad y la coherencia de los datos. Estas dimensiones son importantes, pero no cuentan la historia completa. Confiar solo en ellas es como depender de una balanza ligeramente descalibrada: cada lectura individual parece razonable, pero los pequeños errores se acumulan y conducen a decisiones erróneas.
Los indicadores comunes de datos de calidad deficiente o baja incluyen incongruencia entre las fuentes de datos, datos faltantes de clientes, datos obsoletos o conjuntos de datos que no se pueden rastrear hasta los propietarios de datos críticos. A medida que aumenta el volumen de datos, estos problemas se acumulan: la calidad de los datos se ve mermada, se introducen ineficiencias en las iniciativas de gestión de datos de la organización y el rendimiento de la IA se degrada.
Las organizaciones que buscan optimizar los analytics de datos, la automatización y la IA enfrentan desafíos que van mucho más allá de los errores de datos tradicionales. Las preocupaciones de ayer, como los paneles sesgados y los sistemas aislados, siguen siendo importantes. Pero hoy, el auge de los sistemas de IA agéntica y los flujos de trabajo autónomos conlleva un nuevo nivel de riesgo. Estos sistemas se basan en datos confiables y bien gobernados no solo para el entrenamiento, sino para cada interacción: respuestas fundamentadas, acciones desencadenantes e información para tomar decisiones en toda la empresa.
Aunque la mayoría de las organizaciones no están entrenando sus propios modelos de lenguaje grandes (LLM), una encuesta de PwC muestra que el 79 % de los encuestados está adoptando agentes de IA de alguna forma. Estos agentes pueden ir desde simples copilotos hasta aplicaciones avanzadas de generación aumentada por recuperación (RAG, por sus siglas en inglés). En estos entornos, los problemas de calidad de los datos pueden producir un comportamiento impredecible de la IA, como resultados alucinados, o provocar que los modelos se desvíen con el tiempo.
Junto con la adopción, el gasto en IA se está acelerando (se prevé que superará los 2 billones de dólares en 2026, con un crecimiento interanual del 37 %), según Gartner.2 Cuando la inversión en IA escala, el costo de la mala calidad de los datos escala con ella, lo que significa que el margen de error se reduce.
Más allá de los riesgos para la IA, las fallas en la calidad de los datos continúan creando desafíos como:
Los paneles y las herramientas de business intelligence se utilizan para guiar las decisiones estratégicas de alto riesgo. Cuando datos inexactos o incompletos sustentan esas herramientas de calidad de los datos, los líderes pueden juzgar mal el rendimiento, valorar mal las ofertas o emprender iniciativas basadas en suposiciones erróneas.
Los modelos de automatización y machine learning dependen de conjuntos de datos coherentes y validados. También reflejan y amplifican sus defectos. Cuando los datos de mala calidad ingresan a los flujos de trabajo de machine learning, sus imprecisiones, sesgos e incongruencias pueden propagarse a través de los sistemas descendentes, lo que disminuye el valor del negocio y la eficiencia operacional.
La exposición repetida a datos inexactos o incoherentes merma la confianza entre los stakeholders. Los ingenieros de datos y los equipos de datos dedican más tiempo a conciliar conjuntos de datos atrapados en silos de datos que a avanzar en iniciativas. Los usuarios empresariales empiezan a cuestionar los insights y las experiencias del cliente inevitablemente se ven afectadas.
En industrias sensibles como el cuidado de la salud, o aquellas que se rigen por regulaciones como el Reglamento General de Protección de Datos (RGPD), los datos personales inexactos o mal gobernados introducen riesgos de incumplimiento. La gobernanza de datos deficiente y los controles de validación de datos insuficientes pueden exponer a las organizaciones a auditorías, daños a la reputación y multas cuantiosas.
A pesar de su escala, cuantificar el costo de la mala calidad de los datos sigue siendo difícil porque sus efectos se distribuyen entre sistemas, equipos y tiempo. Los problemas a menudo se manifiestan como efectos secundarios: flujos de trabajo retrasados, eficiencia operativa reducida o malos resultados comerciales vinculados a insights defectuosos y deterioro de los datos.
Estas ineficiencias rara vez se registran como una métrica única. Más bien, son indicadores del costo, y cada uno refleja el tiempo invertido, o el valor o las oportunidades perdidos. La difusión del impacto hace que las pérdidas financieras resultantes sean fáciles de subestimar.
En lugar de calcular una cifra precisa en dólares, muchas organizaciones realizan auditorías de datos y rastrean varias métricas. Estas investigaciones revelan la frecuencia con la que se producen problemas de calidad de los datos y cuánto tiempo persisten. Las métricas comunes incluyen:
Tanto los incidentes recientes como los más citados ilustran cómo la mala calidad de los datos se traduce en daños medibles para las empresas.
A principios de 2022, Unity Technologies reveló que la ingesta de datos deficientes había corrompido los conjuntos de datos utilizados para entrenar modelos de machine learning relacionados con la publicidad. Las fuentes de datos defectuosas introdujeron errores en los pipelines de datos que respaldan los algoritmos predictivos de orientación y licitación. Unity informó aproximadamente 110 millones de dólares en ingresos perdidos vinculados a modelos de bajo rendimiento, iniciativas retrasadas y el costo de volver a entrenar los conjuntos de datos afectados.
En 2022, Equifax emitió calificaciones crediticias inexactas a millones de consumidores debido a valores de datos incorrectos generados por un sistema heredado. En algunos casos, los errores fueron lo suficientemente significativos como para influir en las decisiones de préstamo, exponiendo tanto a los consumidores como a los prestamistas al riesgo financiero.
Más allá del golpe a la reputación de la empresa, las consecuencias incluyeron escrutinio regulatorio, litigios de acción colectiva y un acuerdo de 725 000 dólares, una de las varias sanciones a las que se enfrentó la empresa por fallas en los informes crediticios y en el manejo de disputas.
En 2018, Samsung Securities procesó una entrada de datos no válida al intentar emitir dividendos a los empleados, lo que desencadenó por error la emisión de miles de millones de acciones duplicadas. La validación insuficiente y los controles de intervención humana en el ciclo permitieron que los valores de datos erróneos llegaran a los sistemas comerciales posteriores.
Aunque el problema se identificó en cuestión de minutos, las consecuencias fueron graves: interrupción del mercado, sanciones regulatorias, renuncias de liderazgo y una pérdida estimada de cientos de millones de dólares en valor de mercado.
Los enfoques tradicionales, como revisar la calidad de los datos exclusivamente dentro de un almacén de datos, ya no son escalables. Los sistemas de IA actuales interactúan con los datos de forma continua, no episódica, y muchos de ellos funcionan con entradas mediante transmisión o basadas en eventos.
Esta evolución significa que las organizaciones deben “desplazarse a la izquierda” en cuanto a la integridad de los datos: acercar la detección, la prevención y la corrección al momento en que se crean los datos, en lugar de esperar a que los problemas surjan posteriormente.
Contar con un sólido programa de gestión de la calidad de los datos puede ayudar a las organizaciones a evitar las consecuencias de una mala calidad de los datos. También puede crear una ventaja competitiva en una era en la que la IA y los sistemas agénticos dependen de datos confiables y en tiempo real.
Para lograr esto, las organizaciones necesitan más que arreglos aislados. En cambio, necesitan un enfoque escalable y repetible para gestionar la calidad de los datos. Al ver la calidad de los datos como un modelo operativo en lugar de una lista de verificación, las organizaciones pueden remodelar la forma en que gestionan la propiedad, el control y la responsabilidad a lo largo de todo el ciclo de vida de los datos.
Si bien no son exhaustivas, las prácticas modernas para prevenir problemas de calidad de datos incluyen:
Vivimos en una época en la que a los sistemas de IA se les pide que actúen en lugar de recomendar. Ese giro ejerce presión sobre las organizaciones para que garanticen la calidad de los datos desde el principio o se arriesguen a sufrir problemas que se agraven en todos los procesos empresariales. De cara al futuro, las empresas tendrán que ir más allá de los arreglos operacionales y en su lugar ver la calidad de los datos como un requisito previo para el éxito de la IA, no solo como una salvaguarda frente al riesgo.
Ponga en funcionamiento una IA confiable monitoreando modelos, gestionando riesgos y aplicando la gobernanza a lo largo de su ciclo de vida de IA.
Obtenga el control de sus datos con herramientas de gobernanza que mejoran la calidad, garantizan el cumplimiento y permiten analytics e IA confiables.
Establezca prácticas de IA responsables con orientación de expertos para gestionar el riesgo, cumplir con las regulaciones y poner en funcionamiento una IA confiable a escala.
1 “The 2025 CDO Study: The AI multiplier effect.” IBM Institute for Business Value, 12 de noviembre de 2025
2 “Gartner Says Worldwide AI Spending Will Total USD 1.5 Trillion in 2025.” Gartner, 17 de septiembre de 2025