Los agentes de IA están por todas partes. Estos sistemas realizan tareas de forma autónoma con una intervención humana limitada, a menudo de formas que apenas notamos.
Piense en los vehículos autónomos: perciben su entorno, evalúan el contexto y toman decisiones en fracciones de segundo en tiempo real. Navegan no porque alguien haya codificado todos los escenarios posibles, sino porque interpretan continuamente las señales y se adaptan a medida que cambia el entorno.
Ahora imagine llevar ese mismo nivel de inteligencia a un programa de datos empresarial. Miles de conjuntos de datos. Millones de registros. Se toman miles de millones de decisiones basadas en datos.
La gestión de datos agéntica (ADM) hace posible este nivel de orquestación. Gracias a las capacidades de toma de decisiones de los agentes con IA, las empresas están empezando a reinventar la forma en que procesan, gobiernan y utilizan sus datos.
Manténgase al día sobre las tendencias más importantes e intrigantes del sector en materia de IA, automatización, datos y mucho más con el boletín Think. Consulte la Declaración de privacidad de IBM.
La gestión de datos agéntica utiliza agentes de IA para coordinar y optimizar todo el programa de datos empresariales1. Esto incluye:
En lugar de depender de flujos de trabajo rígidos, ADM utiliza agentes especializados para llevar inteligencia a cada etapa del ciclo de vida de los datos. El sistema puede interpretar la intención, determinar qué datos y políticas están implicados y adaptar las operaciones automáticamente a medida que cambian las condiciones.
Muchas de estas capacidades están habilitadas por modelos de lenguaje de gran tamaño (LLM), que proporcionan la capa de razonamiento dentro de los agentes. Los LLM utilizan el procesamiento del lenguaje natural para interpretar la intención y traducirla en una estrategia de datos coordinada, similar a cómo herramientas como ChatGPT o Google Gemini interpretan las instrucciones. Se basan en metadatos, linaje de datos, machine learning y reglas empresariales para determinar qué datos son relevantes, cómo deben validarse y gobernarse, y cómo deben prepararse para análisis posteriores.
A partir de ahí, el sistema agéntico describe los pasos necesarios para completar la tarea de datos. Eso puede implicar acceder a fuentes, aplicar políticas, optimizar cargas de trabajo, gestionar comportamientos de almacenamiento y, en última instancia, producir resultados de confianza.
Lo que distingue la gestión de datos agéntica de la gestión de datos tradicional es que es autoadaptativa y evoluciona en función del contexto. Aprende continuamente de las señales y se ajusta a medida que cambian las condiciones, en lugar de tratar los flujos de trabajo como artefactos fijos.
Por ejemplo, un gestor de la cadena de suministro podría dar la siguiente instrucción “monitorice los feeds entrantes y resuelva los registros duplicados a medida que aparecen”. A medida que llegan nuevos pedidos, el sistema impulsado por IA interpreta la intención y adapta su plan en tiempo real, fusionando registros, señalando incoherencias y delegando tareas a los agentes a medida que cambian las condiciones.
Aunque aún es un enfoque emergente, las organizaciones ya están utilizando ADM para mejorar la fiabilidad de sus datos y la eficiencia operativa mediante:
Las empresas están generando más datos en más sistemas que nunca. Pero a medida que aumentan los volúmenes y las arquitecturas se vuelven cada vez más híbridas y distribuidas, muchas organizaciones siguen luchando por convertir esos datos complejos en perspectivas fiables y en tiempo real. De hecho, el 76 % de las empresas admiten que han tomado decisiones sin consultar datos porque era demasiado difícil acceder a ellos.
Los enfoques tradicionales de gestión de datos dependen en gran medida de la intervención manual y humana, lo que hace que sean lentos a la hora de adaptarse cuando cambian los esquemas, evolucionan las métricas o cambia la lógica operativa. La gestión de datos agéntica está ganando terreno porque aborda varias presiones sistémicas a las que los enfoques tradicionales no pueden hacer frente:
La nube híbrida, la multinube y los almacenes de datos distribuidos crean cadenas de dependencia que son difíciles de mantener. Los procesos manuales tienen dificultades para escalar cuando los conjuntos de datos y las interfaces de programación de aplicaciones (API) evolucionan a diario.
La mala calidad de los datos conlleva un coste: KPI falsos, previsiones desalineadas y datos de clientes desactualizados que afectan a los sistemas posteriores. Los riesgos se agravan, especialmente en los sectores altamente regulados, como los servicios financieros y la sanidad.
Las empresas actuales funcionan con análisis en tiempo real y sistemas de IA, que requieren datos precisos y en tiempo real para cumplir con las expectativas. Cuando los pipelines se estancan o fallan silenciosamente, aumenta la latencia, la toma de decisiones se ralentiza y la eficiencia operativa se resiente.
A medida que la demanda de datos se dispara mucho, los equipos de datos centralizados, aún dependientes de la integración y entrega manual, luchan por seguir el ritmo, lo que ralentiza cada vez más la toma de decisiones en toda la organización.
Cuando la monitorización de los datos es en gran medida manual, los problemas suelen surgir solo cuando se ven afectados los procesos posteriores, lo que obliga a los equipos de datos a dedicar un tiempo desproporcionado a la depuración reactiva en lugar de a trabajos de mayor valor.
Los programas modernos de datos también enfrentan desafíos estructurales que los enfoques manuales no pueden solucionar. Más del 50 % de las organizaciones confían en tres o más herramientas de integración de datos, lo que crea flujos de trabajo fragmentados y una lógica incoherente entre los equipos. Esa fragmentación desemboca en problemas más amplios: los controles de calidad se realizan demasiado tarde, las reglas de gobierno se desvían de un sistema a otro, las rupturas de linaje no se detectan y las definiciones semánticas no están sincronizadas. En realidad, el 77 % de las organizaciones carecen del talento necesario para gestionar tal complejidad.
Estas presiones afectan directamente a los equipos de datos. Los ingenieros dedican entre el 10 % y el 30 % de su tiempo a detectar problemas de datos y otro 10 % a 30 % a resolverlos: más de 770 horas al año por ingeniero, o más de 40 000 USD en mano de obra desperdiciada. Mientras tanto, los analistas y los usuarios empresariales esperan una media de 1 a 4 semanas para obtener los datos que necesitan porque las tareas de integración están aisladas o estancadas.
La gestión de datos agéntica representa un cambio en la forma en que las empresas garantizan la precisión, la calidad y la integridad de los datos a escala. En lugar de programar cada transformación o mantener reglas rígidas, las organizaciones pueden introducir agentes de IA para escalar la creación de pipelines, optimizar las operaciones de datos, reducir los cuellos de botella y mantener datos de alta calidad con muchas menos intervenciones manuales. Con operaciones más eficientes y datos fiables en todo el ciclo de vida, los equipos de datos pueden centrarse en la estrategia en lugar de en la repetición de tareas.
La gestión de datos agéntica aúna cuatro componentes fundamentales, cada uno de ellos impulsado por una capa coordinada de modelos de IA, agentes y tecnologías semánticas:
Cuando un usuario proporciona una instrucción o solicitud, un agente utiliza sus capacidades de razonamiento para interpretar la intención. Diseña un plan que describa los activos de datos necesarios, las normas de gobierno, las consideraciones semánticas, las validaciones y los pasos operativos. A continuación, otros agentes evalúan este plan desde sus respectivos dominios, confirmando los modelos necesarios, las reglas empresariales, el linaje, las dependencias y los metadatos del catálogo antes de comenzar cualquier acción.
Esta coordinación reduce considerablemente la necesidad de que los equipos tengan que integrar manualmente los procesos a lo largo del ciclo de vida de los datos, lo que acorta el tiempo de acceso a los datos para su análisis y alinea las operaciones de datos con los objetivos empresariales. Los agentes también pueden detectar ambigüedades y validar hipótesis, incorporando la estrategia de datos y las políticas de gobernanza directamente en el plan propuesto.
A continuación, los agentes de IA llevan a cabo el trabajo definido por el plan. Acceden a los datos de todos los sistemas y los interpretan, aplican controles de gobierno y calidad, gestionan el comportamiento del almacenamiento, ejecutan los pasos del procesamiento de datos y preparan los resultados para su consumo posterior. Los agentes también pueden optimizar el coste o la latencia, adaptar las operaciones cuando los sistemas fallan y mapear las dependencias en todo el ecosistema de datos.
Con tantos elementos en movimiento, los agentes de IA ayudan a garantizar que las operaciones de datos sigan siendo fiables a medida que evolucionan los esquemas o cambian las cargas de trabajo. Reducen las tareas repetitivas y que consumen mucho tiempo a lo largo del ciclo de vida de los datos y mejoran la escalabilidad de las iniciativas de datos empresariales.
Los sistemas de metadatos tradicionales describen la estructura mediante la captura de campos, formatos y definiciones de esquemas. Por el contrario, las bases de datos vectoriales pueden funcionar como una capa semántica, capturando el significado al representar cómo se relacionan los elementos de datos y el contexto en el que se utilizan. Uno delinea la forma; el otro revela su textura.
Las bases de datos vectoriales almacenan embeddings que representan métricas, conjuntos de datos y términos empresariales como vectores matemáticos. Esto permite a los sistemas agénticos medir la similitud, descubrir relaciones semánticas y detectar cambios en el significado, incluso cuando el esquema sigue siendo el mismo.
La capa semántica permite:
Un gobierno eficaz es fundamental para la gestión de datos. En lugar de depender de revisiones manuales, estos sistemas aplican continuamente controles de políticas, calidad y seguridad a medida que los datos avanzan a lo largo de su ciclo de vida. Las reglas de validación y las protecciones de integridad se aplican durante la ejecución para garantizar que los resultados sigan siendo precisos y fiables en todo el ecosistema de datos de la empresa.
Algunas organizaciones incluso están implementando agentes “guardianes” ligeros (pequeños agentes de supervisión que monitorizan el comportamiento y el estado de los pipelines en tiempo real) para mantener la observabilidad y sacar a la luz los problemas antes de que comprometan los flujos de trabajo posteriores. Esta supervisión añadida ayuda a mantener los pipelines automatizados rápidos, fiables y alineados con los estándares de gestión de datos de la empresa.
Estos componentes se unen en un flujo de trabajo de bucle cerrado que combina la intención humana, la planificación basada en LLM, la ejecución orquestada por IA y la validación continua validación. Una interacción típica puede parecerse a:
Aunque a menudo se enmarca como enfoques competitivos, la gestión de datos agénticos en realidad mejora la gestión de datos maestros (MDM) haciéndola más dinámica.
MDM define las entidades empresariales, establece las normas de gobierno y mantiene la coherencia en todos los sistemas de registro. Ayuda a crear un “registro de oro”, una única fuente fiable que integra datos de varias fuentes, para que todos en la organización trabajen con la misma información.
ADM operacionaliza esos fundamentos validándolos a medida que se mueven los datos, aplicándolos a todo el programa de datos y adaptándolos cuando cambian las condiciones.
Los dos enfoques difieren en varios aspectos importantes:
MDM actualiza las definiciones a través de procesos gobernados y ciclos periódicos de administración. ADM detecta los cambios a medida que se producen, como las actualizaciones de esquemas y las métricas redefinidas, y los recalibra para mantener alineados los sistemas posteriores.
MDM establece registros autorizados dentro de dominios curados como clientes, proveedores y productos. ADM extiende esa responsabilidad a todo el ecosistema, garantizando que esas definiciones sigan siendo coherentes en todos los sistemas operativos, aplicaciones y análisis.
MDM gestiona los datos en reposo, optimizando los registros mediante la coincidencia, la limpieza y la estandarización. ADM gestiona los datos en movimiento, aplicando protecciones, comprobaciones de linaje y validación semántica a medida que los datos fluyen por la organización.
MDM se basa en reglas y supervisión humana: los administradores de datos definen correspondencias, revisan las excepciones y actualizan los procesos. ADM utiliza la orquestación basada en intenciones: los agentes inteligentes interpretan los objetivos empresariales, generan un plan y ejecutan y validan de forma autónoma los flujos de trabajo.
MDM se adapta al ritmo del proceso y solo refleja los cambios una vez que se han completado los flujos de trabajo de gobernanza. ADM se adapta al ritmo del cambio, ajustando la lógica y el comportamiento de los pipelines de forma dinámica a medida que evolucionan las definiciones, los conjuntos de datos y las condiciones empresariales.
En una era de negocios en tiempo real sin fricciones, la gestión de datos está pasando de flujos de trabajo rígidos y basados en reglas a un comportamiento adaptativo y orientado a la intención. La investigación de IBM en IA, preparación de datos y modelos operativos apunta a tres cambios importantes que están moldeando este nuevo panorama de gestión de datos.
La IA agéntica lleva los flujos de trabajo más allá de los guiones estáticos y los convierte en comportamientos adaptativos y sensibles al contexto. Los pipelines responderán a los cambios en los metadatos, reglas empresariales, la carga operativa y las restricciones de gobierno, alterando su ruta de ejecución en lugar de romperse cuando cambien las condiciones.
En estas arquitecturas agénticas, los sistemas multiagente sustituyen a las plataformas monolíticas: los agentes especializados se encargan de la ingesta, la calidad, el linaje o la optimización, mientras que un agente supervisor mantiene el alineamiento con la intención y la política.
Los datos preparados para IA dependen no solo de la precisión del esquema, sino de la consistencia semántica. Los problemas de calidad de los datos actuales a menudo se deben a la deriva de esquemas, pero los problemas del futuro se deberán a la deriva semántica: significados empresariales que evolucionan sin cambios estructurales. A medida que cambien los segmentos de clientes o evolucionen las jerarquías de productos, los sistemas agénticos tendrán que detectar las incoherencias de significado, no solo de formato.
La memoria semántica, la comprensión vectorial y la validación según el contexto son cada vez más esenciales para mantener datos de IA fiable y preparados para la IA.
A medida que los modelos operativos agénticos maduran, los ingenieros de datos pasan de transformaciones de codificación manual a supervisar sistemas autónomos. Eso significa diseñar protecciones, revisar las decisiones de los agentes y resolver los casos extremos inéditos a medida que surjan.
Este cambio hace que la explicabilidad sea fundamental para el modelo: los rastros de razonamiento, los registros auditables y los puntos de control con intervención humana se convierten en requisitos imprescindibles para garantizar la confianza y el cumplimiento normativo.
Cree y gestione canalizaciones de datos de streaming inteligentes a través de una interfaz gráfica intuitiva, y facilite una integración de datos fluida en entornos híbridos y multinube.
Watsonx.data le permite escalar la analítica y la IA con todos sus datos, residan donde residan, a través de un almacén de datos abierto, híbrido y gobernado.
Desbloquee el valor de los datos empresariales con IBM Consulting, y construya una organización impulsada por conocimientos que ofrezca ventajas empresariales.
1 “Can AI Autonomously Build, Operate and Use the Entire Data Stack?” IBM Research. 8 de diciembre de 2025.