Todas las organizaciones necesitan personas capaces de resolver problemas. Hablo de operadores independientes, despreciativos con el tipo de apoyo que afecta a las empresas ineficientes y con la suficiente confianza para leer entre líneas. Cuando el software demuestra este tipo de inteligencia, decimos "simplemente funciona". Cuando se trata de una empleada, decimos “simplemente ella lo entiende”.
Luego está el otro extremo del espectro, caracterizado por aplazamientos, retrasos e indecisión. A menudo un paso atrás o actuando en base a información obsoleta, estas máquinas chirriantes paralizan todo y provocan rutinariamente una de las frases más frustrantes del lenguaje de oficina: "Lo haré yo mismo".
En los próximos años se crearán y desplegarán millones de agentes de IA, y sin duda lo sabe si está leyendo este blog. Según el IBM Institute for Business Value, el 70 % de los ejecutivos encuestados dice que la IA agéntica es crítica para su estrategia futura. La pregunta es: ¿qué tipo de agentes está liberando: solucionadores de problemas o creadores de problemas?
La diferencia entre los dos se reduce a un enemigo familiar: los silos. Es demasiado tentador confirmar el sesgo de optimismo durante las condiciones ideales de la temporada piloto; cuando llega el momento del horario de mayor actividad, es decir, el despliegue en toda la empresa, las complejidades de las grandes empresas impiden el progreso. Los flujos de trabajo enredados, la gobernanza fragmentada y el acceso incongruente a los datos convierten a cada agente en un problema de mantenimiento puntual. Lo que se suponía que iba a impulsar la productividad se convierte en un importante obstáculo para esta. Llámelo ironía de la IA.
Para escalar, las organizaciones deben orquestar a todos sus agentes de forma holística, creando un listado de colaboradores de IA gobernados de forma congruente que se integren fácilmente con las herramientas existentes. Cuando la orquestación funciona, los procesos se alinean, los silos se disuelven y el potencial de la IA se convierte en resultados reales. Sin embargo, la orquestación por sí sola no bastará para ganar la carrera de la IA. Los datos son el diferenciador. Es la fuerza que hace que sus agentes (todos ellos, no solo los casos de prueba de POC) dominen su negocio con fluidez y sean lo suficientemente confiables como para actuar de forma autónoma.
Después de todo, los datos genéricos conducen a una IA genérica que habla con la misma monotonía que sus competidores. O peor aún, los datos mal gestionados pueden convertir a la IA en una carga que propaga errores más rápido y lejos que cualquier persona.
El mercado tardó demasiado en reconocer la importancia de preparar datos para la IA, un descuido que provocó que el ROI estuviera por determinarse y se manifiesta en una serie de estadísticas que demuestran que la mayoría de las organizaciones todavía están estancadas en la temporada piloto. De hecho, solo el 5 % de las organizaciones encuestadas integraron herramientas de IA en flujos de trabajo a gran escala, según un informe del MIT.
Actualmente se está produciendo una gran corrección a medida que las organizaciones invierten miles de millones en sus iniciativas de datos. Según los datos de la próxima encuesta del IBM Institute of Business Value, aproximadamente el 13 % de los presupuestos de TI se asignaron a la estrategia de datos en 2025, frente al 4 % en 2022. Del mismo modo, el 82 % de los directores de datos encuestados informan que están contratando para puestos que no existían el año pasado.
El objetivo, por supuesto, es dotar a su IA del tipo de datos patentados y confiables que hacen que su negocio sea único. Cuando usted o sus clientes dan instrucciones a su IA, esta debe devolver información contextualmente relevante que sea coherente con los objetivos, valores y obligaciones normativas de su organización. La IA agéntica aumenta aún más las apuestas. Cuando pone en marcha a un agente y lo capacita para tomar decisiones y perseguir objetivos explícitos, debe confiar en que conoce su negocio y su cultura (sus datos) a la perfección.
Para que los agentes tengan éxito, necesitan datos de calidad, que, según The Data Management Association, son datos precisos, completos, coherentes, oportunos, únicos y válidos. IBM agrega una séptima dimensión de calidad de datos, la homogeneidad, que es una medida de calidad que garantiza que datos variados puedan armonizarse para una interpretación congruente y enriquecerse para la comprensión semántica.
Mantener la calidad de los datos no es fácil, especialmente en la era de los zettabytes. Las garantías de calidad manuales requieren mucho tiempo, son propensas a errores y requieren una escala de profesionales de datos que simplemente no existe en medio de una persistente escasez de talento.
Las organizaciones han tratado de cerrar la brecha construyendo precariamente pilas de datos que se derrumban con almacenes de datos, lagos de datos y herramientas de integración. Lo parches, paneles y scripts agregan aún más sobrecarga. El enfoque ad hoc conduce con demasiada frecuencia a una deuda técnica que se acumula constantemente y de forma impredecible. La innovación pasa a un segundo plano cuando su personal de TI se queda atrapado en el simple mantenimiento, vertiendo su productividad por los rincones de su patrimonio de datos.
¿Hacia dónde vamos desde aquí?
La respuesta comienza con una capa de datos que conecta, enriquece y gobierna todas sus fuentes de datos y sirve como fuente para que los agentes de IA dominen el contexto y la voz de su organización. Con esa base, los agentes toman decisiones en las que puede confiar, acelerando los flujos de trabajo, reduciendo el riesgo e impulsando la productividad a escala.
Los metadatos son el lenguaje de esa capa. Proporciona el contexto que hace que sus datos sean fácilmente consumibles para IA o cargas de trabajo más tradicionales, como analytics e ingeniería de datos. Sin embargo, la clasificación manual no escala. El etiquetado automatizado sí lo hace, porque aplica la estructura a la velocidad de la ingestión. Captura el linaje, la sensibilidad y el significado empresarial, con supervisión humana disponible cuando sea necesario, para reducir el riesgo y acelerar las tareas posteriores, como la recuperación y el cumplimiento. En resumen, convierte activos sin procesar en conocimiento gobernado y contextual antes de que nadie lo pida.
El contexto es poderoso. En última instancia, conduce a una IA más precisa y a una toma de decisiones más segura. Sin embargo, los datos sin los permisos adecuados son un pasivo, no un activo.
Las reglas de acceso no deben estar en hojas de cálculo. Deben viajar con los datos. A medida que los activos pasan de un almacén de documentos a un lakehouse y a un trabajo de ajuste, los permisos también deberían moverse. Cuando las políticas se aplican en función de la identidad, el rol y el propósito, las personas adecuadas ven los datos correctos en el momento adecuado. Este proceso reduce el riesgo, evita la exposición accidental y evita que el cumplimiento se convierta en un simulacro de incendio.
Una gobernanza sólida es esencial, pero es solo una parte de la ecuación. La arquitectura que se encuentra debajo determina si el control se escala o se detiene. El diseño abierto e híbrido por diseño es el enfoque correcto porque la mayoría de las empresas ya abarcan múltiples nubes y entornos on-prem. Separar el almacenamiento y la computación evita migraciones costosas y las interrupciones que causan. Los formatos de archivo abiertos, como Apache Iceberg, lo hacen posible al desvincular las aplicaciones del almacenamiento, lo que permite a las herramientas leer y escribir datos en el lugar donde se encuentran, independientemente de dónde residan. También evitan el bloqueo a la base de datos de un solo proveedor. La flexibilidad no es un lujo: es una protección contra los costos descontrolados y los sistemas rígidos que no pueden adaptarse cuando cambian las prioridades. No es de extrañar entonces, que tres cuartas partes de las organizaciones esperen aumentar su uso de tecnologías de IA de código abierto, incluidos los formatos de archivos abiertos, en los próximos años, citando menores costos de implementación y mantenimiento, según un estudio de McKinsey.
Los datos no estructurados siguen siendo el gran reservorio sin explotar. Las facturas, los correos electrónicos, los registros, las imágenes, e incluso este blog contienen insights, espero, que rara vez se convierten en analytics porque están dispersos en todos los sistemas, bloqueados en formatos incompatibles y carecen de etiquetas ordenadas. La extracción manual no es un problema. Exige horas de esfuerzo humano, invita a errores y colapsa bajo el peso de los datos a escala empresarial. La automatización es la única manera de imponer orden a nivel empresarial: identificando entidades, capturando valores y estratificando semánticas que reflejen cómo habla realmente su empresa y cómo quiere aparecer en el mercado. A partir de ahí, surge un esquema que las máquinas pueden procesar y en el que los humanos y los agentes de IA pueden confiar.
Cuando estos datos enriquecidos fluyen hacia una capa de recuperación que combina texto a SQL, recuperación vectorial y consultas híbridas, los agentes dejan de adivinar. Comienzan a razonar y actuar con confianza. Los sistemas RAG tradicionales, por el contrario, a menudo tienen dificultades para comprender el contexto, lo que los hace inadecuados para el razonamiento a escala empresarial. Un enfoque unificado evita esos obstáculos, dando a los agentes la profundidad y precisión necesarias para actuar con decisión.
Convertir el caos no estructurado en claridad estructurada es un comienzo, pero la inteligencia es lo que hace útil esa claridad. Sin ella, incluso los datos mejor organizados permanecen inertes. La inteligencia de datos le da a cada activo una historia: de dónde vino, cómo cambió y quién es responsable de ello. La catalogación y el linaje no son solo limpieza; son la base de la confianza. La puntuación de calidad garantiza que los agentes no basen sus razonamientos en argumentos poco sólidos. Publicar productos de datos con términos bien definidos convierte los recursos en bruto en servicios consumibles en los que los equipos pueden confiar. Cuando un agente cita una cifra, la fuente debe estar a un clic de distancia. Cuando cambia una definición, cada sistema dependiente debe saberlo antes de tomar la siguiente decisión.
Pero la inteligencia por sí sola no es suficiente. El informe La IA en acción 2024 de IBM reveló que la complejidad de los datos, incluida la integración entre sistemas fragmentados, sigue siendo uno de los principales obstáculos para escalar la IA. Los agentes y otros sistemas que dependen de los datos necesitan una integración continua, no una única. La integración es la forma en que los datos toman forma en movimiento: se estandarizan, se enriquecen, se gobiernan y se preparan para su uso a medida que fluyen. Los pipelines deben adaptarse con cada ejecución, aprendiendo de las desviaciones y optimizando el rendimiento, el costo y la calidad. La observabilidad también importa. Cuando la integración es visible y receptiva, los sistemas posteriores (incluidos los agentes) no heredan errores silenciosos ni lógica obsoleta.
Cuando la integración y la inteligencia trabajan juntas, el resultado resulta familiar: simplemente funciona. No por suerte, sino porque la arquitectura subyacente es deliberada. Una capa de datos que conecte su patrimonio, aplique significado y gestione la gobernanza en cada movimiento, agente o no, aumenta la precisión y genera una toma de decisiones segura. Así es como se convierte una demostración prometedora en un sistema confiable. Así es como se pasa de los pilotos a la producción sin perder el hilo.
1. From AI projects to profits: How agentic AI can sustain financial returns, IBM Institute for Business Value, 9 de junio de 2025.
2. The GenAI Divide: State of AI in Business 2025, MIT Nanda, julio de 2025
3. The AI multiplier effect: Accelerate growth with decision-ready data, IBM Institute for Business Value, diciembre de 2025
4. The Six Primary Dimensions for Data Quality Assessment, DAMA United Kingdom, octubre de 2013.
5. Data quality dimensions, IBM, 17 de octubre de 2025.
6. Open source technology in the age of AI, McKinsey & Company, the Mozilla Foundation and the Patrick J. McGovern Foundation, abril de 2025.