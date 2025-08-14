A medida que el entusiasmo por la inteligencia artificial (IA) continúa arrasando en el mundo de los negocios, la atención se dirige a la iteración más reciente de la tecnología: los agentes de IA.
A diferencia de los modelos de IA, los agentes de IA pueden tomar decisiones sin supervisión humana constante. Trabajan de forma autónoma para lograr objetivos complejos, como responder a las preguntas de los clientes, optimizar una cadena de suministro o analizar datos de atención médica para proporcionar un diagnóstico.
En la práctica, esto significa que los agentes de IA pueden manejar flujos de trabajo completos de principio a fin, como procesar automáticamente reclamos de seguros o administrar niveles de inventario, en lugar de solo proporcionar recomendaciones.
Estimaciones recientes muestran que las organizaciones están adoptando rápidamente agentes de IA. Una encuesta de KPMG reveló que el 88 % de las organizaciones están explorando o probando activamente iniciativas de agentes de IA. 1 Gartner predice que para 2028 más de un tercio de las aplicaciones de software empresarial incluirán IA agéntica , la tecnología subyacente que habilita a los agentes de IA. 2
Sin embargo, las mismas capacidades que hacen que los agentes de IA sean tan valiosos también pueden dificultar su monitoreo, comprensión y control.
Los agentes de IA utilizan modelos de lenguaje de gran tamaño (LLM) para razonar, crear flujos de trabajo y dividir las tareas en subtareas. Acceden a herramientas externas, como bases de datos , motores de búsqueda y calculadoras, y utilizan la memoria para recordar conversaciones anteriores y resultados de tareas.
Si bien este proceso les permite trabajar de forma independiente, también las hace mucho menos transparentes que las aplicaciones tradicionales basadas en reglas y lógica explícitas y predefinidas.
Esta complejidad inherente y la falta de transparencia pueden dificultar el seguimiento de cómo los agentes de IA generan resultados específicos. Para las organizaciones, esto puede plantear riesgos graves, entre ellos:
Para mitigar estos riesgos, las organizaciones recurren cada vez más a la observabilidad de los agentes de IA para obtener insight sobre el comportamiento y el rendimiento de los agentes de IA.
La observabilidad del agente de IA es el proceso de monitoreo y comprensión de los comportamientos end-to-end de un ecosistema agentic, incluyendo cualquier interacción que el agente de IA pueda tener con modelos de lenguaje grandes y herramientas externas.
Proviene de la práctica más amplia de observabilidad, que es la capacidad de comprender el estado interno de un sistema mediante el análisis de sus datos de telemetría, es decir, sus salidas externas, como métricas, eventos, registros y rastreos, comúnmente conocidos como "datos MELT".
Con la observabilidad de los agentes de IA, las organizaciones pueden evaluar el rendimiento de los agentes mediante la recopilación de datos sobre acciones, decisiones y recursos. Ayuda a responder preguntas críticas, como:
Con estos insights, las organizaciones pueden solucionar y depurar problemas de manera más efectiva y mejorar el rendimiento y la confiabilidad de los agentes de IA.
Los sistemas multiagente utilizan múltiples agentes de IA que trabajan juntos para completar tareas complejas, como automatizar un pipeline de ventas empresarial o responder preguntas y generar tickets para un sistema de soporte de TI.
A diferencia de los sistemas de un solo agente, en los que los fallos suelen ser atribuibles a un componente concreto, los sistemas multiagente son mucho más complejos. Con tantas interacciones entre agentes autónomos de agente de IA, existe un mayor potencial de comportamiento impredecible.
La observabilidad del agente de IA proporciona insights críticos en estos sistemas multiagente. Ayuda a los desarrolladores a identificar el agente específico o la interacción responsable de un problema y proporciona visibilidad de los complejos flujos de trabajo que crean los agentes. También ayuda a identificar comportamientos y patrones colectivos que podrían escalar y causar problemas futuros.
Por ejemplo, en un sistema de reservas de viajes de múltiples agentes con agentes separados para vuelos, hoteles y alquiler de automóviles, una reserva puede fallar en cualquier momento. Las herramientas de observabilidad pueden rastrear todo el proceso de principio a fin para identificar exactamente dónde y por qué ocurrió la falla.
Muchas organizaciones utilizan soluciones de código abierto como IBM BeeAI, LangChain, LangGraph y AutoGen para crear sistemas multiagente de forma más rápida y segura. Estas soluciones proporcionan un kit de desarrollo de software (SDK) con herramientas para crear agentes de IA y una infraestructura de IA agéntica, el motor que ejecuta y coordina a los agentes.
La observabilidad del agente de IA funciona mediante la recopilación y el análisis de datos de telemetría que capturan tanto las métricas tradicionales del sistema como los comportamientos específicos de la IA. Luego, los equipos pueden usar estos datos para comprender las decisiones de los agentes, solucionar problemas y optimizar el rendimiento.
La Observabilidad del agente de IA utiliza los mismos datos de telemetría que las soluciones de Observabilidad tradicionales, pero también incluye puntos de datos adicionales únicos de los sistemas de IA generativa, como el uso de token, las interacciones de herramientas y las rutas de decisión del agente. Estas señales específicas de la IA siguen encajando en MELT (métricas, eventos, registros, trazas).
Además de las métricas de rendimiento tradicionales recopiladas por las herramientas de observabilidad estándar, como la utilización de recursos de CPU, memoria y red, las medidas de observabilidad del agente de IA:
Los tokens son las unidades de texto que los modelos de IA procesan—normalmente palabras o partes de palabras. Dado que los proveedores de IA cobran por el uso de token, el seguimiento de esta métrica afecta directamente los costos. Las organizaciones pueden optimizar el gasto monitoreando el consumo de token. Por ejemplo, si ciertas preguntas de los clientes utilizan 10 veces más tokens que otras, los equipos pueden rediseñar la forma en que los agentes manejan esas solicitudes para reducir costos.
A medida que evolucionan los datos del mundo real, los modelos de IA pueden volver menos precisos con el tiempo. El monitoreo de métricas clave de la desviación del modelo, como los cambios en los patrones de respuesta o las variaciones en la calidad de los resultados, puede ayudar a las organizaciones a detectarla temprano. Por ejemplo, un agente de detección de fraude puede volver menos efectivo a medida que los delincuentes desarrollan nuevas tácticas. La observabilidad marca esta disminución para que los equipos puedan volver a capacitar el modelo con conjuntos de datos actualizados.
Esta métrica mide la calidad de la salida de un agente de IA y si sus respuestas son precisas, relevantes y útiles. Realiza un seguimiento de la frecuencia con la que los agentes alucinan o proporcionan información inexacta. Puede ayudar a las organizaciones a mantener la calidad del servicio e identificar áreas de mejora. Por ejemplo, si los agentes tienen dificultades con preguntas técnicas, los equipos pueden ampliar la base de conocimientos del agente o agregar herramientas especializadas.
Esto mide cuánto tiempo tarda un agente de IA en responder a las solicitudes. Los tiempos de respuesta rápidos son críticos para la satisfacción del usuario y los resultados comerciales. Por ejemplo, si un asistente de compras tarda demasiado en recomendar productos, los clientes podrían irse sin comprar. El seguimiento de la latencia ayuda a los equipos a identificar ralentizaciones y solucionar problemas de rendimiento antes de que afecten las ventas.
Los eventos son las acciones significativas que el agente de IA realiza para completar una tarea. Estos datos proporcionan insight sobre el comportamiento del agente y el proceso de toma de decisiones para ayudar a solucionar problemas y mejorar el rendimiento.
Algunos ejemplos de eventos de agentes de IA son:
Cuando un agente de IA utiliza una interfaz de programación de aplicaciones (API) para interactuar con una herramienta externa, como un motor de búsqueda, una base de datos o un servicio de traducción. El seguimiento de las llamadas a la API ayuda a las organizaciones a monitorear el uso de herramientas e identificar ineficiencias. Por ejemplo, si un agente realiza 50 llamadas a la API para una tarea que debería necesitar solo 2 o 3, los equipos pueden arreglar la lógica.
Cuando los agentes de IA utilizan modelos de lenguaje de gran tamaño para comprender las solicitudes, tomar decisiones o generar respuestas. El monitoreo de las llamadas de LLM ayuda a revelar el comportamiento, el rendimiento y la confiabilidad de los modelos que impulsan las acciones de los agentes de IA. Por ejemplo, si un agente de IA proporciona a un cliente información incorrecta sobre la cuenta, los equipos pueden analizar las llamadas de LLM del agente para encontrar el problema, como datos obsoletos o una instrucción poco clara.
Cuando un agente intenta usar una herramienta pero no funciona, como cuando una llamada a la API falla debido a un problema de red o una solicitud incorrecta. El seguimiento de estas fallas puede mejorar la confiabilidad de los agentes y optimizar los recursos. Por ejemplo, si un agente de soporte no puede verificar el estado del pedido debido a llamadas fallidas a la base de datos, los equipos reciben una alerta inmediata para realizar arreglos de problemas como credenciales faltantes o interrupciones del servicio.
Cuando los agentes de IA derivan las solicitudes que no pueden gestionar al personal humano. Esta información puede revelar lagunas en las capacidades de los agentes y los matices de las interacciones con los clientes. Por ejemplo, si un agente de IA de servicios financieros deriva con frecuencia las preguntas a un humano, podría necesitar mejores datos de formación financiera o una herramienta de inversión especializada.
Cuando algo va mal -como tiempos de respuesta lentos, acceso no autorizado a los datos o escasez de recursos del sistema-, el agente de IA recibe una advertencia automática. Las alertas pueden ayudar a los equipos a detectar y solucionar problemas en tiempo real antes de que afecten a los usuarios. Por ejemplo, una alerta sobre el uso elevado de memoria permite a los equipos agregar recursos antes de que el agente se bloquee.
Los registros son los registros detallados y cronológicos de cada evento y acción que ocurre durante la operación de un agente de IA. Entre otras cosas, los registros se pueden emplear para crear un registro de alta fidelidad, milisegundo a milisegundo, de cada evento, completo con el contexto circundante.
Ejemplos de registros en la observabilidad del agente de IA incluyen:
Estos registros documentan cada interacción entre los usuarios y los agentes de IA, incluidas las consultas, la interpretación de intenciones y los resultados. Las organizaciones pueden utilizar estos registros para comprender las necesidades de los usuarios y el rendimiento de los agentes. Por ejemplo, si los usuarios reformulan repetidamente la misma pregunta, es probable que el agente no comprenda su intención.
Estos capturan todos los intercambios entre agentes y LLM, incluidas instrucciones, respuestas, metadatos, marcas de tiempo y uso de tokens. Estos datos revelan cómo los agentes de IA interpretan las solicitudes y generan respuestas, incluso cuando el agente podría estar malinterpretando el contexto. Por ejemplo, si un agente de IA de moderación de contenido marca erróneamente contenido benigno y omite los dañinos, estos registros pueden exponer los patrones defectuosos que causan los errores.
Estos registran qué herramientas emplean los agentes, cuándo las emplean, qué comandos envían y qué resultados obtienen. Esto ayuda a rastrear problemas de rendimiento y errores de herramientas hasta su origen. Por ejemplo, si un agente de IA responde lentamente a ciertas preguntas, los registros podrían revelar que está empleando consultas de búsqueda vagas. Los equipos pueden luego escribir instrucciones más específicas para mejorar las respuestas.
Estos registros registran cómo un agente de IA llegó a una decisión o acción específica cuando está disponible, como acciones elegidas, puntajes, selecciones de herramientas e instrucciones/resultados, sin implicar acceso a razonamientos ocultos. Estos datos son cruciales para captar sesgos y garantizar una IA responsable, especialmente a medida que los agentes se vuelven más autónomos.
Por ejemplo, si un agente de IA rechaza injustamente las aplicaciones de ciertos vecindarios, los registros de decision-making pueden ayudar a revelar patrones discriminatorios en los datos de entrenamiento. Luego, los equipos vuelven a entrenar el modelo de IA para cumplir con los requisitos de préstamos justos.
Los seguimientos registran el "recorrido" de extremo a extremo de cada solicitud de usuario, incluidas todas las interacciones con los LLM y las herramientas a lo largo del camino.
Por ejemplo, el seguimiento de una solicitud simple de un agente de IA podría capturar estos pasos.
Luego, los desarrolladores pueden usar estos datos para identificar la fuente de cuellos de botella o fallas, y medir el rendimiento en cada paso del proceso.
Por ejemplo, si los rastreos muestran que las búsquedas web tardan 5 segundos mientras que todos los demás pasos se completan en milisegundos, los equipos pueden implementar el almacenamiento en caché o utilizar herramientas de búsqueda más rápidas para mejorar el tiempo de respuesta general.
Existen dos enfoques comunes para recopilar datos utilizados en la Observabilidad del agente de IA: instrumentación integrada y soluciones de terceros.
En el primer enfoque, los datos MELT se recopilan a través de la instrumentación integrada de un marco de IA. Estas capacidades nativas de monitoreo y registro capturan y transmiten automáticamente datos de telemetría sobre métricas, eventos, registros y rastreos.
Muchas grandes empresas y aquellas con necesidades especializadas adoptan este enfoque porque ofrece una personalización profunda y un control detallado sobre la recopilación y el monitoreo de datos. Sin embargo, también requiere un esfuerzo de desarrollo significativo, tiempo y mantenimiento continuo.
En el segundo enfoque, las soluciones de Observabilidad de agente de IA proporcionan herramientas y plataformas especializadas para recopilar y analizar datos MELT. Estas soluciones ofrecen a las organizaciones un despliegue rápido y sencilla con características predefinidas y integraciones que reducen la necesidad de experiencia interna. Sin embargo, confiar en una solución de terceros puede crear dependencia de un proveedor específico y limitar las opciones de personalización para satisfacer las necesidades muy específicas o nicho de una organización.
Algunas organizaciones optan por combinar instrumentación integrada y proveedores de soluciones de terceros para recopilar datos de telemetría de agentes de IA.
Ambos enfoques suelen basarse en OpenTelemetry (OTel), una herramienta de observabilidad de código abierto alojada en la plataforma web GitHub.
OTel se ha convertido en el marco estándar de los sectores para recopilar y transmitir datos de telemetría porque ofrece un enfoque neutral del proveedor para la observabilidad que es particularmente valioso en sistemas complejos de IA, donde los componentes de diferentes proveedores deben trabajar de manera fluida. Ayuda a garantizar que los datos de observabilidad fluyan de forma coherente entre agentes, múltiples modelos, herramientas externas y sistemas de generación aumentada por recuperación (RAG).
Una vez que las organizaciones recopilan datos MELT a través de su enfoque elegido, pueden usarlos de varias maneras.
Algunos de los casos de uso más comunes incluyen:
Los equipos utilizan paneles para ver métricas en tiempo real, event streams y mapas de seguimiento. Esta vista consolidada ayuda a identificar patrones y anomalías en todo el ecosistema de agentes de IA. Por ejemplo, un panel de control podría revelar que los agentes de atención al cliente reducen la velocidad todas las tardes a las 3 p. m., lo que incita a los equipos a investigar la causa.
Cuando surgen problemas, los equipos correlacionan datos entre métricas, eventos, registros y seguimientos para identificar puntos de falla exactos. Por ejemplo, vincular un aumento en las tasas de error (métrica) con fallas de API específicas (eventos) y revisar los registros de decisiones ayuda a los equipos a comprender por qué un agente se comportó de manera inesperada.
Las organizaciones utilizan insights de datos de observabilidad para mejorar la eficiencia de los agentes. Podrían reducir el uso de token, optimizar la selección de herramientas o reestructurar los flujos de trabajo de los agentes en función del análisis de trazas. Por ejemplo, podrían descubrir que un agente busca en la misma base de datos tres veces en lugar de guardar el resultado después de la primera búsqueda.
Los equipos establecen circuitos de retroalimentación en los que los conocimientos sobre observabilidad impulsan el perfeccionamiento de los agentes. Los comentarios periódicos de los datos de MELT ayudan a identificar problemas recurrentes y casos extremos, como los agentes que tienen problemas con las solicitudes de reembolso o que fallan cuando los usuarios hacen preguntas que no están contempladas en la documentación. Estos problemas pueden indicar la necesidad de ampliar los conjuntos de datos de formación y actualizar la documentación.
Considere cómo un minorista en línea podría usar la observabilidad para identificar y corregir un problema con un agente de IA que interactúa con los clientes.
En primer lugar, el panel de Observabilidad muestra un aumento en la feedback negativa de los clientes sobre un agente de IA en particular.
Cuando los equipos examinan los registros del agente, descubren que utiliza una llamada a una herramienta de base de datos para responder las preguntas de los clientes. Sin embargo, las respuestas contienen información obsoleta o incorrecta.
Un seguimiento, el registro completo del proceso paso a paso del agente para manejar la pregunta del cliente, identifica la llamada de herramienta específica que devolvió los datos obsoletos. Un análisis más detallado revela el conjunto de datos preciso dentro de la base de datos que contiene la información obsoleta.
Con este insight, el minorista en línea actualiza o elimina el conjunto de datos defectuoso. El equipo también actualiza la lógica del agente para validar la precisión de los datos antes de responder a los clientes. Como resultado, el agente ahora proporciona respuestas precisas y útiles que mejoran la satisfacción del cliente.
Aunque la mayor parte de la observabilidad de los agentes de IA todavía implica entregar alertas y anomalías a los miembros del equipo para su investigación y resolución manual, la automatización impulsada por IA está transformando cada vez más la forma en que las organizaciones recopilan, analizan y actúan sobre los datos de telemetría.
Las soluciones Advanced de Observabilidad ahora utilizan estas Tecnologías para monitorear, depurar y optimizar los agentes de IA con poca o ninguna intervención humana. Los casos de uso emergentes en esta área incluyen:
Descubra la importancia de la observabilidad y cómo puede ayudarlo a obtener insights sobre los comportamientos del sistema.
IBM Instana Observability puede ayudarle a lograr un retorno de la inversión (ROI) del 219 % y reducir en un 90 % el tiempo que los desarrolladores dedican a la resolución de problemas
Identifique y arregle rápidamente el origen del problema. Los datos en tiempo real y de gran fidelidad ofrecen una visibilidad completa de los entornos dinámicos de aplicaciones e infraestructuras.
Aumente la automatización y las operaciones de TI con IA generativa, alineando todos los aspectos de su infraestructura de TI con las prioridades empresariales.
IBM SevOne Network Performance Management es un software de monitoreo y análisis que proporciona visibilidad e información en tiempo real sobre redes complejas.
Descubra cómo la IA para las operaciones de TI ofrece los insights que necesita para ayudar a impulsar un rendimiento empresarial excepcional.
1 AI Q4Pulse Survey: Key Findings, KPMG, November 2024
2 Top Strategic Technology Trends for 2025: Agentic AI, Gartner, octubre de 2024