Por qué la observabilidad es esencial para los agentes de IA

Dos profesionales hablando

Autores

Gregg Lindemulder

Staff Writer

IBM Think

Annie Badman

Staff Writer

IBM Think

A medida que el entusiasmo por la inteligencia artificial (IA) sigue arrasando en el mundo empresarial, la atención se centra en la última versión de la tecnología: los agentes de IA.

A diferencia de los modelos de IA tradicionales, los agentes de IA pueden tomar decisiones sin supervisión humana constante. Trabajan de forma autónoma para lograr objetivos complejos, como responder preguntas de clientes, optimizar una cadena de suministro o analizar datos sanitarios para proporcionar un diagnóstico.

En la práctica, esto significa que los agentes de IA pueden gestionar flujos de trabajo completos de principio a fin, como el procesamiento automático de reclamaciones de seguros o la gestión de niveles de inventario, en lugar de limitarse a ofrecer recomendaciones.

Estimaciones recientes muestran que las organizaciones están adoptando rápidamente agentes de IA. Una encuesta de KPMG reveló que el 88 % de las organizaciones están explorando o implementando activamente iniciativas de agente de IA1. Gartner predice que para 2028, más de un tercio de las aplicaciones de software empresarial incluirán IA agéntica, la tecnología subyacente que habilita a los agentes de IA2.

Sin embargo, las mismas capacidades que hacen que los agentes de IA sean tan valiosos también pueden dificultar su monitorización, comprensión y control.

Los agentes de IA utilizan modelos de lenguaje de gran tamaño (LLM) para razonar, crear flujos de trabajo y dividir las tareas en subtareas. Acceden a herramientas externas, como bases de datos, motores de búsqueda y calculadoras, y utilizan la memoria para recordar conversaciones anteriores y resultados de tareas.

Aunque este proceso les permite trabajar de forma independiente, también las hace mucho menos transparentes que las aplicaciones tradicionales basadas en reglas y lógica explícitas y predefinidas.

Esta complejidad inherente y la falta de transparencia pueden dificultar el seguimiento de cómo los agentes de IA generan outputs específicos. Para las organizaciones, esto puede plantear riesgos graves, entre ellos:

  • Violaciones de cumplimiento: cuando los agentes gestionan datos confidenciales, las organizaciones no pueden demostrar los procesos de toma de decisiones o demostrar el cumplimiento normativo.
  • Fallos operativos: sin visibilidad del razonamiento de los agentes, los equipos pueden tener dificultades para identificar las causas raíz o evitar errores recurrentes.
  • Erosión de la confianza: las acciones inexplicables de los agentes pueden dañar la confianza de las partes interesadas, especialmente cuando los agentes toman decisiones empresariales críticas o interactúan directamente con los clientes.

Para mitigar estos riesgos, las organizaciones recurren cada vez más a la observabilidad de los agentes de IA para obtener conocimiento sobre el comportamiento y el rendimiento de los agentes de IA.

Las últimas novedades sobre tecnología, respaldadas por conocimientos de expertos

Manténgase al día sobre las tendencias más importantes e intrigantes del sector en materia de IA, automatización, datos y mucho más con el boletín Think. Consulte la Declaración de privacidad de IBM.

¡Gracias! Se ha suscrito.

Su suscripción se enviará en inglés. Encontrará un enlace para darse de baja en cada boletín. Puede gestionar sus suscripciones o darse de baja aquí. Consulte nuestra Declaración de privacidad de IBM para obtener más información.

¿Qué es la observabilidad de los agentes de IA?

La observabilidad del agente de IA es el proceso de monitorizar y comprender los comportamientos de extremo a extremo de un ecosistema de agencia, incluida cualquier interacción que el agente de IA pueda tener con modelos de lenguaje de gran tamaño y herramientas externas.

Procede de la práctica más amplia de observabilidad, que es la capacidad de comprender el estado interno de un sistema analizando sus datos de telemetría, es decir, sus salidas externas, como métricas, eventos, registros y rastros, comúnmente conocidos como "datos MELT".  

Con la observabilidad de los agentes mediante la IA, las organizaciones pueden evaluar el desempeño de los agentes recopilando datos sobre las acciones, las decisiones y el uso de los recursos. Ayuda a responder preguntas críticas, como:

  • ¿El agente proporciona respuestas precisas y útiles?
  • ¿El agente está utilizando la potencia de procesamiento de forma eficiente?
  • ¿El agente utiliza las herramientas adecuadas para cumplir sus objetivos?
  • ¿Cuáles son las causas raíz de los problemas con un agente?
  • ¿El agente cumple con la ética de la IA y las normativas de protección de datos?

Con estos conocimientos, las organizaciones pueden solucionar y depurar problemas de manera más efectiva y mejorar el rendimiento y la fiabilidad de los agentes de IA. 

Observabilidad en sistemas multiagente 

Los sistemas multiagente utilizan varios agentes de IA que trabajan juntos para completar tareas complejas, como la automatización de un pipeline de ventas empresarial o la respuesta a preguntas y la generación de tickets para un sistema de asistencia informática.

A diferencia de los sistemas de agente único, en los que los fallos suelen atribuirse a un componente específico, los sistemas multiagente son mucho más complejos. Con tantas interacciones entre agentes autónomos de agente de IA, existe un mayor potencial de comportamiento impredecible.

La observabilidad de los agentes de IA proporciona conocimiento crítico sobre estos sistemas multiagente. Ayuda a los desarrolladores a identificar el agente específico o la interacción responsable de un problema y proporciona visibilidad de los complejos flujos de trabajo que crean los agentes. También ayuda a identificar comportamientos y patrones colectivos que podrían escalar y causar futuros problemas.

Por ejemplo, en un sistema de reservas de viajes multiagente con agentes independientes para vuelos, hoteles y alquiler de coches, una reserva puede fallar en cualquier momento. Las herramientas de observabilidad pueden rastrear todo el proceso de principio a fin para identificar exactamente dónde y por qué se produjo el fallo.  

Muchas organizaciones utilizan soluciones de código abierto como IBM BeeAI, LangChain, LangGraph y AutoGen para construir sistemas multiagente de forma más rápida y segura. Estas soluciones proporcionan un kit de desarrollo de software (SDK) con herramientas para crear agentes de IA y un marco de IA agéntica, el motor que ejecuta y coordina los agentes.

IBM DevOps

¿Qué es DevOps?

Andrea Crawford explica qué es DevOps, su valor y cómo las prácticas y herramientas de DevOps ayudan a desarrollar las aplicaciones a lo largo de todo el proceso de entrega de software, desde la ideación hasta la producción. El plan de estudios, dirigido por los principales líderes de opinión de IBM, está diseñado para ayudar a los líderes empresariales a adquirir los conocimientos necesarios para priorizar las inversiones en IA que pueden impulsar el crecimiento.

Cómo funciona la observabilidad de los agentes de IA 

La observabilidad de los agentes de IA funciona mediante la recopilación y el análisis de datos de telemetría que capturan tanto las métricas tradicionales del sistema como los comportamientos específicos de la IA. A continuación, los equipos pueden utilizar estos datos para comprender las decisiones de los agentes, solucionar problemas y optimizar el rendimiento.

Datos utilizados en la observabilidad de los agentes de IA

La observabilidad de los agentes de IA utiliza los mismos datos de telemetría que las soluciones de observabilidad tradicionales, pero también incluye puntos de datos adicionales exclusivos de los sistemas de IA generativa, como el uso de token, las interacciones de las herramientas y las rutas de decisión de los agentes de IA. Estas señales específicas de la IA siguen encajando en MELT (métricas, eventos, registros, rastreos). 

Métricas

Además de las métricas de rendimiento tradicionales recopiladas por las herramientas de observabilidad estándar, como la utilización de la CPU, la memoria y los recursos de red, las medidas de observabilidad del agente de IA:

Uso de tokens

Los tokens son las unidades de texto que procesan los modelos de IA, normalmente palabras o partes de palabras. Dado que los proveedores de IA cobran por el uso de tokens, el seguimiento de esta métrica repercute directamente en los costos. Las organizaciones pueden optimizar el gasto monitorizando el consumo de token. Por ejemplo, si ciertas preguntas de los clientes utilizan diez veces más tokens que otras, los equipos pueden rediseñar la forma en que los agentes gestionan esas solicitudes para reducir costes.

A medida que evolucionan los datos del mundo real, los modelos de IA pueden volverse menos precisos con el tiempo. La monitorización de las métricas clave de la desviación del modelo, como los cambios en los patrones de respuesta o las variaciones en la calidad de los resultados, puede ayudar a las organizaciones a detectarla a tiempo. Por ejemplo, un agente de detección del fraude podría volverse menos eficaz a medida que los delincuentes desarrollen nuevas tácticas. La observabilidad señala esta disminución para que los equipos puedan volver a entrenar el modelo con conjuntos de datos actualizados.

Calidad de la respuesta

Esta métrica mide la calidad de los resultados de un agente de IA y si sus respuestas son precisas, relevantes y útiles. Realiza un seguimiento de la frecuencia con la que los agentes alucinan o proporcionan información inexacta. Puede ayudar a las organizaciones a mantener la calidad del servicio y a identificar áreas de mejora. Por ejemplo, si los agentes tienen dificultades con las preguntas técnicas, los equipos pueden ampliar la base de conocimientos del agente o añadir herramientas especializadas.

Latencia de inferencia

Esto mide cuánto tiempo tarda un agente de IA en responder a las solicitudes. Los tiempos de respuesta rápidos son críticos para la satisfacción del usuario y los resultados empresariales. Por ejemplo, si un asistente de compras tarda demasiado en recomendar productos, los clientes podrían irse sin comprar. El seguimiento de la latencia ayuda a los equipos a identificar ralentizaciones y realizar correcciones de rendimiento antes de que afecten a las ventas.

Eventos 

Los eventos son las acciones significativas que el agente de IA realiza para completar una tarea. Estos datos proporcionan conocimiento sobre el comportamiento del agente y el proceso de toma de decisiones para ayudar a solucionar problemas y mejorar el rendimiento.

Entre los ejemplos de eventos de agentes de IA se incluyen:

Llamadas a la API

Cuando un agente de IA utiliza una interfaz de programación de aplicaciones (API) para interactuar con una herramienta externa, como un motor de búsqueda, una base de datos o un servicio de traducción. El seguimiento de las llamadas API ayuda a las organizaciones a supervisar el uso de las herramientas e identificar ineficiencias. Por ejemplo, si un agente realiza 50 llamadas a la API para una tarea que debería necesitar solo dos o tres, los equipos pueden corregir la lógica.

Llamadas LLM

Cuando los agentes de IA utilizan modelos lingüísticos extensos para entender las solicitudes, tomar decisiones o generar respuestas. Monitorizar las llamadas de LLM ayuda a revelar el comportamiento, el rendimiento y la fiabilidad de los modelos que impulsan las acciones de los agentes de IA. Por ejemplo, si un agente de IA bancaria le da a un cliente información de cuenta incorrecta, los equipos pueden analizar las llamadas de LLM del agente para encontrar el problema, como datos desactualizados o instrucciones poco claras.

Llamada de herramienta fallida

Cuando un agente intenta utilizar una herramienta pero no funciona, como cuando una llamada a la API falla por un problema de red o a una solicitud incorrecta. El seguimiento de estos fallos puede mejorar la fiabilidad de los agentes y optimizar los recursos. Por ejemplo, si un agente de soporte no puede comprobar el estado del pedido debido a llamadas fallidas a la base de datos, los equipos reciben una alerta inmediata para solucionar problemas como la falta de credenciales o interrupciones del servicio.

Transferencia humana

Cuando los agentes de IA escalan solicitudes que no pueden gestionar al personal humano. Esta información puede revelar lagunas en las capacidades de los agentes y los matices de las interacciones con los clientes. Por ejemplo, si un agente de IA de servicios financieros remite con frecuencia las preguntas a un humano, podría necesitar mejores datos de formación financiera o una herramienta de inversión especializada.

Notificaciones de alerta

Cuando algo sale mal, como tiempos de respuesta lentos, acceso no autorizado a datos o recursos del sistema bajos, el agente de IA recibe una advertencia automatizada. Las alertas pueden ayudar a los equipos a detectar y solucionar problemas en tiempo real antes de que afecten a los usuarios. Por ejemplo, una alerta sobre un uso elevado de la memoria permite a los equipos añadir recursos antes de que el agente se bloquee.

Registros

Los registros son los registros cronológicos detallados de cada evento y acción que ocurre durante la operación de un agente de IA. Se pueden utilizar para crear un registro de alta fidelidad, milisegundo a milisegundo, de cada evento, completo con el contexto circundante.

Algunos ejemplos de registros de la observabilidad de los agentes de IA incluyen:

Registros de interacción del usuario

Estos registros documentan todas las interacciones entre los usuarios y los agentes de IA, incluidas las consultas, la interpretación de intenciones y los resultados. Las organizaciones pueden utilizar estos registros para comprender las necesidades de los usuarios y el rendimiento de los agentes. Por ejemplo, si los usuarios reformulan repetidamente la misma pregunta, es probable que el agente no entienda su intención.

Registros de interacción de LLM

Estos capturan cada intercambio entre agentes y LLM, incluidas instrucciones, respuestas, metadatos, marcas de tiempo y uso de tokens. Estos datos revelan cómo los agentes de IA interpretan las solicitudes y generan respuestas, incluso cuando el agente podría estar malinterpretando el contexto. Por ejemplo, si un agente de IA de moderación de contenido marca erróneamente contenido benigno y pasa por alto el dañino, estos registros pueden exponer los patrones defectuosos que causan los errores.

Registros de ejecución de herramientas

Estos registran qué herramientas utilizan los agentes, cuándo las utilizan, qué comandos envían y qué resultados obtienen. Esto ayuda a rastrear los problemas de rendimiento y los errores de las herramientas hasta su origen. Por ejemplo, si un agente de IA de soporte técnico responde lentamente a ciertas preguntas, los registros pueden revelar que está utilizando consultas de búsqueda vagas. A continuación, los equipos pueden escribir instrucciones más específicas para mejorar las respuestas.

Registros de toma de decisiones de agentes

Estos registros recogen cómo un agente de IA llegó a una decisión o acción específica cuando está disponible, como las acciones elegidas, las puntuaciones, las selecciones de herramientas y las instrucciones/resultados, sin implicar el acceso a razonamientos ocultos. Estos datos son cruciales para detectar sesgos y garantizar una IA responsable, especialmente a medida que los agentes se vuelven más autónomos.

Por ejemplo, si un agente de IA para préstamos rechaza injustamente solicitudes de determinados barrios, los registros de toma de decisiones pueden ayudar a revelar patrones discriminatorios en los datos de entrenamiento. Luego, los equipos vuelven a entrenar el modelo de IA para cumplir con los requisitos de préstamos justos.

Rastreos

Los rastreos registran el "recorrido" de extremo a extremo de cada solicitud de usuario, incluidas todas las interacciones con los LLM y las herramientas a lo largo del camino.

Por ejemplo, el rastreo de una simple solicitud de agente de IA podría capturar estos pasos.

  • La entrada del usuario que activa el agente
  • El plan del agente y el desglose de tareas
  • Cualquier llamada a herramienta externa (por ejemplo, una búsqueda web)
  • El procesamiento de la solicitud por parte del LLM
  • El procesamiento de instrucciones y la generación de respuestas
  • La respuesta devuelta al usuario

Los desarrolladores pueden utilizar estos datos para identificar el origen de los cuellos de botella o los fallos y medir el rendimiento en cada paso del proceso.

Por ejemplo, si los rastreos muestran que las búsquedas web tardan cinco segundos mientras que todos los demás pasos se completan en milisegundos, los equipos pueden implementar el almacenamiento en caché o utilizar herramientas de búsqueda más rápidas para mejorar el tiempo de respuesta general.

Recopilación de datos para la observabilidad de los agentes de IA

Hay dos enfoques comunes para recopilar datos utilizados en la observabilidad del agente de IA: instrumentación incorporada y soluciones de terceros.

En el primer enfoque, los datos MELT se recopilan a través de la instrumentación integrada de un marco de IA agéntica. Estas capacidades de monitorización y registro capturan y transmiten automáticamente datos de telemetría sobre métricas, eventos, registros y rastreos.

Muchas empresas grandes y aquellas con necesidades especializadas adoptan este enfoque porque ofrece una personalización profunda y un control detallado sobre la recopilación y la monitorización de datos. Sin embargo, también requiere un importante esfuerzo de desarrollo, tiempo y mantenimiento continuo.

En el segundo enfoque, las soluciones de observabilidad de agente de IA proporcionan herramientas y plataformas especializadas para recopilar y analizar datos MELT. Estas soluciones ofrecen a las organizaciones una implementación rápida y sencilla con características e integraciones prediseñadas que reducen la necesidad de experiencia interna. Sin embargo, confiar en una solución de terceros puede crear dependencia de un proveedor específico y limitar las opciones de personalización para satisfacer las necesidades altamente específicas o de nicho de una organización.

Algunas organizaciones optan por combinar instrumentación integrada y proveedores de soluciones de terceros para recopilar datos de telemetría de agentes de IA.

Ambos enfoques suelen basarse en OpenTelemetry (OTel), una herramienta de observabilidad de código abierto alojada en la plataforma web GitHub.

OTel se ha convertido en el marco estándar de los sectores para recopilar y transmitir datos de telemetría porque ofrece un enfoque neutral del proveedor para la observabilidad que es particularmente valioso en sistemas complejos de IA, donde los componentes de diferentes proveedores deben trabajar de manera fluida. Ayuda a garantizar que los datos de observabilidad fluyan de forma coherente entre agentes, múltiples modelos, herramientas externas y sistemas de generación aumentada por recuperación (RAG).

Análisis y actuación sobre los datos de observabilidad

Una vez que las organizaciones recopilan datos MELT a través del enfoque elegido, pueden usarlos de varias maneras.

Algunos de los casos de uso más comunes incluyen:

Agregación de dato y visualización

Los equipos utilizan paneles de control para ver métricas en tiempo real, event streams y mapas de seguimiento. Esta vista consolidada ayuda a identificar patrones y anomalías en todo el ecosistema de agentes de IA. Por ejemplo, un panel de control puede revelar que los agentes del servicio de atención al cliente reducen la velocidad todas las tardes a las 15:00, lo que incita a los equipos a investigar la causa.

Análisis de la causa raíz

Cuando surgen problemas, los equipos correlacionan los datos entre métricas, eventos, registros y rastreos para identificar los puntos de error exactos. Por ejemplo, vincular un aumento en las tasas de error (métrica) con fallos específicos de API (eventos) y revisar los registros de decisiones ayuda a los equipos a comprender por qué un agente se comportó de manera inesperada.

Optimización del rendimiento

Las organizaciones utilizan los conocimientos de datos de observabilidad para mejorar la eficiencia de los agentes. Pueden reducir el uso de token, optimizar la selección de herramientas o reestructurar los flujos de trabajo de los agentes en función del análisis de rastreos. Por ejemplo, podrían descubrir que un agente busca tres veces en la misma base de datos en lugar de guardar el resultado tras la primera búsqueda.

Mejora continua

Los equipos establecen bucles de feedback en los que los conocimientos de observabilidad impulsan el perfeccionamiento de los agentes. Las revisiones periódicas de los datos MELT ayudan a identificar problemas recurrentes y casos extremos, como agentes que tienen dificultades con las solicitudes de reembolso o que fallan cuando los usuarios hacen preguntas que no están cubiertas en la documentación. Estos problemas pueden indicar la necesidad de conjuntos de datos de entrenamiento ampliados y documentos actualizados.

Ejemplo: observabilidad de agentes de IA en acción

Considere cómo un minorista en línea podría utilizar la observabilidad para identificar y corregir un problema con un agente de IA que interactúa con los clientes.

En primer lugar, el panel de control de observabilidad muestra un aumento de los feedback negativos de los clientes sobre un agente de IA en particular.

Cuando los equipos examinan los registros del agente, descubren que utiliza una llamada a una herramienta de base de datos para responder a las preguntas de los clientes. Sin embargo, las respuestas contienen información obsoleta o incorrecta.

Un rastreo (el registro completo del proceso gradual del agente para gestionar la pregunta del cliente) señala la llamada a la herramienta específica que devolvió los datos obsoletos. Un análisis más detallado revela el conjunto de datos preciso de la base de datos que contiene la información desactualizada.

Con este conocimiento, el minorista en línea actualiza o elimina el conjunto de datos defectuoso. El equipo también actualiza la lógica del agente para validar la precisión de los datos antes de responder a los clientes. Como resultado, el agente ahora proporciona respuestas precisas y útiles que mejoran la satisfacción del cliente.

IA y automatización en la observabilidad de los agentes de IA

Aunque la mayor parte de la observabilidad de los agentes de IA todavía implica pasar alertas y anomalías a los miembros del equipo para su investigación y resolución manuales, la automatización con IA está transformando cada vez más la forma en que las organizaciones recopilan, analizan y actúan sobre los datos de telemetría.

Las soluciones avanzadas de observabilidad utilizan ahora estas tecnologías para monitorizar, depurar y optimizar los agentes de IA con poca o ninguna intervención humana. Los casos de uso emergentes en esta área incluyen:

  • Recopilación, procesamiento y almacenamiento automáticos de datos de telemetría de agentes de IA para auditorías de cumplimiento y análisis de rendimiento.
  • Análisis de grandes cantidades de datos de agentes de IA para señalar anomalías e identificar problemas
  • Predicción de problemas con aplicaciones y agentes de IA antes de que se produzcan
  • Previsión de los requisitos de recursos en función de los patrones de uso de la IA.
  • Sugerencias de mejoras en la lógica o el uso de herramientas para optimizar el rendimiento
  • Prevención del acceso o intercambio de datos confidenciales por parte de los agentes de IA.
Soluciones relacionadas
IBM DevOps Accelerate

Automatice la entrega de software para cualquier aplicación en entornos locales, en la nube o en el mainframe.

Explore DevOps Accelerate
Soluciones DevOps

Utilice el software y las herramientas de DevOps para crear, implementar y gestionar aplicaciones nativas de la nube en varios dispositivos y entornos.

Explore las soluciones DevOps
Servicios de consultoría en la nube 

Desbloquee nuevas capacidades e impulse la agilidad empresarial con los servicios de consultoría de nube de IBM. Descubra cómo cocrear soluciones, acelerar la transformación digital y optimizar el rendimiento mediante estrategias de nube híbrida y colaboraciones con expertos.

Servicio en la nube
Dé el siguiente paso

Libere el potencial de DevOps para crear, probar e implementar aplicaciones nativas de la nube seguras con integración y entrega continuas.

Explore las soluciones DevOps Descubra DevOps en acción
Notas a pie de página

1 AI Q4Pulse Survey: Key Findings. KPMG. Noviembre de 2024.
2 Top Strategic Technology Trends for 2025: Agentic AI. Gartner. Octubre de 2024.