Con una estimación de alrededor de 5 mil millones de dólares en 2024, se proyecta que el mercado de agentes de IA crezca a alrededor de 50 mil millones de dólares para 2030.1 Sin embargo, a medida que más empresas crean agentes de IA para optimizar y automatizar los flujos de trabajo, surgen nuevos desafíos en el monitoreo del comportamiento de esos agentes, asegurándose de que funcionen según lo previsto. AgentOps es un conjunto aproximadamente definido de mejores prácticas emergentes para evaluar el rendimiento de los agentes, que se basa en preceptos establecidos en los campos relacionados de DevOps (que estandarizó la entrega de software) y MLOps (que hizo lo mismo con los modelos de machine learning).

Pero gestionar agentes no es tan sencillo como crear software tradicional o incluso modelos de IA. Los sistemas “agénticos” son complejos y dinámicos, y en esencia implican un software con mente propia. Los agentes actúan de forma autónoma, encadenan tareas, toman decisiones y se comportan de forma no determinista. La idea detrás de AgentOps es llevar la observabilidad y la confiabilidad a un ámbito que podría ser caótico, permitiendo a los desarrolladores observar la caja negra de las interacciones de los agentes y otros comportamientos de los agentes.

No existe una única herramienta para gestionar AgentOps, sino todo un ecosistema; un estudio reciente descubrió 17 herramientas en Github y otros repositorios de código relevantes para la práctica, desde Agenta hasta LangSmith y Trulens (una herramienta AgentOps con un nombre ambicioso se llama, simplemente, “AgentOps”). Estas herramientas suelen proporcionar soporte a la infraestructura de agentes elegida por los desarrolladores, ya sea watsonx Agents de IBM o Agents SDK de OpenAI. En este espacio acalorado, han surgido muchas plataformas y marcos populares, incluidos AutoGen, LangChain y CrewAI (este último optimizado para la orquestación de sistemas multiagente).