AgentOps 全称为“智能体运营”,是一套新兴的实践方法,专注于自主 AI 智能体的全生命周期管理。AgentOps 融合了以往运维领域(如 DevOps 和 MLOps)的原则,为从业者提供了更好的方法来管理、监控和优化智能体开发管道。
据估计,到 2024 年,AI 智能体市场约为 50 亿美元,预计到 2030 年将增长到约 500 亿美元。1然而,随着越来越多的企业构建 AI 智能体以简化和自动化工作流,在监控这些智能体的行为以确保它们按预期运行方面出现了新的挑战。AgentOps 是一套尚处于初步定义阶段的新兴最佳实践,主要用于评估智能体的性能,其理念建立在相关领域的基础之上:DevOps(规范了软件交付流程)和MLOps(对机器学习模型做了同样的规范)。
但是管理智能体并不像构建传统软件甚至 AI 模型那样简单。“智能体式”系统是复杂且动态的,本质上涉及具有自己想法的软件。智能体自主行动、链接任务、做出决策并采取非确定性行为。AgentOps 背后的想法是将可观测性和可靠性带入可能混乱的领域,使开发人员能够窥视智能体交互和其他智能体行为的黑匣。
管理 AgentOps 并没有单一工具,而是依赖整个生态系统;一项最新研究发现,在 Github 及其他代码库中,有 17 款与该实践相关的工具,从 Agenta 到 LangSmith 再到 Trulens 不等(其中一款雄心勃勃的 AgentOps 工具就名为“AgentOps”)。此类工具通常可为开发人员所选的智能体框架提供支持,无论是 IBM 的 watsonx Agents 还是 OpenAI 的 Agents SDK。在这一热门领域,出现了许多流行的平台和框架,包括 AutoGen、LangChain 和 CrewAI (后者针对多智能体系统的编排进行了优化)。
例如,为处理客户支持而构建的 AI 智能体可能由一个或多个大语言模型 (LLM) 组成,使用各种工具来处理各种任务。其智能体工作流可能涉及监控传入的电子邮件、搜索公司知识库以及自主创建支持工单。
调试这样的智能体很复杂;其多样化的行为会产生多个潜在故障或低效率点。不过,通过智能体监控,开发人员可以对智能体运行进行逐步会话重播,观察 AI 系统做了什么以及何时做了什么。智能体是否参考了正确的客户支持文档?工具使用模式是什么?使用了哪些 API?每个步骤的延迟是多少?最终的 LLM 成本是多少?该智能体与他人沟通或协作的效果如何?
让一个人工智能智能体自由行动而没有审查其行为的计划,就好比把信用卡交给一个青少年,却不查看最终的账单。Agency AI 的首席运营官 Adam Silverman 最近在 Google for Developers 博客中表示,通过为不同任务使用不同的大语言模型 (LLM),可以降低成本,这是众多可调整参数之一,用于随着时间优化智能体的成本效益。 2
通过深入挖掘,开发人员可以跟踪智能体的端到端行为,包括不同提供商(例如 Azure 或 AWS)之间的每次 LLM 交互的成本。开发人员可以实时查阅此类指标的仪表板,其中包含智能体生命周期各个阶段的数据。通过迭代基准测试,开发人员可以致力于优化他们的智能体。
没有普遍认可的执行 AgentOps 的方法,有多种工具和方法可用。(实际上,即便是更为成熟的前身术语 DevOps,对不同的人也有略微不同的含义)。今年六月,在 IBM Think 大会期间,IBM 研究院公布了自己的 AgentOps 方法,明确了三个核心关注领域,认为这些领域对于支持企业智能体 AI 用例的可观测性至关重要。
首先,IBM 研究院在 OpenTelemetry (OTEL) 标准之上构建了其 AgentOps 解决方案,这是一套开源软件开发工具包 (SDK),能够在各种智能体框架中实现自动和手动的监测与埋点。其次,它在 OTEL 上构建了一个开放的分析平台,为用户提供高水平的分辨率,让他们能够深入了解智能体的行为。该平台是可扩展的,这意味着可以轻松添加新的指标。第三,这些分析本身由人工智能驱动,使得可以获得独特视角,包括多轨迹工作流视图和轨迹探索。
IBM 研究部门使用其 AgentOps 方法协助构建多种 IBM Automation 产品,包括 Instana、Concert 和 Apptio。随着 IBM 推出自家的智能体解决方案,AgentOps 的部分功能已成为 watsonx.ai 开发者工作室和 watsonx.governance 工具包中支持可扩展可信 AI 的特性。
然而,AgentOps 有许多不同的方法,并且这一领域正在迅速发展,以满足一个以惊人速度采用智能体工作流的行业的需求。
AgentOps 的最佳实践可以而且应该应用于智能体生命周期的所有阶段。
开发:在这一阶段,开发人员会给他们的智能体规定具体的目标和限制条件,规划出各种依赖关系和数据管道。
测试:在发布到生产环境之前,开发人员可以评估智能体在模拟“沙盒”环境中的执行情况。
监控:部署后,开发人员可以检查其检测结果,在会话、跟踪或跨度级别上评估智能体的性能。开发人员可以查看智能体操作、API 调用以及智能体行为的总体持续时间(或延迟)。
反馈:在这一阶段,用户和开发人员都需要获得工具,以便在智能体犯错或行为不一致时进行登记,并获得机制来帮助智能体在下一次运行时表现得更好。
治理:随着生成式人工智能受到越来越多的监管审查(如欧盟人工智能法案),以及新的伦理框架不断发展,开发者需要一套指导原则和政策来约束智能体行为并确保合规。
构建、部署和管理强大的 AI 助手和智能体,运用生成式 AI 实现工作流和流程自动化。
借助值得信赖的 AI 解决方案,您可以勾勒未来业务发展蓝图。
IBM Consulting AI 服务有助于重塑企业利用 AI 实现转型的方式。
人工智能智能体市场规模、份额及趋势分析报告:按技术(机器学习、自然语言处理)、按智能体系统(单智能体系统、多智能体系统)、按类型、按应用、按终端用户、按区域及分部预测,2025 - 2030 Grandview Research
使用 Gemini API 将 AI 智能体投入生产Google 开发者计划,2025 年 10 月 30 日