2025 年 6 月 29 日
IBM Instana 宣布推出最新的 AI 功能，由 agentic AI 提供支持的 Intelligent Incident Investigation 现已推出预览版。Instana 已经使用因果 AI 来识别事件的可能根本原因。但现在只需点击一下，用户就可以对事件启动全面的 agentic AI 调查，Instana 将立即构建假设，确定问题的细节、发生地点及其影响，在几秒钟内提供有关事件的全面信息。
根据 ITIC 的数据，大中型企业的停机时间成本超过 300,000 美元/小时，因此必须分秒必争。再加上许多公司运维的动态分布式环境，包括使用微服务、容器化、云原生模式以及混合和多云架构，IT系统现在变得异常庞大和复杂。此外，这些环境会生成大量操作数据，从而难以从噪声中识别信号。
全栈端到端可观测性工具，如 IBM Instana ，包括自动化和 AI 功能，可加速问题的识别、跟踪和解决，并有助于降低 MTTR。但是，在应用程序和基础架构中跟踪问题线索进行研究和故障排除仍然需要时间和专业知识。
现在是凌晨 2 点，可观测性工具刚刚检测到一个影响业务的事件。您的值班站点可靠性工程师（SRE）收到警告提示，随即打开笔记本电脑。他们的任务是找出具体的问题所在和原因，然后尽快解决。如果 SRE 能够快速、轻松地使用 agentic AI 来完成调查工作，而不是从一个仪表板跳转到另一个仪表板，跟踪整个应用进程和基础架构中的事件线索，那会怎么样？
Instana 会实时显示 AI 智能体执行事件调查时的推理和行动，使 SRE 可以监督其思路并验证调查结果。Instana Intelligent Incident Investigation 的早期用户报告说，事件调查速度提升高达 80%。
零客户端 IBM CIO 组织的 Mahesh Billa 表示：“我们很高兴能够使用 Instana 新的 Intelligent Incident Investigation。这有可能使我们的运维团队在创纪录的时间内完成从检测到调查再到修复的整个过程。”
在对事件进行调查并验证 Instana 的假设后，就可以采取修复措施了。Instana 也在这里使用 agentic AI：使用事件调查结果，SRE 可逐步评估专为事件修复而创建的操作手册。现在，SRE 将时间集中在采取行动修复问题上，同时完全控制所实施的操作。
无法记住凌晨 2 点特定操作的参数和参数？您并非个例。 Instana 在这里也能提供帮助。只需点击几下，即可为每个步骤创建一个 Bash 脚本，然后可将其导出到 GitHub 以便评论、测试和部署。
事件发生后，一项关键但繁琐的任务是准确记录发生的事情并与利益相关者分享。Instana 也会处理这个问题：点击“生成摘要”，Instana 将总结事件，包括根本原因、业务影响和所执行的操作等关键信息。
内置 agentic AI提供更快、更全面、更准确的根本原因识别，让您在几秒钟内获得对事件的完整了解。通过 Intelligent Incident Investigation 和修复，您可以：
IBM Instana 提供跨应用程序、服务和基础架构的完整可见性，以便快速检测和解决问题。为什么选择 Instana 而不是其他可观测性和 APM 工具？