什么是根本原因分析 (RCA) ?

什么是根本原因分析 (RCA) ?

根本原因分析 (RCA) 是组织在问题、争端或事件发生后寻找其根源的质量管理流程。

在任何组织中,即使在最好的情况下,问题和事故也是不可避免的。虽然在问题出现时治标不治本的做法可能很吸引人,但治标不治本本质上是一个反应过程,几乎肯定会导致一系列问题反复出现,而且往往会恶化。

合乎道德、积极主动、经营良好的企业和采取被动方法的组织都会遇到问题,但前者遇到的问题更少,恢复得更快,因为他们会优先考虑根本原因分析。

根本原因分析 (RCA) 可帮助组织破译问题的根本原因,确定适当的纠正措施,并制定计划以防止未来再次发生。它旨在实施根本问题的解决方案,以提高整体运营效率。

黑人女性正在使用笔记本电脑

掌握最新科技新闻

在 Think 时事通讯中每周获取有关 AI、安全、云等领域的深入洞察分析、研究和专家观点。

何时应执行根本原因分析 (RCA) ?

当问题出现或事件发生时,组织会执行根本原因分析 (RCA),但有很多问题都会需要 RCA。根本原因分析的触发因素分为三大类。

物理原因

当现实世界的材料或设备出现某种故障时(例如,台式计算机停止工作或第三方供应商提供的组件性能不合格)。

人为原因(或人为错误)

当人们犯错误或未能完成所需的任务时(例如,员工未能对设备进行定期维护,导致设备发生故障)。

组织原因

用于制定决策的系统、流程或政策出现故障(例如,公司未能对团队成员进行网络安全协议培训,以至于公司容易遭受网络攻击)。

IBM DevOps

什么是 DevOps?

Andrea Crawford 阐述了什么是开发运维、开发运维的价值,以及开发运维实践和工具如何帮助您完成从应用程序构思到生产的整个软件交付管道。本课程由 IBM 资深思想领袖主导,旨在帮助企业领导者获得所需的知识,以优先考虑能够推动增长的 AI 投资。

如何进行根本原因分析 (RCA)

组织可以针对一系列原因进行根本原因分析,从常见的电子邮件服务中断到灾难性的设备故障。无论问题的性质或范围如何,执行根本原因分析都应包括相同的基本步骤。

确定问题

如果您已决定进行根本原因分析 (RCA),那么您的部门或组织可能正在面临紧急问题,或者至少希望对特定流程进行实质性改进。因此,根本原因分析 (RCA) 流程的第一步应该是确定并定义您想要解决的问题。如果没有明确定义的问题,就不可能正确确定根本原因。

当部门对问题有了清晰的认识后,即可起草一份问题陈述,为所有愿意帮助执行 RCA 的人员阐明该问题。

组建 RCA 团队

确定问题并向所有相关方明确阐明问题后,领导团队应制定项目章程,并根据章程组建一个团队来完成分析。团队应包括一名助理来带领团队完成分析,并包含若干团队成员,这些成员应具备与要调查的系统、流程和事件相关的人员或专业知识。

收集相关数据

数据收集是解决问题过程的基础。在此阶段,找到可帮助您确定影响因素并最终确定问题根本原因的每条信息都至关重要。这可以包括收集照片和事件报告、与受影响方进行访谈以及审查现有政策和程序。在数据收集过程中您可能想问的一些问题:

  • 问题何时开始,持续了多长时间?
  • 团队观察到哪些表面现象?
  • 组织或部门必须提供哪些文件来证明问题的存在?
  • 此问题对员工和其他利益相关者有哪些影响?
  • 这一问题的存在会对谁造成伤害或其他影响?

确定可能的根本原因

这是 RCA 流程中最重要的一步。此时,团队已经收集了所有必要的信息,并开始集思广益寻找因果因素。有效的根本原因分析需要对问题的所有潜在根本原因持开放态度,因此 RCA 团队中的每个人都应该以开放的心态进入集思广益阶段。在确定并审查所有可能性之前,避免尝试确定根本原因;以先入为主的观念开始事件调查过程可能会使结果产生偏差,并增加确定真正的根本原因的难度。

确定根本原因

RCA 团队获得可能原因和影响因素的详尽清单后,即可确定问题的根本原因。分析每一个可能原因并调查每个原因的实际影响,以找出最有争议的可能性、相似的可能性和可以完全排除的可能性。对于问题存在多个根本原因的可能性,请准备好着手处理。

团队缩小可能性清单的范围后,根据剩余的潜在根本原因的影响及其成为问题根本原因的可能性对它们进行排名。领导层将调查和分析每种可能性,并与 RCA 团队合作确定实际的根本原因。

找到并实施解决方案

团队确定根本原因并列出问题的所有细节后,他们就必须开始集思广益来确定解决方案。解决方案应直接解决根本原因,同时考虑执行解决方案的后勤工作以及团队在此过程中可能遇到的任何潜在障碍。这些元素将构成一项行动计划,帮助团队解决当前问题并防止问题再次发生。

用于自动发送信息的时事通讯图像

解锁 IBM Instana Observability 的强大功能

IBM Instana Observability 可帮助实现 219% 的投资回报率,并将开发人员用于故障排除的时间缩短 90%。

根本原因分析 (RCA) 方法

虽然所有 RCA 都包含相同的基本步骤,但有多种根本原因分析方法可以帮助组织高效且有效地收集数据。通常,公司会选择一种方法并使用根本原因分析工具(例如分析模板和软件)来完成该过程。

五个为什么

“五个为什么”方法源自这样的理念:通过询问五个“为什么?”问题,可以帮您找到任何事情的根本原因。通过询问“五个为什么”,问题解决者可以避免提出假设,在他们找出问题的根本原因之前,只需询问“为什么”。在正式的有组织的根本原因分析中,团队可能只需要询问三个为什么即可找到根本原因,但他们也可能需要询问 50 个或 60 个为什么。“五个为什么”的目的是促使团队通过提出尽可能多的问题来找到正确的答案。

故障模式和影响分析 (FMEA)

故障模式和影响分析是最严格的根本原因分析方法之一。与风险分析类似,FMEA 确定系统/流程故障的每种可能性,并调查每个假设故障的潜在影响。然后,组织解决可能导致故障的每个根本原因。

帕累托图

帕累托图通过结合条形图和折线图的功能,用于了解组织最常见根本原因的频率。图表从最常见和最可能的原因开始,按频率从高到低的顺序显示根本原因。然后,团队解决其解决方案为组织提供最显著好处的根本原因。

影响分析

借助影响分析,组织可以评估每个可能的根本原因的 潜在的积极和消极影响。

更改分析

在系统或流程的性能发生重大变化的情况下,更改分析很有帮助。在执行此类 RCA 时,部门会研究问题或事件相关情况随时间变化的状况。调查个人、信息、基础设施或数据等因素的变化可以帮助组织了解哪些因素导致了性能变化。

事件分析

事件分析通常用于确定重大单一事件问题的原因,例如漏油或建筑物倒塌。事件分析依赖快速(但彻底)的证据收集流程来重新创建导致事件发生的事件序列。时间线确定后,组织即可更轻松地确定因果和促成因素。

因果因素树分析

因果因素树分析也称为因果因素分析,组织可以使用因果因素树分析记录和直观显示导致特定问题的每个决策、事件或行动。

石川图

石川图(或鱼骨图)是一种因果图,可以直观地显示问题相关的情况。该图类似于鱼骨架,将一长串原因分为相关的子类别。

DMAIC

DMAIC 是定义、测量、分析、改进和控制 (Define, Measure, Analyze, Improve, and Control) 流程的缩写。这种数据驱动的流程改进方法是组织的六西格玛实践的一部分。

Kepner-Tregoe 的根本原因分析 (RCA) 方法

这种 RCA 方法提出通过四步式问题解决流程来找到问题的根本原因。该流程从情境分析开始,然后是问题分析和解决方案分析,最后是潜在问题分析。

故障树分析 (FTA)

借助 FTA,组织可以直观地绘制潜在的因果关系并使用布尔逻辑确定根本原因。

障碍分析

障碍分析基于这样的理念:适当的障碍可以防范问题和事件的发生。这种类型的 RCA 通常用于风险管理,可以调查缺乏适当障碍如何导致问题,并建议设置障碍以防止问题再次发生。

根本原因分析 (RCA) 的好处

使用 RCA 流程的公司希望结束“救火”和治标不治本的做法。相反,他们希望优化业务运营、降低风险并提供更好的客户体验。投资根本原因分析 (RCA) 流程可以为提升整体决策提供框架,并为组织带来以下好处:

  • 持续改进:根本原因分析是一个迭代式过程,不仅要解决紧急问题,还要从根本原因开始,随着时间的推移改进整个系统。根本原因分析的迭代性质支持组织优先考虑持续的流程改进。

  • 提高工作效率:防止组织内的停机、延迟、员工流失和其他生产问题,可以帮助员工节省时间,释放带宽以便专注于其他关键任务。

  • 降低成本:当设备故障或软件错误导致延迟时,组织会蒙受损失,员工会感到沮丧。根本原因分析 (RCA) 有助于节省持续解决重复出现问题的开支,从而降低整体运营成本。

  • 更好的缺陷检测:当公司未能解决根本问题时,它们可能会在无意中影响最终产品的质量。在持续存在的问题迅速恶化之前予以解决,可以防止组织遭受与产品缺陷相关的收入和声誉损失。

  • 降低风险:改善业务流程和系统可保持设备安全运行,并帮助员工避免工作场所的安全危险。

相关解决方案
IBM Instana Observability 新一代应用性能管理平台

利用 AI 和自动化的强大功能,主动解决整个应用程序堆栈中的问题。

    深入了解 IBM Instana Observability
    DevOps 解决方案

    使用开发运维软件和工具,在多种设备和环境中构建、部署和管理云原生应用程序。

      探索 DevOps 解决方案
      云咨询服务

      加速推进业务敏捷性和增长 – 利用我们的云服务和咨询服务,可对任何平台上的应用程序持续进行现代化改造。

      深入了解我们的云咨询服务
      采取后续步骤

      利用 AI 和自动化的强大功能,主动解决整个应用程序堆栈中的问题。

      深入了解 IBM Instana Observability 体验 Instana