主页

topics

服务级别协议 (SLA)

什么是 SLA(服务级别协议)?
深入了解 IBM 的 SLA 解决方案 订阅 AI 最新消息
拼贴齿轮、机械臂、手机象形图的插图

发布日期:2024 年 5 月 30 日
撰稿人:Michael Goodwin

什么是 SLA?

服务级别协议 (SLA) 是服务提供商与客户之间的合同,其中定义了要提供的服务和预期的性能水平。SLA 还描述了如何衡量和批准性能,以及未达到性能水平时会发生什么。

SLA 通常由供应商与外部客户签订,但公司也会在内部使用 SLA 来正式确定部门或团队之间的协议。

SLA 是外包和信息技术 (IT) 供应商合同的重要组成部分,提供工作关系的端到端视图。它们有助于确保所有利益相关者都准确理解服务协议。

SLA 设定客户期望,让提供商承担责任,并最终帮助优化最终用户体验。SLA 为更顺畅的工作关系铺平了道路,从一开始就厘清不确定性和争论点,并有助于保护所有相关方的利益。

AI 和 IT 自动化企业指南

随着生成式 AI 成为人们关注的焦点,由 AI 驱动的 IT 是时候占据中心舞台了。本指南旨在帮助企业定制、更新甚至重新思考其 IT 和 AI 战略方法。

SLA 类型

服务级别协议主要有 3 种类型:客户级别(有时称为基于客户的 SLA)、服务级别和多级 SLA。

客户级 SLA

基于客户的 SLA 是服务提供商和客户之间的协议,无论客户是外部客户还是内部客户。本协议描述将提供给客户的服务或不同服务。例如,这可能是第三方云服务提供商与科技公司之间的协议,概述了托管应用程序的性能预期。

内部 SLA 是同一组织内两个不同部门、团队或站点之间的协议。这可能是开发和业务团队之间达成的协议,概述了特定应用程序或产品的部署节奏和总体期望。

服务级别 SLA

服务级别 SLA 是一份合同,其中详细说明提供给多个客户的已定义服务。如果提供商提供的产品具有相同级别的服务和支持,无论客户是谁,他们都可能使用服务级别 SLA。

例如,IT 服务管理 (ITSM) 团队可能会对所有客户使用通用 SLA,该 SLA 概述了客户在联系公司寻求服务支持或报告事件时通常可以从服务台获得的服务级别。

多级 SLA

多级 SLA 是将协议分成不同级别,以便在同一协议中包含涉及多方的或不同级别的服务。可以在组织与多个外部提供商之间使用多级 SLA,例如在多云模型(具有多个公有云提供商)中。协议也可以在两个以上的内部团队或部门之间签订。

提供不同定价计划或服务级别之产品(例如 SaaS 产品)的组织也可能使用多级别 SLA 来描述每个产品层的服务级别和预期目标。

相关内容 注册获取可观测性企业指南
SLA 的组成部分

SLA 因公司、产品和每个组织的特定业务需求而异,但大多数 SLA 包含相似的功能。关键组件包括:

概述

概述部分,介绍协议及其最基本的特征,如相关方、所提供服务的大纲以及协议的开始日期和期限。

服务说明

本部分描述所提供的具体服务以及所有相关细节。包括有关服务交付、可交付成果的周转时间、维护时间表、相关依赖关系的信息以及任何其他相关信息。本部分应全面说明所有因素和情况。

利益相关者细分

利益相关者部分列出了协议中涉及的所有各方、他们的角色和责任以及如何联系各方。主要联系人通常被指定为报告最终用户问题的首选联系人。

绩效跟踪和报告

性能部分详细说明了商定的服务可用性和服务性能标准,以及将使用哪些指标来衡量性能。这通常是在服务级别目标 (SLO) 中定义的,SLO 是 SLA 中的一种协议,旨在为特定服务在一段时间内建立商定的绩效目标。

通常包括一个工作流程,概述如何收集信息并与利益相关者共享信息。所有各方都应仔细考虑绩效水平和用于衡量绩效的指标,因为它们是整个协议的核心。

豁免情况

本部分列出协议中豁免的服务或服务交付的各个方面。本部分排除了因客户设备问题或合理控制之外的因素(不可抗力)造成的停机时间。它还可能包括计划维护的例外情况,同时规定此类时间窗口不计入保证的运行时间协议。

安全协议

安全部分介绍提供商维护的安全协议和标准,并提供有关提供商如何保护客户数据的信息。该部分还列出保密协议 (NDA) 以及涉及保护敏感信息或知识产权的任何措施。

补救

本节定义了如果任何一方不履行协议条款将受到的处罚。它详细说明了升级程序、解决方案的时间框架以及如果服务提供商不履行 SLA 的条款将提供的补偿。补偿可能是经济补偿、服务积分或其他补偿。

本部分还列出了赎回条款,例如“赚取返还”等条款,该条款使提供商能够在规定的时间段内达到或超过标准服务水平来重新获得服务积分。

赔偿条款

赔偿条款是 SLA 协议的一个组成部分,通过将风险从客户转移到服务提供商来保护客户。赔偿条款是指服务提供商同意就因违反服务保证而导致的任何第三方诉讼费用、损失或损害,赔偿客户(补偿其损失)的条款。

此类条款并不总是出现在协议中,尤其是标准化的 SLA 模板中,但客户可以在法律顾问的帮助下寻求添加这些条款。

审核和调整过程

供应商能力、工作负载和客户要求会随着时间的推移而变化。因此,应制定既定的流程和时间表,按该时间表的时间安排来审核和修订商定的条款和用于衡量绩效的关键绩效指标。该审核使得 SLA 能够整合提供商产品或服务的最新功能并满足当前的客户需求。

终止流程和条款

协议中应包含一个章节,概述允许在服务协议到期之前取消服务协议的情况,以及采取此类行动时各方所需的通知期限。

签名

该协议由双方授权的利益相关者签署,在协议生效期间约束所有相关方遵守协议条款。

KPI 和 SLA

SLA 是提供商与客户之间达成的协议,其中指明了商定的服务标准。关键绩效指标 (KPI) 是提供商根据这些目标衡量绩效并使团队能够持续改进的措施。KPI 旨在简化评估流程,并让团队准确了解他们在实现既定目标方面的表现。

例如,如果某个组织对其产品/服务的网络安全性做出了某些保证,他们可能会跟踪 KPI,例如给定时间段内的安全事件数量、入侵尝试以及入侵检测或预防系统的成功率、每次事件的成本或供应商安全评级。

企业应考虑哪些 SLA 指标?

服务级别目标 (SLO) 是 SLA 的一部分,它为服务的特定方面(例如错误率、请求延迟或正常运行时间)设定性能基准。性能指标和 KPI 用于评估所提供服务的质量,并确定服务提供商是否满足 SLA 条款的要求。

监控适当的指标是 SLA 成功的重要组成部分。如果没有正确的数据,就很难知道该安排为各方服务的水平如何。跟踪过多的指标会造成混乱,导致难以识读。不同的服务需要跟踪不同的指标,但常见的 SLA 指标包括:

可用性和运行时间

正常运行时间是服务正常运行并可供使用的时间。该指标通常以一段时间内的百分比形式给出,例如每 30 天运行时间为 99.5%(停机时间为 3.6 小时)。正常运行时间要求将因业务类型而异,SLA 将反映这一点。

例如,对于在全球开展业务的电子商务平台来说,每月 3.6 小时的停机时间可能太多了。此类公司可能需要保证更多的可用性,并会寻求能够反映这一可用性要求的 SLA。

错误率

错误率是一种衡量标准,用于跟踪生产或服务故障,以及 IT 服务提供商的服务级别低于预期绩效目标的时间百分比。该协议可能包括针对错过最后期限、功能或更新发布延迟、帮助台负面交互、编码错误率、缺陷率和其他技术质量衡量标准等问题的 SLO。

响应时间

响应时间规定了提供商记录和响应客户问题或请求的可接受时间。

解决时间

解决时间用于确定提供商记录问题后解决问题的可接受时间。

平均恢复时间

该指标是在发生故障或中断后恢复产品、服务或系统所需的平均时间。

首次呼叫解决率

该指标用于衡量在首次与服务台或聊天机器人交互时问题得到提供商解决的客户百分比。

放弃率

对于客户服务提供商或拥有客户服务组件的组织来说,这是一个关键指标。放弃率是指客户在收到帮助台答复之前放弃客户支持咨询的比率。

安全性

可以衡量各种安全措施,例如未公开的漏洞、防病毒更新或软件补丁,以评估提供商对 IT 安全的承诺。

业务成果

通过使用适当的指标和 KPI,组织可以确定提供商的服务或产品如何为实现更广泛的业务目标做出贡献。例如,正在进行数字化转型的公司可能会问:提供商的云资源工具是否可以帮助我们重新控制云计算支出?跟踪正确的数据将有助于回答这个问题。

SLA 的优势

SLA 为服务提供商和客户带来双赢。SLA 有助于:

提高服务质量,改善客户体验

在创建 SLA 时,组织有机会仔细检查其产品、服务和流程以及相关的客户体验,以确定哪些方面运行良好,哪些方面可以改进。SLA 建立了明确的性能目标,为衡量性能和客户体验成功提供基准。

促进交流

SLA 明确了所有利益相关者的角色和责任,以及解决问题和处理争议的流程和渠道。这有助于消除混乱,促进内部和与外部客户的清晰沟通。

提高服务的连续性

SLA 定义服务可用性相关预期,制定停机策略并制定故障和灾难恢复程序。这些措施有助于最大限度地减少中断和意外停机,并快速解决技术问题和服务中断。制定令人满意的流程后,组织就可以利用自动化来增强服务一致性。

最大限度地降低风险

SLA 流程提供积极主动进行风险管理的机会。该流程提前识别潜在风险和威胁,并帮助业务利益相关者制定计划以避免或缓解此类问题。组织可以改善服务交付和响应时间,制定更强大的应急计划并加强其整体风险管理策略。

相关解决方案
IBM Instana Observability

通过任何人都可以使用的解决方案实现可观察性民主化,从而获得所需的数据以及所需的上下文。IBM® Instana Observability 平台专为云原生而构建,但不关联特定技术,可自动持续提供高保真度数据(1 秒粒度和端到端跟踪),以及跨移动、Web、应用和基础架构的逻辑和物理依赖关系。

探索 IBM Instana Observability 请求 Instana 演示

IBM® Instana 应用程序事件修复

在当今瞬息万变的数字环境中,IT 运营面临着前所未有的挑战:应用程序数据的庞大数量和复杂性。借助 Instana 自动事件修复,您可以通过快速的事件管理和高效的问题解决方式,将应用程序停机时间降至接近零。

深入了解 Instana 应用程序事件修复 注册以获取技术预览

IBM Cloud Pak for AIOps

智能运维 (AIOps) 平台可提供对不同环境中性能数据与依赖性的可视化管理,借助该平台,企业可在不断变化的环境中加速创新、降低运营成本并实现 IT 运营 (ITOps) 转型。

探索 Cloud Pak for AIOps
资源 什么是 IT 服务管理 (ITSM)?

探索规划、实施、管理和优化信息技术服务的实践,以满足最终用户的需求,帮助组织实现其业务目标。

什么是 IT 基础架构库 (ITIL)?

了解为什么信息技术基础设施库 (ITIL) 对您的组织至关重要,以及认证如何使您和您的公司受益。

为开发者提供可观测性

了解在软件架构范式从单一结构向微服务演变的情况下,可观察性如何帮助开发者承担更多程序职责,即使在交付之后也是如此。

什么是站点可靠性工程 (SRE)?

通过站点可靠性工程自动化 IT 运营任务、加速软件交付并最大限度降低 IT 风险。

什么是生成式 AI?

生成式 AI,有时也称作 gen AI,是一种人工智能 (AI),能够创建原创内容(例如文本、图像、视频、音频或软件代码)以响应用户的提示或请求。

使用 Instana 优化正常运行时间

每年为客户促进超过 20 亿个文件传输,了解 Exavault 如何通过 Instana 将平均修复时间 (MTTR) 减少 56%。

采取后续步骤

IBM Instana 提供人人都能使用的实时可观察性。它可以快速实现价值,同时确保您的可观察性策略能够跟上当今和未来环境的动态复杂性。从移动设备到大型机,Instana 支持超过 250 种技术,并且还在不断增加。

探索 IBM Instana 预约实时演示