技术界面的风格化插图或 3D 渲染图

什么是云治理?

云治理详解

云治理是指指导企业如何采用、管理、使用和运行云服务的政策框架。

治理框架明确企业为确保云服务使用安全、透明且契合整体业务目标,所设立的全部角色职责与技术管控措施。治理框架充当云的“内部规则”。它们明确规定了谁有权创建或删除资源、必须落实哪些安全措施、团队如何进行成本管控,以及企业如何持续遵守法律法规要求。

云治理框架基于一系列治理组件构建而成,其初衷也正是为了适配和解决这些治理组件相关的管理需求。这些组件包括:

云平台只需轻点几下,就能轻松创建各类资产和资源的新实例。没有明确的防护措施,这些环境中无序支出、安全漏洞和运营混乱的风险将大幅增加。

云治理框架通过制定政策(成文规则)、流程(规则的执行方式)、管控措施(落地规则的技术机制)以及权责清晰的角色分工(明确人员权限与职责),有效防范此类问题的发生。

归根结底,云治理的目标是让组织充分享受云服务带来的便利,同时通过落实安全与权责管控措施,降低各类相关风险。

为什么云治理很重要?

云战略可帮助企业应对与云相关的常见挑战,包括复杂性、攻击面影子 IT 和成本管理。

总体而言,为企业带来了极大利好。云服务可让开发与运营团队根据业务需求快速弹性扩缩容资源,无需为应对峰值负载过度冗余部署硬件,从而提升 IT 环境的灵活性。它们可以帮助开发人员在几分钟内配置基础设施,从而加快构建、测试和部署新应用程序和服务的过程。

云服务提供商在设计平台时,通常会配备冗余备份与灾难恢复能力,以此提升跨区域的系统可用性。

然而,云计算并非没有挑战。

云环境本身具备高度复杂性,大多数企业都在规模庞大、地域分布广泛的混合云多云架构中部署云服务。

云服务还为 IT 环境增加了更多面向互联网的端点——web 应用程序、应用程序接口 (API)负载平衡器,从而大大扩展了攻击面。更大的攻击面会增加安全隐患与数据泄露的风险隐患。根据 IBM 发布的《2025 年数据泄露成本报告》,有 30% 的数据泄露事件涉及跨多环境分布的数据。

员工和各部门往往可未经审批自行开通使用各类云工具,容易造成云服务无序扩张,既没有明确的权责归属,也缺乏规范的管理机制。这种被称为云蔓延的现象,会让团队几乎无法全面清查跨云平台、数据中心及各区域下的所有资产、工作负载、数据流和身份权限。这会导致难以掌握云系统的运行全貌,也无法有效管控云成本支出。

近半数 (44%) 企业对自身的云支出仅具备有限的可视管控能力。在无序扩张的云环境中大量滋生的未受管控数据源(影子数据),极易成为网络犯罪分子的攻击目标;因此,云蔓延还会带来极大的数据安全风险与安全漏洞。

而且,由于云环境需要数据才能穿越分散的平台和服务,因此可能很难对每个组件应用适当的加密协议和访问控制。

云治理举措有助于企业建立云政策与最佳实践的统一权威基准,从而实现更清晰、数据驱动的决策。团队可以在所有云环境中设置一致的防护措施和安全控制。统一规则适用于所有云资源,IT 环境的整体安全态势也将得到进一步强化。

治理能够帮助企业规范环境创建方式、资源归属权责以及变更流程,让各团队可以安全、便捷地使用已合规审批的云资源。强有力的治理模型还明确了云决策的角色和责任。如果云工作负载出现问题,每个人都知道哪个用户负责解决该。这种标准化和角色明确性的提高有助于提高跨部门的运营效率

云治理支持对云资源使用情况进行集中监控与报表统计,让用户能够更清晰地掌握云环境整体状况。这些功能帮助企业跟踪云支出,将成本映射到特定人员或行动,并随着时间优化云预算。

此外,云治理框架可帮助组织确保云投入能够产生可量化的实际价值,而非仅在架构中盲目堆砌高端技术。

将新兴技术纳入 IT 环境好处颇多,但这些技术必须服务于明确目的。良好的治理要求各团队将云相关决策与业务成果直接挂钩,并在扩展云服务前明确新投入的价值定位,以此推动成本优化。

组织通常使用云治理解决方案来落实云治理框架。例如一系列高级云管理工具可自动执行治理实践和策略。云治理解决方案的广泛功能有助于降低云治理的复杂性,使企业能够在整个 IT 生态系统中简化实施流程。

云治理原则

有效的云治理框架建立在一套通用原则之上。

对标业务目标

云资源的使用应服务于整体业务与 IT 目标,而非仅迎合技术偏好。治理框架可帮助组织将云决策映射到具体结果、价值评估和风险评估。

遵守政策和标准

治理有助于确保用户在云端的所有操作,均符合外部法规、行业标准及内部政策(如安全基线)。治理框架将这些要求转化为具体规则和常态化核查机制,确保企业合规有据可依。

明确的责任归属和协作

治理明确业务、安全、运营、财务和开发团队之间的角色和职责。治理可明确权责归属边界,通常会按各项服务或业务领域制定共担责任矩阵(例如谁负责补丁修复、谁负责数据备份)。

这些举措能够实现透明沟通,让治理成为企业全员协同参与的常态化工作。

正式变革管理

云治理要求云环境的所有变更都遵循一致、可预测的工作流,方便团队复制、审查和审计。任何可能影响云安全性、合规性、成本或可用性的操作都应视为受控变更,并遵循自动化变革管理流程,以最大限度地降低风险。

持续监测与响应

成功的云治理策略通常依托自动化工作流,持续监控各项云服务的运行状态,并在出现偏离政策规范或性能预期的情况时自动作出响应。这些流程有助于确保云平台能够快速动态调整,近乎实时响应威胁并纠正问题。

云治理框架的组件

云治理框架使企业能够制定并执行云服务访问与使用的严格策略,从而更轻松地管理复杂且动态变化的云环境。

作为一门专业领域,云治理融合了多种不同类型的 IT 管理方式,构建起端到端保护云服务的完整治理框架。

数据管理

云治理的数据管理组件规定了如何在云中对数据进行分类、存储、保护、保留和删除。

海量数据存储在云中。如今,超过半数的企业数据 (51%) 存储在公有云中

云平台能够更便捷地完成这种大规模数据的采集与分析工作。同时,云中大数据工作流和数据库的存在使数据管理成为云治理的重要组成部分。

数据管理通常从使用“公开”、“内部”、“机密”和“高度机密”等类别的数据分类方案开始。每种分类都映射到相应的加密协议、访问限制、地理位置约束和备份策略。

数据管理政策还涉及数据生命周期管理。数据生命周期管理明确规定:数据何时必须归档、基于法规或业务原因需留存多久,以及如何安全销毁数据。它明确了数据主权(约束数据在不同国家和地区进行处理、存储的相关法律法规)、跨境数据传输以及数据隐私的相关要求,在涉及个人身份信息时尤为重要。

运营管理

运营管理界定云端日常运营工作,包括:

  • 资源配置:指对虚拟机、数据库、账号、Kubernetes 集群及其他系统等云资源,进行创建、变更与下线销毁的规范化管控流程。
  • 变革管理规定如何提出、审查、批准、测试和最终推出生产环境变更(例如代码和基础架构部署)。变革管理规范可协助团队在维持甚至提升部署速度的同时,将风险降至最低。
  • 部署实践指明如何将应用程序和服务的新版本发布到云环境中。
  • 监控与告警管理实践明确需监控的指标及各类数据,并制定告警标准,助力团队提前发现问题、快速响应处置。
  • 事件管理即处理意外中断或服务质量下降(包括数据泄露和网络攻击)的流程。事件管理明确界定何为事件、事件的分类方式、检测与记录流程,以及各类事件的责任归属。
  • 容量规划有助于确保云服务有足够的资源(计算、存储、网络带宽)来满足需求,同时不会过度配置资源。容量规划职能定义了资源扩容的阈值与触发条件。他们还会在必要时启用自动扩缩容功能,并监控资源使用率趋势,协助团队预判未来的资源分配需求。

运营管理还列出了服务级别目标 (SLO)服务级别协议 (SLA),用于确定云服务的性能目标。

安全与合规管理

安全与合规管理云管理的关键组成部分,有助于确保所有云工作负载得到防护、安全策略有效落地,并满足各项法规要求。

实际上,这意味着将高级别义务(例如“我们必须保护个人数据”)转化为具体的控制措施,例如多重身份验证 (MFA)。这还需要在所有云环境中统一落地实施管控措施。

安全和合规管理实践高度依赖身份和访问管理 (IAM) 系统。IAM 系统有助于实施细粒度访问策略,例如基于角色的访问控制 (RBAC),规定谁可以查看、修改或部署每个组件。

云安全管理还涉及网络安全(使用防火墙和分段实践)、事件响应工具和实践(例如安全信息和事件管理软件)以及证据收集协议。

云成本管理

云成本管理确保云资源支出具备计划性、高性价比,并与业务目标紧密挂钩。

全球近 85% 的高管和技术专业人士认为云成本支出是其面临的最大挑战。由于创建新实例和云服务的操作十分简便,云支出很容易迅速失控。多数企业 (76%) 每月在云服务上的支出超过 500 万美元。

成本管理实践为技术决策增添了财务纪律,使团队在选择云服务时始终考虑预算和投资回报率。

财务管理包括制定预算流程、成本回收/成本展示模式以及成本分摊机制(例如通过标签将支出对应至具体业务环节或业务部门)。成本展示模式仅向各团队展示其云资源使用成本,不进行直接计费结算;成本分摊计费模式则会就云服务使用情况向各团队直接计费。

云成本管理的核心目标包括资源规格合理配置以及杜绝资源闲置浪费,这类无效消耗占云支出总额的 29%

风险管理

风险管理能够帮助企业识别并评估云场景特有的各类风险,例如厂商锁定效应(企业若更换云服务商,需付出高昂成本、投入大量精力,还可能造成业务中断)。关键在于了解可能出现什么问题,问题会严重性以及发生的概率。掌握这些信息后,企业便可制定管控措施,对风险进行规避、缓释、分担或明确接受。

风险管理还会影响预防性、检测性和纠正性控制措施的设计。

假设云安全团队发现某对象存储服务中存有敏感客户数据,但其存储桶权限策略设置过于宽松,极易引发数据泄露风险。

该团队可制定一条企业级通用规则:在生产账号中创建存储桶时,必须默认开启禁止公开访问配置,此为预防性管控措施。如果用户的部署模板尝试公开存储区,部署将失败并返回错误消息。

该团队可通过脚本实施持续配置扫描(侦测性管控措施),自动检查标记为“公开”的存储桶,或是带有“敏感数据”标签的存储对象。如果扫描发现符合条件的存储桶,安全团队以及该服务所属业务团队都将收到通知。

安全团队还可能会实施自动修复功能(纠正性控制)。当监控系统检测到包含敏感数据的公共存储桶时,它会自动从该存储桶中删除公共访问权限,启用默认加密并在 IT 服务管理 (ITSM) 系统中创建事件票证。

AI 学院

利用混合云实现 AI 就绪

本课程由 IBM 资深思想领袖带领,旨在帮助企业领导者获得所需的知识,以便划分可以推动增长的 AI 投资的优先级。

云治理的实际应用

设想某全球医疗保健公司正在将其电子健康记录 (EHR) 系统迁移到公有云,以提高可扩展性和可用性。该公司使用多个云账户及各类云服务,包括虚拟机 (VM)、数据库、对象存储以及无服务器函数。为此环境创建云治理框架可能包括以下步骤:

第 1 步

公司成立云治理委员会,成员来自安全、合规、IT、DevOps 和财务部门。治理委员会制定明确的规则,例如:

  • 只有 DevOps 团队才能部署到生产环境。

  • 所有患者数据都必须加密,无论是传输中还是静态数据。

  • 患者数据必须保留在美国或加拿大。

  • 每个资源都必须标注所有者、成本中心、环境和数据分类标签。

这些规则会转化为书面政策。例如:“受保护健康信息 (PHI) 必须加密且禁止公开访问”以及“仅临床应用团队可访问生产环境电子健康记录 (EHR) 数据库”。

第 2 步

治理委员会决定如何组织云环境。他们为开发、测试、暂存和生产创建独立账户。敏感 EHR 工作负载部署在专属生产账户,而各类工具与日志则存放于共享安全账户中。

然后,他们定义 RBAC 策略。开发人员可以从事开发和测试工作。运营人员可管理预发布环境与生产环境。安全团队可以查看所有内容的日志和治理策略。这些角色会映射到人力资源部门用户组,从而让访问权限管控与人员岗位职责保持一致。

第 3 步

公司将其云服务连接到单点登录 (SSO) 系统。用户用工作账户登录,根据工作组获得云端角色(例如生产管理员、只读查看器、安全审计员和财务分析师等)。

委员会决定对敏感岗位强制启用 MFA。而对于风险等级最高的角色,仅在必要时授予短时临时访问权限(称为“即时访问”),权限到期后将自动回收。

例如,当一名新的 DevOps 工程师加入团队时,系统会将其分配至对应的用户组,并自动授予其开发和测试环境所需的云权限(不含生产环境权限)。

第 4 步

公司将策略转化为策略即代码规则,可自动拦截高风险操作。借助策略即代码,安全、合规及运营相关策略可直接编写为软件代码,并由治理工具或云平台自动强制执行。

例如,策略即代码规则可以阻止 PHI 相关工作负载部署到美国和加拿大以外地区,也可强制要求数据库开启备份功能。

这些规则有两种执行方式。在云平台层面,持续集成/持续交付 (CI/CD) 管道在部署之前会检查云基础架构模板。它们同时会作为企业级全局策略强制执行,即便有人试图通过控制台手动创建资源,不合规的变更也会被直接拒绝。

第 5 步

由于公司处理健康数据,因此对数据治理尤其严格。每个数据存储都标有分类,默认情况下,所有存储和数据库都经过加密(使用集中管理的加密密钥),并且禁止开发人员禁用加密。

PHI 相关工作负载运行在无互联网直连的专用私有网络中,仅通过已审批的网关或负载均衡器对外暴露服务。公司还在中心账户中收集详细日志,并执行自动核查,向审计机构证明企业符合 HIPAA 及其他合规标准要求。

第 6 步

每一项云资源都标注有成本中心和所属负责人,从而可将费用精准追溯至具体团队或产品。

FinOps 工具(在混合云和多云环境中强制执行财务问责措施)使用仪表板按应用程序、环境和地区显示云支出,显示每个业务部门的预算和警报。如果某项新的分析工作负载突然产生高额开销,仪表板会将该工作负载标记为预算超支。

研究团队会收到高开销工作负载的自动警报,促使他们核查云资源使用情况。在此过程中,他们发现该工作负载使用的是 EHR 测试匿名数据,并非真实的生产实时数据。测试工作十分重要,因此团队没有关停整个工作负载,而是决定严格限制非生产工作负载每日可使用的数据量。

第 7 步

随着新的云服务、威胁或法规出现,公司不断审查其云治理框架和相关政策。

如果情况发生变化,治理委员会会相应地调整框架。他们还提供培训和文档资料,帮助开发人员在治理规则范围内开展工作,包括资源标签标注、环境申请以及 PHI 的规范处理方法。

AI 与智能云治理

人工智能 (AI) 正通过自动化关键功能、对云资源、工作负载及操作行为进行实时分析,重塑云治理模式。AI 正在云环境中政策的定义、执行、监控和优化中显现,但也迫使企业在传统云控制之上实施新的治理要求。

利用 AI 进行治理

AI 工具可以持续发现云资源并对其进行分类,识别敏感数据,提供有关薄弱或限制性控制的洞察分析,以及维护服务沿袭(云服务如何随时间演变的记录)。

AI 驱动的云治理还增强了云的可扩展性,让企业可从数千项云资源扩容至数十万项,无需大幅增加治理人员。

为了适应规模化,AI 只是重组治理工作负载。AI 和 机器学习 (ML) 算法处理资源检测、问题分类和基本修复任务(例如,标记资源或强制执行预算上限)。人类专注于设计防护措施、处理异常和边缘情况,并权衡风险。

许多云供应商和专用平台还在其云堆栈中提供针对生成式 AI 的治理控制措施,这有助于团队采用智能云治理。

在智能治理环境中,相关策略在云平台中进行编码并强制执行,同时生成式 AI 层部署于上层架构。生成式 AI 驱动的治理工具可开展高级数据分析,提供自动风险评分、异常检测以及数据汇总等能力。一些云供应商还提供私有端点和零信任数据路由,确保生成式 AI 端点永远不会暴露在公共互联网中。

AI 治理

虽然 AI 技术可以成为强大的治理赋能工具,但其自身也需要接受治理约束。

AI 容易受到模型漂移(由于学习模式不再符合现实,AI 或机器学习模型随着时间的推移会变得更糟)和网络攻击等问题的影响。

与云资源的情况类似,各团队可快速搭建 AI 服务,无意间催生了影子 AI 工具,这类工具不受正式安全管控与合规策略约束。在《2025 年数据泄露成本报告》中,涉及影子 AI 的安全事件占所有数据泄露事件的 20%。

此外,许多 AI 工具都基于云端构建和运行,因此 AI 治理要求实际上已等同于云治理要求。因此,企业不再采用“在现有策略之上叠加 AI”的方式,而是转向具备 AI 适配能力的全域云治理,配套严格的测试流程与清晰明确的问题升级处置路径。

云环境中的有效人工智能治理通常要求:

  • 所有 AI 工作负载的强制性注册要求。

  • 可解释性、偏倚测试和稳健性的要求。

  • 生成式 AI 和第三方模型的可接受使用要求。

  • 人机在环实例规则:用于规定 AI 可自主执行或禁止自主执行操作的场景(例如:AI 可自动拦截登录行为,但拦截高价值交易时必须申请人工审批)。

  • 对自主 AI 行为的明确问责机制(当 AI 阻挡用户时,治理必须明确责任归属)。

这些及其他规范可帮助组织整合足够的 AI 控制,同时最大限度地提高在云中使用 AI 的优势。

作者

Chrystal R. China

Staff Writer, Automation & ITOps

IBM Think

相关解决方案

IBM Cloud 免费套餐

创建免费 IBM Cloud 帐户并访问 40 多种始终免费的产品,包括 IBM Watson API。

创建帐户
IBM Cloud

IBM Cloud 是专为受监管行业设计的企业云平台,提供 AI 就绪、安全的混合解决方案。

深入了解云解决方案
云咨询服务

利用 IBM 的云咨询服务发掘新功能并提升业务敏捷性。了解如何通过混合云战略和专家合作共同制定解决方案、加快数字化转型并优化性能。

云服务
采取后续步骤

利用 IBM 安全可扩展平台释放 AI 和混合云的全部潜力。首先深入了解我们的 AI 就绪解决方案,或创建免费帐户,以访问始终免费的产品和服务。

  1. 深入了解 IBM® Cloud AI 解决方案
  2. 创建免费的 IBM Cloud 账户