云治理是指指导企业如何采用、管理、使用和运行云服务的政策框架。
治理框架明确企业为确保云服务使用安全、透明且契合整体业务目标,所设立的全部角色职责与技术管控措施。治理框架充当云的“内部规则”。它们明确规定了谁有权创建或删除资源、必须落实哪些安全措施、团队如何进行成本管控,以及企业如何持续遵守法律法规要求。
云治理框架基于一系列治理组件构建而成,其初衷也正是为了适配和解决这些治理组件相关的管理需求。这些组件包括:
云平台只需轻点几下,就能轻松创建各类资产和资源的新实例。没有明确的防护措施,这些环境中无序支出、安全漏洞和运营混乱的风险将大幅增加。
云治理框架通过制定政策(成文规则)、流程(规则的执行方式)、管控措施(落地规则的技术机制)以及权责清晰的角色分工(明确人员权限与职责),有效防范此类问题的发生。
归根结底,云治理的目标是让组织充分享受云服务带来的便利,同时通过落实安全与权责管控措施,降低各类相关风险。
通过 Think 时事通讯,了解有关 AI、自动化、数据等方面最重要且最有趣的行业趋势。请参阅 IBM 隐私声明。
云战略可帮助企业应对与云相关的常见挑战,包括复杂性、攻击面、影子 IT 和成本管理。
总体而言,云为企业带来了极大利好。云服务可让开发与运营团队根据业务需求快速弹性扩缩容资源,无需为应对峰值负载过度冗余部署硬件,从而提升 IT 环境的灵活性。它们可以帮助开发人员在几分钟内配置基础设施,从而加快构建、测试和部署新应用程序和服务的过程。
云服务提供商在设计平台时,通常会配备冗余备份与灾难恢复能力,以此提升跨区域的系统可用性。
然而,云计算并非没有挑战。
云环境本身具备高度复杂性,大多数企业都在规模庞大、地域分布广泛的混合云与多云架构中部署云服务。
云服务还为 IT 环境增加了更多面向互联网的端点——web 应用程序、应用程序接口 (API)、负载平衡器,从而大大扩展了攻击面。更大的攻击面会增加安全隐患与数据泄露的风险隐患。根据 IBM 发布的《2025 年数据泄露成本报告》,有 30% 的数据泄露事件涉及跨多环境分布的数据。
员工和各部门往往可未经审批自行开通使用各类云工具,容易造成云服务无序扩张,既没有明确的权责归属,也缺乏规范的管理机制。这种被称为云蔓延的现象,会让团队几乎无法全面清查跨云平台、数据中心及各区域下的所有资产、工作负载、数据流和身份权限。这会导致难以掌握云系统的运行全貌,也无法有效管控云成本支出。
近半数 (44%) 企业对自身的云支出仅具备有限的可视管控能力。在无序扩张的云环境中大量滋生的未受管控数据源(影子数据),极易成为网络犯罪分子的攻击目标;因此,云蔓延还会带来极大的数据安全风险与安全漏洞。
而且,由于云环境需要数据才能穿越分散的平台和服务,因此可能很难对每个组件应用适当的加密协议和访问控制。
云治理举措有助于企业建立云政策与最佳实践的统一权威基准,从而实现更清晰、数据驱动的决策。团队可以在所有云环境中设置一致的防护措施和安全控制。统一规则适用于所有云资源,IT 环境的整体安全态势也将得到进一步强化。
治理能够帮助企业规范环境创建方式、资源归属权责以及变更流程,让各团队可以安全、便捷地使用已合规审批的云资源。强有力的治理模型还明确了云决策的角色和责任。如果云工作负载出现问题,每个人都知道哪个用户负责解决该。这种标准化和角色明确性的提高有助于提高跨部门的运营效率。
云治理支持对云资源使用情况进行集中监控与报表统计,让用户能够更清晰地掌握云环境整体状况。这些功能帮助企业跟踪云支出,将成本映射到特定人员或行动,并随着时间优化云预算。
此外,云治理框架可帮助组织确保云投入能够产生可量化的实际价值,而非仅在架构中盲目堆砌高端技术。
将新兴技术纳入 IT 环境好处颇多,但这些技术必须服务于明确目的。良好的治理要求各团队将云相关决策与业务成果直接挂钩,并在扩展云服务前明确新投入的价值定位,以此推动成本优化。
组织通常使用云治理解决方案来落实云治理框架。例如一系列高级云管理工具可自动执行治理实践和策略。云治理解决方案的广泛功能有助于降低云治理的复杂性,使企业能够在整个 IT 生态系统中简化实施流程。
有效的云治理框架建立在一套通用原则之上。
云资源的使用应服务于整体业务与 IT 目标,而非仅迎合技术偏好。治理框架可帮助组织将云决策映射到具体结果、价值评估和风险评估。
治理有助于确保用户在云端的所有操作,均符合外部法规、行业标准及内部政策(如安全基线)。治理框架将这些要求转化为具体规则和常态化核查机制,确保企业合规有据可依。
治理明确业务、安全、运营、财务和开发团队之间的角色和职责。治理可明确权责归属边界,通常会按各项服务或业务领域制定共担责任矩阵(例如谁负责补丁修复、谁负责数据备份)。
这些举措能够实现透明沟通,让治理成为企业全员协同参与的常态化工作。
成功的云治理策略通常依托自动化工作流,持续监控各项云服务的运行状态,并在出现偏离政策规范或性能预期的情况时自动作出响应。这些流程有助于确保云平台能够快速动态调整,近乎实时响应威胁并纠正问题。
云治理框架使企业能够制定并执行云服务访问与使用的严格策略,从而更轻松地管理复杂且动态变化的云环境。
作为一门专业领域,云治理融合了多种不同类型的 IT 管理方式,构建起端到端保护云服务的完整治理框架。
云治理的数据管理组件规定了如何在云中对数据进行分类、存储、保护、保留和删除。
海量数据存储在云中。如今,超过半数的企业数据 (51%) 存储在公有云中。
云平台能够更便捷地完成这种大规模数据的采集与分析工作。同时,云中大数据工作流和数据库的存在使数据管理成为云治理的重要组成部分。
数据管理通常从使用“公开”、“内部”、“机密”和“高度机密”等类别的数据分类方案开始。每种分类都映射到相应的加密协议、访问限制、地理位置约束和备份策略。
数据管理政策还涉及数据生命周期管理。数据生命周期管理明确规定:数据何时必须归档、基于法规或业务原因需留存多久,以及如何安全销毁数据。它明确了数据主权(约束数据在不同国家和地区进行处理、存储的相关法律法规)、跨境数据传输以及数据隐私的相关要求,在涉及个人身份信息时尤为重要。
运营管理界定云端日常运营工作,包括:
运营管理还列出了服务级别目标 (SLO) 和服务级别协议 (SLA),用于确定云服务的性能目标。
安全与合规管理是云管理的关键组成部分,有助于确保所有云工作负载得到防护、安全策略有效落地,并满足各项法规要求。
实际上,这意味着将高级别义务(例如“我们必须保护个人数据”)转化为具体的控制措施,例如多重身份验证 (MFA)。这还需要在所有云环境中统一落地实施管控措施。
安全和合规管理实践高度依赖身份和访问管理 (IAM) 系统。IAM 系统有助于实施细粒度访问策略,例如基于角色的访问控制 (RBAC),规定谁可以查看、修改或部署每个组件。
云安全管理还涉及网络安全(使用防火墙和分段实践)、事件响应工具和实践(例如安全信息和事件管理软件)以及证据收集协议。
云成本管理确保云资源支出具备计划性、高性价比,并与业务目标紧密挂钩。
全球近 85% 的高管和技术专业人士认为云成本支出是其面临的最大挑战。由于创建新实例和云服务的操作十分简便,云支出很容易迅速失控。多数企业 (76%) 每月在云服务上的支出超过 500 万美元。
成本管理实践为技术决策增添了财务纪律,使团队在选择云服务时始终考虑预算和投资回报率。
财务管理包括制定预算流程、成本回收/成本展示模式以及成本分摊机制(例如通过标签将支出对应至具体业务环节或业务部门)。成本展示模式仅向各团队展示其云资源使用成本,不进行直接计费结算;成本分摊计费模式则会就云服务使用情况向各团队直接计费。
云成本管理的核心目标包括资源规格合理配置以及杜绝资源闲置浪费,这类无效消耗占云支出总额的 29%。
风险管理能够帮助企业识别并评估云场景特有的各类风险,例如厂商锁定效应(企业若更换云服务商,需付出高昂成本、投入大量精力,还可能造成业务中断)。关键在于了解可能出现什么问题,问题会严重性以及发生的概率。掌握这些信息后,企业便可制定管控措施,对风险进行规避、缓释、分担或明确接受。
风险管理还会影响预防性、检测性和纠正性控制措施的设计。
假设云安全团队发现某对象存储服务中存有敏感客户数据,但其存储桶权限策略设置过于宽松,极易引发数据泄露风险。
该团队可制定一条企业级通用规则:在生产账号中创建存储桶时,必须默认开启禁止公开访问配置,此为预防性管控措施。如果用户的部署模板尝试公开存储区,部署将失败并返回错误消息。
该团队可通过脚本实施持续配置扫描(侦测性管控措施),自动检查标记为“公开”的存储桶,或是带有“敏感数据”标签的存储对象。如果扫描发现符合条件的存储桶,安全团队以及该服务所属业务团队都将收到通知。
安全团队还可能会实施自动修复功能(纠正性控制)。当监控系统检测到包含敏感数据的公共存储桶时,它会自动从该存储桶中删除公共访问权限,启用默认加密并在 IT 服务管理 (ITSM) 系统中创建事件票证。
公司成立云治理委员会,成员来自安全、合规、IT、DevOps 和财务部门。治理委员会制定明确的规则,例如:
这些规则会转化为书面政策。例如:“受保护健康信息 (PHI) 必须加密且禁止公开访问”以及“仅临床应用团队可访问生产环境电子健康记录 (EHR) 数据库”。
治理委员会决定如何组织云环境。他们为开发、测试、暂存和生产创建独立账户。敏感 EHR 工作负载部署在专属生产账户,而各类工具与日志则存放于共享安全账户中。
然后,他们定义 RBAC 策略。开发人员可以从事开发和测试工作。运营人员可管理预发布环境与生产环境。安全团队可以查看所有内容的日志和治理策略。这些角色会映射到人力资源部门用户组,从而让访问权限管控与人员岗位职责保持一致。
公司将其云服务连接到单点登录 (SSO) 系统。用户用工作账户登录,根据工作组获得云端角色(例如生产管理员、只读查看器、安全审计员和财务分析师等)。
委员会决定对敏感岗位强制启用 MFA。而对于风险等级最高的角色,仅在必要时授予短时临时访问权限(称为“即时访问”),权限到期后将自动回收。
例如,当一名新的 DevOps 工程师加入团队时,系统会将其分配至对应的用户组,并自动授予其开发和测试环境所需的云权限(不含生产环境权限)。
公司将策略转化为策略即代码规则,可自动拦截高风险操作。借助策略即代码,安全、合规及运营相关策略可直接编写为软件代码,并由治理工具或云平台自动强制执行。
例如,策略即代码规则可以阻止 PHI 相关工作负载部署到美国和加拿大以外地区,也可强制要求数据库开启备份功能。
这些规则有两种执行方式。在云平台层面,持续集成/持续交付 (CI/CD) 管道在部署之前会检查云基础架构模板。它们同时会作为企业级全局策略强制执行,即便有人试图通过控制台手动创建资源,不合规的变更也会被直接拒绝。
由于公司处理健康数据,因此对数据治理尤其严格。每个数据存储都标有分类,默认情况下,所有存储和数据库都经过加密(使用集中管理的加密密钥),并且禁止开发人员禁用加密。
PHI 相关工作负载运行在无互联网直连的专用私有网络中,仅通过已审批的网关或负载均衡器对外暴露服务。公司还在中心账户中收集详细日志,并执行自动核查,向审计机构证明企业符合 HIPAA 及其他合规标准要求。
每一项云资源都标注有成本中心和所属负责人,从而可将费用精准追溯至具体团队或产品。
FinOps 工具(在混合云和多云环境中强制执行财务问责措施)使用仪表板按应用程序、环境和地区显示云支出,显示每个业务部门的预算和警报。如果某项新的分析工作负载突然产生高额开销,仪表板会将该工作负载标记为预算超支。
研究团队会收到高开销工作负载的自动警报,促使他们核查云资源使用情况。在此过程中,他们发现该工作负载使用的是 EHR 测试匿名数据,并非真实的生产实时数据。测试工作十分重要,因此团队没有关停整个工作负载,而是决定严格限制非生产工作负载每日可使用的数据量。
随着新的云服务、威胁或法规出现,公司不断审查其云治理框架和相关政策。
如果情况发生变化,治理委员会会相应地调整框架。他们还提供培训和文档资料,帮助开发人员在治理规则范围内开展工作,包括资源标签标注、环境申请以及 PHI 的规范处理方法。
人工智能 (AI) 正通过自动化关键功能、对云资源、工作负载及操作行为进行实时分析,重塑云治理模式。AI 正在云环境中政策的定义、执行、监控和优化中显现,但也迫使企业在传统云控制之上实施新的治理要求。
AI 工具可以持续发现云资源并对其进行分类,识别敏感数据,提供有关薄弱或限制性控制的洞察分析,以及维护服务沿袭(云服务如何随时间演变的记录)。
AI 驱动的云治理还增强了云的可扩展性,让企业可从数千项云资源扩容至数十万项,无需大幅增加治理人员。
为了适应规模化,AI 只是重组治理工作负载。AI 和 机器学习 (ML) 算法处理资源检测、问题分类和基本修复任务(例如,标记资源或强制执行预算上限)。人类专注于设计防护措施、处理异常和边缘情况,并权衡风险。
许多云供应商和专用平台还在其云堆栈中提供针对生成式 AI 的治理控制措施,这有助于团队采用智能云治理。
在智能治理环境中,相关策略在云平台中进行编码并强制执行,同时生成式 AI 层部署于上层架构。生成式 AI 驱动的治理工具可开展高级数据分析,提供自动风险评分、异常检测以及数据汇总等能力。一些云供应商还提供私有端点和零信任数据路由,确保生成式 AI 端点永远不会暴露在公共互联网中。
虽然 AI 技术可以成为强大的治理赋能工具,但其自身也需要接受治理约束。
AI 容易受到模型漂移(由于学习模式不再符合现实,AI 或机器学习模型随着时间的推移会变得更糟)和网络攻击等问题的影响。
与云资源的情况类似,各团队可快速搭建 AI 服务,无意间催生了影子 AI 工具,这类工具不受正式安全管控与合规策略约束。在《2025 年数据泄露成本报告》中,涉及影子 AI 的安全事件占所有数据泄露事件的 20%。
此外,许多 AI 工具都基于云端构建和运行,因此 AI 治理要求实际上已等同于云治理要求。因此,企业不再采用“在现有策略之上叠加 AI”的方式,而是转向具备 AI 适配能力的全域云治理,配套严格的测试流程与清晰明确的问题升级处置路径。
云环境中的有效人工智能治理通常要求:
这些及其他规范可帮助组织整合足够的 AI 控制,同时最大限度地提高在云中使用 AI 的优势。