什么是数据策管?

男人在两台大型电脑显示器前用笔记本电脑打字。

作者

Alice Gomstyn

Staff Writer

IBM Think

Alexandra Jonker

Staff Editor

IBM Think

什么是数据监护?

数据策管是创建和管理数据集的过程,以便人们能够根据需要查找、访问、使用和复用数据。它涉及将数据资产(有价值的数据集合)添加到中央存储库,以整合资产元数据、用附加信息丰富元数据,并在数据整个生命周期中分析和改进数据质量。
 

如今,组织生成的数据堆积如山,每天的数据量超过 4 亿 TB。这些数据中的大部分可能被证明非常有价值,但前提是企业能够成功理解并充分利用这些数据。

数据策管帮助企业从企业数据中获取重要洞察,并将这些洞察用于决策制定,此为有效数据管理的重要环节。精策管数据对提升人工智能  (AI) 计划成效及确保数据管理与隐私法规合规性同样关键。

在企业外部,数据策管是科研学术环境的核心流程。例如,研究数据策管可以促进开发者、科学家、医疗专业人员等研究者间的数据共享与归档。

数据监护过程可以是手动的,也可以借助自动化来执行,使用专门设计用于规模化执行监护活动的软件。

小球在轨道上滚动的三维设计

最新的 AI 新闻 + 洞察分析

在每周的 Think 时事通讯中,发现专家精选的有关 AI、云等的洞察分析和新闻。 

为什么数据策管至关重要?

从本质上讲,数据监护使企业能够利用其数据来发现价值。但它也可以帮助他们管理指数级的数据增长,支持有效和负责任的 AI 计划,保持法规遵从性并确保数据的可用性。

数据量不断增长

数据量的指数增长为组织提供了较之以往业务相关性更高的数据,其中一些积累的数据集包含来自各种数据源的 TB 或 PB 级别的信息。在宏观层面,据估计,2024 年全球产生了 149 ZB (zettabyte) 的数据,到 2028 年,这一数字预计将增加一倍以上。

对“大数据”这种 前所未有地庞大和复杂的数据集执行质量保证和数据发现,绝非易事。然其至关重要——企业数据日益成为高价值洞察分析来源。为数据驱动型决策进行数据标注与组织,可以赋予跨行业企业竞争优势并提升效能。

有效的人工智能

随着组织将人工智能驱动的功能作为战略要务,解决数据质量和可用性挑战变得尤为紧迫。AI 系统具备改变业务和提高工作效率的潜力,但其数据需求非常大:需要高质量的数据才能有效运行。

低质量的数据可能会导致模型性能不佳,出现“垃圾进,垃圾出”的情况。存在数据质量问题(例如缺失值、异常值或不一致)的数据集可能会扭曲分析并导致输出不正确。

法规一致性

数据监护也有助于确保监管合规性,尤其是在 AI 背景下。许多行业,特别是那些处理敏感信息(如医疗保健或金融服务)的行业,必须应对不断变化的法规环境;这些法规规定该行业中应如何收集、处理、存储和保护数据。

有效的数据监护实践有助于确保根据这些规则收集、存储、处理和标记数据。例如,《欧盟 AI 法案》要求高风险 AI 系统采用严格的数据治理时间,以确保训练、验证和测试数据符合特定的质量标准。例如,围绕数据收集过程进行有效治理至关重要。

数据重用性

数据监护也是确保高质量数据集可重复使用的关键。例如,通过数据监护,组织可以创建和维护专门针对业务的集中式词汇表。通过这种单一可信信息源,组织的用户可以更好地理解和使用数据。当数据可访问且普遍可用时,用户更有可能反复研究数据以获取洞察分析。

Mixture of Experts | 12 月 12 日,第 85 集

解码 AI:每周新闻摘要

加入我们世界级的专家小组——工程师、研究人员、产品负责人等将为您甄别 AI 领域的真知灼见,带来最新的 AI 资讯与深度解析。

数据监护的关键步骤是什么?

数据策管实践因组织而异,但研究者已经识别出数据策管师、数据工程师、数据科学家、数据管理员以及其他数据管理专业人员在大数据生命周期中常见的策管活动。1其中包括:

  • 规划
  • 说明
  • 准备工作
  • 保障
  • 存储和保留
  • 发现和访问

规划

设定数据收集、生产和摄取的战略和标准。数据摄取包括从各种来源采集数据,包括结构化数据库和应用程序编程接口 (API),以及非结构化数据的数据库。数据监护的规划步骤也可以考虑数据治理,这有助于确保数据的完整性数据安全

说明

创建、收集、保留和维护元数据;元数据是描述数据点或数据集的信息,例如作者、创建日期或文件大小。成功的元数据管理有助于提高数据可查找性,实现数据沿袭跟踪并提高系统互作性

准备工作

实施数据准备方法。例如,数据清洗是识别并修正原始数据集中错误和不一致的过程。数据转换是将干净的原始数据转换为可用于分析的格式的过程。而敏感数据的匿名化有助于确保数据隐私和法规遵从。

保证

评估并实现数据质量验证,追踪数据来源,并帮助确保敏感数据的保护。数据质量可以通过准确性、完整性和一致性等指标进行分类。同时,跟踪数据来源可以帮助确认数据的可信度,并确保已从数据提供商那里获得必要的使用权限。

存储和保存

将数据从处理单元传输至数据湖数据仓库等存储库及存储系统。数据保存需要考虑存储不同类型的数据并确保数据安全。

发现和访问

通过制定分类标准、元数据标准化和建立数据检索的方法,使数据可检索和可获取。

数据监护软件解决方案

手动流程会使数据监护变得缓慢、繁琐且低效。然而,正确的数据治理和数据管理解决方案可以帮助企业自动化数据监护工作流程并优化数据管道

领先的解决方案可能包括以下功能:

已治理数据目录

数据目录是组织中所有数据资产的详细库存清单,旨在帮助数据专业人员快速找到所需的数据。已治理数据目录使用数据分类和屏蔽功能来实现安全的数据处理。

策管术语库

特定行业的业务词汇表可以改进数据分类、监管合规和其他治理活动。

人工智能驱动的元数据扩充

可以部署大型语言模型 (LLM) 来丰富元数据,一次性为大量数据资产添加更多上下文、标签或描述。

智能搜索

智能搜索可以改善数据的可访问性并消除孤岛。在 AI 的支持下,它允许用户从任何地方(公司内部或外部)提取信息,无论格式如何,帮助他们快速轻松地找到所需的数据。

数据监护用例

数据策管在各领域发挥重要作用。应用场景含:

推进医学研究

经过整理的数据有助于推动疾病治疗的进步和突破。例如,一家美国医疗诊所最近宣布与一个 AI 健康数据平台合作,以整理针对慢性神经系统疾病多发性硬化症 (MS) 的数据集。

该项目(包含来自 3000 多名患者的收集数据)旨在开发关于疾病亚型、病程进展等方面的数据驱动洞察。2

保障保险业 AI 合规

数据监护可以帮助确保采用 AI 的组织符合适用的法规和要求。

例如,保险行业已广泛采用 AI 和机器学习技术来实现现代化。但是行业中采用 AI 的监管环境是复杂且动态的。《偿付能力 II 指令》等相关法律对保险公司制定了有关“承保和准备金流程相关数据的充分性和质量”的严格政策。这些法规还要求用于测试和训练 AI 系统的数据完整、准确且适当。3

个性化消费者营销

数字与实体零售商常通过细分流程策管购物数据:根据客户的特征、行为和偏好将其分组。这使得零售商能够更有效地针对不同的客户群体开展促销、产品推荐和其他个性化营销活动。

例如,一项对零售电子邮件营销活动的分析确定,分段电子邮件的阅读频率比未分段电子邮件高 15%。4

相关解决方案
IBM Knowledge Catalog

通过智能编目和策略管理激活数据以用于 AI 和分析。IBM Knowledge Catalog 是一款数据治理软件,通过提供数据目录来自动执行数据发现、数据质量管理和数据保护等任务。

探索 Knowledge Catalog
IBM 数据智能解决方案

快速将原始数据转化为可操作的洞察分析,统一数据治理、质量、沿袭和共享,为数据消费者提供可靠的情境化数据。

探索数据智能解决方案
数据和分析咨询服务

通过 IBM Consulting 发掘企业数据的价值,建立以洞察分析为导向的组织,实现业务优势。

了解分析服务
采取后续步骤

查找、理解、整理和访问数据、知识资产及其关系,无论它们位于云端,还是本地。IBM Knowledge Catalog 是一款数据治理软件,通过提供数据目录来自动化数据发现、数据质量管理和数据保护等任务。

探索 IBM Knowledge Catalog 深入了解数据情报解决方案
脚注

1 大数据监护框架:监护行动和挑战。”Journal of Information Science。2022 年 11 月 11 日。

2独家:Century Heath、Nira Medical 合作伙伴提供 AI 整理的 EHR 数据。”MobiHealthNews。2025 年 1 月 14 日。

3 咨询文件:关于人工智能治理和风险管理的意见。”欧洲保险与职业养老金管理局 (EIOPA)。2025 年 2 月 10 日。

4复杂的电子邮件细分可以提高打开率和参与度:报告。”Retail Dive。2025 年 3 月 28 日访问。