如今,组织生成的数据堆积如山,每天的数据量超过 4 亿 TB。这些数据中的大部分可能被证明非常有价值,但前提是企业能够成功理解并充分利用这些数据。
数据策管帮助企业从企业数据中获取重要洞察,并将这些洞察用于决策制定,此为有效数据管理的重要环节。精策管数据对提升人工智能 (AI) 计划成效及确保数据管理与隐私法规合规性同样关键。
在企业外部,数据策管是科研学术环境的核心流程。例如,研究数据策管可以促进开发者、科学家、医疗专业人员等研究者间的数据共享与归档。
数据监护过程可以是手动的,也可以借助自动化来执行,使用专门设计用于规模化执行监护活动的软件。
从本质上讲,数据监护使企业能够利用其数据来发现价值。但它也可以帮助他们管理指数级的数据增长,支持有效和负责任的 AI 计划,保持法规遵从性并确保数据的可用性。
随着组织将人工智能驱动的功能作为战略要务,解决数据质量和可用性挑战变得尤为紧迫。AI 系统具备改变业务和提高工作效率的潜力,但其数据需求非常大:需要高质量的数据才能有效运行。
低质量的数据可能会导致模型性能不佳,出现“垃圾进,垃圾出”的情况。存在数据质量问题(例如缺失值、异常值或不一致)的数据集可能会扭曲分析并导致输出不正确。
数据监护也有助于确保监管合规性,尤其是在 AI 背景下。许多行业,特别是那些处理敏感信息(如医疗保健或金融服务)的行业,必须应对不断变化的法规环境;这些法规规定该行业中应如何收集、处理、存储和保护数据。
有效的数据监护实践有助于确保根据这些规则收集、存储、处理和标记数据。例如,《欧盟 AI 法案》要求高风险 AI 系统采用严格的数据治理时间,以确保训练、验证和测试数据符合特定的质量标准。例如,围绕数据收集过程进行有效治理至关重要。
数据监护也是确保高质量数据集可重复使用的关键。例如,通过数据监护,组织可以创建和维护专门针对业务的集中式词汇表。通过这种单一可信信息源,组织的用户可以更好地理解和使用数据。当数据可访问且普遍可用时,用户更有可能反复研究数据以获取洞察分析。
数据策管实践因组织而异,但研究者已经识别出数据策管师、数据工程师、数据科学家、数据管理员以及其他数据管理专业人员在大数据生命周期中常见的策管活动。1其中包括:
评估并实现数据质量验证,追踪数据来源,并帮助确保敏感数据的保护。数据质量可以通过准确性、完整性和一致性等指标进行分类。同时,跟踪数据来源可以帮助确认数据的可信度,并确保已从数据提供商那里获得必要的使用权限。
通过制定分类标准、元数据标准化和建立数据检索的方法,使数据可检索和可获取。
手动流程会使数据监护变得缓慢、繁琐且低效。然而,正确的数据治理和数据管理解决方案可以帮助企业自动化数据监护工作流程并优化数据管道。
领先的解决方案可能包括以下功能:
数据目录是组织中所有数据资产的详细库存清单,旨在帮助数据专业人员快速找到所需的数据。已治理数据目录使用数据分类和屏蔽功能来实现安全的数据处理。
特定行业的业务词汇表可以改进数据分类、监管合规和其他治理活动。
可以部署大型语言模型 (LLM) 来丰富元数据,一次性为大量数据资产添加更多上下文、标签或描述。
智能搜索可以改善数据的可访问性并消除孤岛。在 AI 的支持下,它允许用户从任何地方(公司内部或外部)提取信息,无论格式如何,帮助他们快速轻松地找到所需的数据。
数据策管在各领域发挥重要作用。应用场景含:
经过整理的数据有助于推动疾病治疗的进步和突破。例如,一家美国医疗诊所最近宣布与一个 AI 健康数据平台合作,以整理针对慢性神经系统疾病多发性硬化症 (MS) 的数据集。
该项目(包含来自 3000 多名患者的收集数据)旨在开发关于疾病亚型、病程进展等方面的数据驱动洞察。2
数据监护可以帮助确保采用 AI 的组织符合适用的法规和要求。
例如,保险行业已广泛采用 AI 和机器学习技术来实现现代化。但是行业中采用 AI 的监管环境是复杂且动态的。《偿付能力 II 指令》等相关法律对保险公司制定了有关“承保和准备金流程相关数据的充分性和质量”的严格政策。这些法规还要求用于测试和训练 AI 系统的数据完整、准确且适当。3
数字与实体零售商常通过细分流程策管购物数据:根据客户的特征、行为和偏好将其分组。这使得零售商能够更有效地针对不同的客户群体开展促销、产品推荐和其他个性化营销活动。
例如,一项对零售电子邮件营销活动的分析确定,分段电子邮件的阅读频率比未分段电子邮件高 15%。4
通过智能编目和策略管理激活数据以用于 AI 和分析。IBM Knowledge Catalog 是一款数据治理软件,通过提供数据目录来自动执行数据发现、数据质量管理和数据保护等任务。
快速将原始数据转化为可操作的洞察分析,统一数据治理、质量、沿袭和共享,为数据消费者提供可靠的情境化数据。
通过 IBM Consulting 发掘企业数据的价值,建立以洞察分析为导向的组织,实现业务优势。
1 “大数据监护框架:监护行动和挑战。”Journal of Information Science。2022 年 11 月 11 日。
2 “独家:Century Heath、Nira Medical 合作伙伴提供 AI 整理的 EHR 数据。”MobiHealthNews。2025 年 1 月 14 日。
3 “咨询文件:关于人工智能治理和风险管理的意见。”欧洲保险与职业养老金管理局 (EIOPA)。2025 年 2 月 10 日。
4 “复杂的电子邮件细分可以提高打开率和参与度:报告。”Retail Dive。2025 年 3 月 28 日访问。