主页

topics

数据沿袭

什么是数据沿袭?
深入了解 IBM 的数据沿袭解决方案 注册获取 AI 更新
包含云朵、饼图、象征符号图形的拼贴插图
什么是数据沿袭?

数据沿袭是跟踪一段时间内数据流的过程,有助于清楚地了解数据在数据管道中的来源、变化和最终去向。

数据沿袭工具了提供数据在其整个生命周期内的记录,其中包括源信息以及在任意 ETLELT 流程中应用的所有数据转换。

此类文档有助于用户观察和追踪数据旅程中的不同接触点,以便组织验证准确性和一致性。它是确保组织内数据质量的一大关键功能。它通常可用于获取有关历史流程的上下文,以及对错误进行追溯以找到根本原因。

 

数据领导者指南

了解如何将正确的数据库用于应用、分析和生成式 AI。

相关内容 注册以获取有关 AI 数据存储的电子书
数据沿袭、数据来源与数据治理

数据沿袭、数据来源和数据治理是密切相关的几个术语,同时它们会相互叠加。它们可共同确保组织能随着时间的推移来维持数据质量和数据安全。

数据治理可通过定义贯穿整个数据生命周期的数据所有者、业务术语、规则、政策和流程,在组织内部创建用于管理数据资产的结构。数据沿袭解决方案可帮助数据治理团队确保数据符合这些标准,从而提供对数据在管道内变化情况的可见性。数据来源通常会用于数据沿袭的上下文中,但它具体是指该数据或其来源的第一个实例。

数据沿袭可在非常精细的级别上提供数据审计跟踪;这种类型的详细信息对于调试任何数据错误都极为有用,使数据工程师能够更有效地排除故障,更快地找到解决方案。虽然数据治理的范围比数据沿袭和数据来源更广,但数据管理的这一方面对于实施组织标准非常重要。

企业为何会使用数据沿袭

可靠的数据对于推动从销售到人力资源等各个业务方面的明智决策和流程改进均至关重要。但是,唯有当利益相关者对其准确性充满信心时,这些信息才具有价值,因为洞察信息的优劣取决于这些数据的质量。数据沿袭提供了对数据迁移、系统更新、错误等内容可能导致的变化的可见性,从而可确保数据在其整个生命周期内的完整性。

数据沿袭会记录各种业务与 IT 应用程序中的企业数据之间的关系。此类详细信息可能包括:

  • 数据位于何处以及如何存储在某一环境中;例如,位于本地、数据仓库中或数据湖中。
  • 数据的使用方式以及更新、使用和修改数据的负责人。这还包括有权访问特定敏感数据段的角色和应用程序,例如个人身份信息 (PII)。
  • 跟踪业务用户和应用程序所生成、上传和更改的数据。例如,此操作可能是向客户关系管理 (CRM) 系统添加联系人,也可能是数据转换(如删除重复记录)。
  • 从组织的不同部门来创建和整合的数据,例如网络硬件和服务器。
数据沿袭的工作原理

借助元数据,数据沿袭工具的用户便可充分了解数据流经数据管道的方式。元数据是指“关于数据的数据”,其中包括有关数据资产的各种信息,例如类型、格式、结构、作者、创建日期、修改日期和文件大小。数据沿袭工具可提供元数据的完整视图,以指导用户确定这些数据对他们有多大用处。

近年来,我们存储和利用数据的方式已随着大数据的发展而不断演变。各大公司正在加大对数据科学的投资,以推动决策和业务成果。然而,为了构建一个结构良好的分析,它们还需利用数据沿袭工具和数据目录来进行数据发现与数据映射练习。数据沿袭工具可通过元数据展示数据随时间的演变情况,而数据目录使用相同的信息来创建组织中所有数据资产的可搜索清单。通过将二者结合使用,它们可帮助数据公民了解不同数据元素对给定结果的重要性,而这正是开发任何机器学习算法的基础所在。

数据沿袭用例

当今企业越发需要实时洞察分析,但这些发现又取决于对这些数据及其在整个管道中的演变过程的了解。团队可利用端到端的数据沿袭工具来改进工作流的部分方法包括:

数据建模:要创建企业内不同数据元素及其相应联系的可视化表示形式,企业则须定义支持它们的底层数据结构。数据沿袭有助于为这些关系建模,以便说明整个数据生态系统中的不同依赖关系。由于数据会随着时间的推移而不断变化,因此总会出现新的数据源、需完成新的数据整合等操作。因此,企业用于管理自身数据的整体数据模型也需适应不断变化的环境。数据沿袭有助于通过数据模型图来准确反映这些随时间出现的变化,从而突显新的或过时的连接或表格。反过来,此举又有助于分析师和数据科学家开展有价值的及时分析,因为他们会对这些数据集有着更深入的了解。

数据迁移:将数据移动到新的存储系统或载入新软件时,组织会通过数据迁移来了解这些数据的位置和生命周期。由于数据沿袭提供了这些数据在组织中的演变情况,因此可帮助团队规划这些系统迁移或升级操作,从而加快向新存储环境的整体过渡。此外,它还为团队提供了清理数据系统、归档或删除不相关的旧数据的机会;反过来,此举又可提高数据系统的整体性能,从而减少系统需管理的数据量。

合规性:数据沿袭提供了一种合规机制,以便用于审计、改进风险管理以及确保数据能按数据治理政策和法规进行存储和处理。例如,2016 年,欧盟制定了 GDPR 法规以便保护欧盟与欧洲经济区人民的个人数据,以便个人能更好地控制自己的数据。而在美国,加利福尼亚州等各州制定了 California Consumer Privacy Act (CCPA) 等政策,以要求企业告知消费者有关其数据的收集情况。此类立法将数据存储和安全作为首要任务,而若是缺少数据沿袭工具,组织便会发现不合规问题是一项耗时且昂贵的工作。

影响分析:数据沿袭工具可让您了解特定业务变化的影响,例如任意下游报告。比如,如果数据元素的名称发生更改,数据沿袭便可帮助领导者了解可能影响的仪表板数量,以及随后访问该报告的用户数量。此外,它还有助于评估数据错误的影响以及整个组织中的暴露问题。数据错误的发生可能有多种原因,而这可能会削弱人们对某些商业智能报告或数据源的信任,但是,数据沿袭工具可帮助团队追溯到源头,从而实现数据处理优化以及与各个团队的沟通。

IBM 解决方案
IBM Cloud Pak for Data

使用基于 Data Fabric 架构构建的平台,更快地预测结果。无论数据存储在何处,都能够采集、整理和分析数据。

IBM Cloud Pak for Data
IBM Knowledge Catalog

在主动元数据和策略管理的支持下,利用智能编目技术为 AI 和分析激活业务就绪数据。

IBM Knowledge Catalog
采取后续步骤

借助 IBM watsonx.data 随时随地扩展所有数据的 AI 工作量,IBM watsonx.data 是基于开放式湖仓一体架构构建的适用数据存储。

深入了解 watsonx.data 预约实时演示