什么是数据沿袭?

在线会议中活泼开朗的中年女商务人士

什么是数据沿袭?

数据沿袭是跟踪一段时间内数据流的过程,有助于清楚地了解数据在数据管道中的来源、变化和最终去向。

数据沿袭工具了提供数据在其整个生命周期内的记录,其中包括源信息以及在任意 ETLELT 流程中应用的所有数据转换。

此类文档有助于用户观察和追踪数据旅程中的不同接触点,以便组织验证准确性和一致性。它是确保组织内数据质量的一大关键功能。它通常可用于获取有关历史流程的上下文,以及对错误进行追溯以找到根本原因。

小球在轨道上滚动的三维设计

最新的 AI 新闻 + 洞察分析

在每周的 Think 时事通讯中,发现专家精选的有关 AI、云等的洞察分析和新闻。 

数据沿袭、数据来源与数据治理

数据沿袭、数据来源和数据治理是密切相关的几个术语,同时它们会相互叠加。它们可共同确保组织能随着时间的推移来维持数据质量和数据安全。

数据治理可通过定义贯穿整个数据生命周期的数据所有者、业务术语、规则、政策和流程,在组织内部创建用于管理数据资产的结构。数据沿袭解决方案可帮助数据治理团队确保数据符合这些标准,从而提供对数据在管道内变化情况的可见性。数据来源通常会用于数据沿袭的上下文中,但它具体是指该数据或其来源的第一个实例。

数据沿袭可在非常精细的级别上提供数据审计跟踪;这种类型的详细信息对于调试任何数据错误都极为有用,使数据工程师能够更有效地排除故障,更快地找到解决方案。虽然数据治理的范围比数据沿袭和数据来源更广,但数据管理的这一方面对于实施组织标准非常重要。

Mixture of Experts | 8 月 28 日,第 70 集

解码 AI:每周新闻摘要

加入我们世界级的专家小组——工程师、研究人员、产品负责人等将为您甄别 AI 领域的真知灼见,带来最新的 AI 资讯与深度解析。

企业为何会使用数据沿袭

可靠的数据对于推动从销售到人力资源等各个业务方面的明智决策和流程改进均至关重要。但是,唯有当利益相关者对其准确性充满信心时,这些信息才具有价值,因为洞察分析信息的优劣取决于这些数据的质量。数据沿袭提供了对数据迁移、系统更新、错误等内容可能导致的变化的可见性,从而可确保数据在其整个生命周期内的完整性。

数据沿袭会记录各种业务与 IT 应用程序中的企业数据之间的关系。此类详细信息可能包括:

  • 数据位于何处以及如何存储在某一环境中;例如,位于本地、数据仓库中或数据湖中。
  • 数据的使用方式以及更新、使用和修改数据的负责人。这还包括有权访问特定敏感数据段的角色和应用程序,例如个人身份信息 (PII)。
  • 跟踪业务用户和应用程序所生成、上传和更改的数据。例如,此操作可能是向客户关系管理 (CRM) 系统添加联系人,也可能是数据转换(如删除重复记录)。
  • 从组织的不同部门来创建和整合的数据,例如网络硬件和服务器。

数据沿袭的工作原理

借助元数据,数据沿袭工具的用户便可充分了解数据流经数据管道的方式。元数据是指“关于数据的数据”,其中包括有关数据资产的各种信息,例如类型、格式、结构、作者、创建日期、修改日期和文件大小。数据沿袭工具可提供元数据的完整视图,以指导用户确定这些数据对他们有多大用处。

近年来,我们存储和利用数据的方式已随着大数据的发展而不断演变。各大公司正在加大对数据科学的投资,以推动决策和业务成果。然而,为了构建一个结构良好的分析,它们还需利用数据沿袭工具和数据目录来进行数据发现与数据映射练习。虽然数据沿袭工具可通过元数据展示数据随时间的演变情况,而数据目录则使用相同的信息来创建组织中所有数据资产的可搜索清单。二者相结合,可帮助数据公民了解不同数据元素对给定结果的重要性,而这正是开发任何机器学习算法的基础所在。

数据沿袭用例

当今企业越发需要实时洞察分析,但这些发现又取决于对这些数据及其在整个管道中的演变过程的了解。团队可利用端到端的数据沿袭工具来改进工作流的部分方法包括:

数据建模:要创建企业内不同数据元素及其相应联系的可视化表示形式,企业则须定义支持它们的底层数据结构。数据沿袭有助于为这些关系建模,以便说明整个数据生态系统中的不同依赖关系。由于数据会随着时间的推移而不断变化,因此总会出现新的数据源、需完成新的数据整合等操作。因此,企业用于管理自身数据的整体数据模型也需适应不断变化的环境。数据沿袭有助于通过数据模型图来准确反映这些随时间出现的变化,从而突显新的或过时的连接或表格。反过来,此举又有助于分析师和数据科学家开展有价值的及时分析,因为他们会对这些数据集有着更深入的了解。

数据迁移:将数据移动到新的存储系统或载入新软件时,组织会通过数据迁移来了解这些数据的位置和生命周期。由于数据沿袭提供了这些数据在组织中的演变情况,因此可帮助团队规划这些系统迁移或升级操作,从而加快向新存储环境的整体过渡。此外,它还为团队提供了清理数据系统、归档或删除不相关的旧数据的机会;反过来,此举又可提高数据系统的整体性能,从而减少系统需管理的数据量。

合规性:数据沿袭提供了一种合规机制,以便用于审计、改进风险管理以及确保数据能按数据治理政策和法规进行存储和处理。例如,2016 年,欧盟制定了 GDPR 法规以便保护欧盟与欧洲经济区人民的个人数据,以便个人能更好地控制自己的数据。而在美国,加利福尼亚州等各州制定了 California Consumer Privacy Act (CCPA) 等政策,以要求企业告知消费者有关其数据的收集情况。此类立法将数据存储和安全作为首要任务,而若是缺少数据沿袭工具,组织便会发现不合规问题是一项耗时且昂贵的工作。

影响分析:数据沿袭工具可让您了解特定业务变化的影响,例如任意下游报告。比如,如果数据元素的名称发生更改,数据沿袭便可帮助领导者了解可能影响的仪表板数量,以及随后访问该报告的用户数量。此外,它还有助于评估数据错误的影响以及整个组织中的暴露问题。数据错误的发生可能有多种原因,而这可能会削弱人们对某些商业智能报告或数据源的信任,但是,数据沿袭工具可帮助团队追溯到源头,从而实现数据处理优化以及与各个团队的沟通。

相关解决方案
IBM® Manta Data Lineage

可视化、转换和优化从源头到消费端的数据流。将数据沿袭应用于任何场景,以提高整个运营过程中的数据透明度和准确性。

了解 IBM Manta Data Lineage
数据智能解决方案

快速将原始数据转化为可操作的洞察分析,统一数据治理、质量、沿袭和共享,为数据消费者提供可靠的情境化数据。

探索数据智能解决方案
数据和分析咨询服务

通过 IBM Consulting 发掘企业数据的价值,建立以洞察分析为导向的组织,实现业务优势。

了解分析服务
采取后续步骤

了解 IBM 如何帮助构建受监管、合规的数据基础。借助 IBM Manta Data Lineage,通过跟踪数据的历史记录、流动和结果来获得数据透明度,从而增强端到端洞察分析。

深入了解 IBM Manta Data Lineage 深入了解数据情报解决方案