什么是数据沿袭?

了解数据沿袭以及企业如何将其用于改进业务洞察

两名工作人员共同坐在办公桌前看着电脑显示器
什么是数据沿袭?

数据沿袭是对数据流的持续跟踪过程,提供对数据来源、更改方式及其在数据管道中的最终目的地的清晰理解。 数据沿袭工具在整个生命周期内提供数据记录,包括来源信息以及在任何 ETLELT 过程中应用的任何数据转换。 这种文档支持用户观察和跟踪数据旅程中的不同接触点,使组织能够验证准确性和一致性。 这是确保组织中数据质量的关键能力。 它通常用于获取有关历史过程的上下文,以及跟踪错误的根本原因。


数据沿袭 vs. 数据来源 vs. 数据治理

数据沿袭、数据来源与数据治理,这些术语密切相关,密不可分。 它们共同确保组织可以持续保持数据质量和数据安全性。

数据治理通过在整个数据生命周期中定义数据所有者、业务术语、规则、策略和流程,在组织内创建结构,管理数据资产。 数据沿袭解决方案可帮助数据治理团队确保数据符合这些标准,帮助您全面了解数据在管道中如何变化。 数据来源通常在数据沿袭的背景下使用,但前者特指数据的第一个实例或来源。

数据沿袭为数据提供细粒度级别的审计跟踪;这种详细程度有助于调试任何数据错误,使数据工程师能够更有效地进行故障诊断并更快地确定解决方案。 虽然数据治理的范围比数据沿袭和数据来源的更加广泛,但数据管理的这一方面对于实施组织标准非常重要。


企业为何使用数据沿袭

可靠的数据至关重要 ,可在业务的各个方面(从销售到人力资源)推动改进决策制定和流程。 然而,这种信息仅在利益相关者有信心确保其准确性时才有价值,因为只有高质量数据才能产生有效洞察。 借助数据沿袭可以查看由数据迁移、系统更新、错误等原因引起的数据变更,确保数据在整个生命周期中的完整性。

数据沿袭记录多种业务和 IT 应用中企业数据之间的关系。 详细内容包括:

  • 数据的位置及其在某个环境中的存储方式,例如本地、数据仓库或数据湖。
  • 如何使用数据以及谁负责更新、使用和更改数据。 其中还包括有权访问敏感数据(例如个人身份信息,PII)特定部分的角色和应用。
  • 跟踪业务用户和应用生成、上传和更改的数据。 例如,可以是将联系人添加到客户关系管理 (CRM) 系统,也可以是数据转换,如删除重复记录。
  • 从组织的不同部分(如网络硬件和服务器)创建和集成的数据。

数据沿袭工作原理

元数据允许数据沿袭工具的用户充分了解数据如何在数据管道中流动。 元数据是“关于数据的数据”,包括有关数据资产的各种信息,例如类型、格式、结构、创建者/创建日期、修改日期和文档大小。 数据沿袭工具提供元数据的全面试图,指导用户确定数据的有用之处。

近年来,我们存储和利用数据的方式随着大数据的发展而不断进步。 企业在数据科学方面的投资不断增加,旨在推动决策制定和业务成果。 然而,为了构建良好的分析,他们需要利用数据沿袭工具和数据目录进行数据发现和数据映射练习。 虽然数据沿袭工具通过元数据显示数据随时间的变化,但数据目录会使用相同的信息来针对组织中的所有数据资产创建一个可搜索的清单。 它们都让数据公民理解不同数据元素对给定结果的重要性,这是开发任何机器学习算法的基础。


数据沿袭用例

如今,企业对实时洞察的需求日益增加,但这些发现离不开对数据及其在整个管道中的旅程的理解。 团队利用端到端数据沿袭工具来改进工作流程的一些方法包括:

数据建模:为创建企业内不同数据元素及其相应联系的可视化表示形式,企业必须定义支持它们的底层数据结构。 数据沿袭有助于建立这些关系的模型,说明跨数据生态系统的不同依赖关系。  数据随着时间的推移而发展,总会出现新的数据源,需要进行新的数据集成等。 鉴于此,企业用于管理其数据的整体数据模型也需要适应不断变化的环境。 数据沿袭帮助企业通过数据模型图准确反映这些随时间推移而出现的变化,突出显示新的或过时的连接或表。 反过来,由于分析师和数据科学家可以更好地了解数据集,因此这也有助于他们进行有价值和及时的分析。

数据迁移:将数据迁移到新存储系统或加入新软件时,组织使用数据迁移来了解数据的位置和生命周期。 由于数据沿袭有助于了解数据如何在整个组织中流动,因此可帮助团队规划系统迁移或升级,加快向新存储环境的整体过渡。 它还为团队提供清理数据系统、归档或删除不相关的旧数据的机会;反过来可以提高数据系统的整体性能,减少需要管理的数据量。

合规:数据沿袭提供一种合规性机制,帮助审计、改进风险管理以及确保数据根据数据治理策略和法规得到存储和处理。 例如, 2016 年,为了保护欧盟和欧洲经济区人民的个人数据,让人们能够更好地控制自己的数据,出台了《通用数据保护条例》法案。 在美国,有些州正在制定政策,如《加利福尼亚州消费者隐私法案》(CCPA),该法案要求企业向消费者通报其数据的收集情况。 这种类型的立法让数据的存储和安全成为重中之重,如果没有数据沿袭工具,组织会发现不合规问题既耗时又昂贵。

影响分析:数据沿袭工具可以让您了解特定业务变更(如任何下游报告)的影响。 例如,如果数据元素的名称发生更改,那么数据沿袭可以帮助企业领导了解可能会造成影响的仪表板数量以及随后访问该报告的用户数量。 它还可以帮助评估数据错误的影响以及整个组织中的风险。 数据错误可能由多种原因导致,会侵蚀对某些商业智能报告或数据源的信任,但数据沿袭工具可以帮助团队跟踪错误根源,实现数据处理优化以及与相应团队的沟通。


IBM 解决方案

IBM Cloud Pak for Data

使用基于数据架构构建的平台,更快地预测结果。 无论数据位于何处,都可以收集、组织和分析数据。


IBM Watson Knowledge Catalog

在主动元数据和策略管理的支持下,通过智能编目为 AI 和分析激活业务就绪数据。



采取下一步行动

IBM Cloud Pak for Data 利用微服务及其领先的数据和 AI 功能,实现分布式系统数据智能集成的自动化,为企业提供全面的业务绩效视图。 这有助于更快地收集、组织和洞察企业数据,支持企业进行大规模决策。 数据管理团队相信,具有竞争优势的 IBM 安全框架能够保护他们的数据安全,确保遵守监管政策,降低合规性风险。 了解 IBM® Cloud Pak for Data 和 IBM Streams 如何通过跨多个环境的数据沿袭帮助您了解和管理企业的数据架构。