什么是数据网格?

作者

Alexandra Jonker

Staff Editor

IBM Think

Alice Gomstyn

Staff Writer

IBM Think

什么是数据网格?

数据网格是一种去中心化数据架构,按照市场营销、销售、客户服务等业务领域划分数据。领域数据产出方将数据视作产品,让业务用户可以轻松查找、理解并使用组织内的各类数据。

这种领域驱动设计可以解决集中式一体化数据系统中存在的多项运行瓶颈。不过,采用数据网格并不会让数据湖数据仓库等传统数据存储系统遭到淘汰。这类系统的角色会发生转变,从单一的集中式数据平台,转变为为多个去中心化数据存储库提供支撑。

数据网格的概念由 IT 咨询公司 ThoughtWorks 的新兴技术主管 Zhamak Dehghani 提出并推广。她提出了该分布式数据架构,用以解决集中式数据架构的固有问题,例如访问受限与组织孤岛

数据网格常被类比为微服务架构,单一应用程序由多个小型松耦合服务组成,二者均强调去中心化、自主性与可扩展性。

为什么使用数据网格?

组织每日都会生成并收集海量数据。各个部门或业务单元生成的数据集通常存放于不同存储库,一般由集中式数据团队负责管理。

这种分隔会形成数据孤岛,各类运行数据与分析数据彼此孤立,阻碍数据共享、降低数据质量并削弱数据驱动决策的效果。数据孤岛也会制约大数据机器学习 (ML) 和人工智能 (AI) 相关项目的效果。

事实上,根据 IBM Data Differentiator 的调查,82% 的企业报告称数据孤岛扰乱了他们的关键工作流程,68% 的企业数据未经分析。

分布式数据网格架构通过下放数据所有权与管理权,解决上述各类问题。数据所有权不再交由集中式数据团队和传统管道负责,而是移交至各领域团队。各团队自主管理数据,并借助自助服务式数据基础设施,将数据作为产品提供给组织内其他成员。

这种数据即产品的模式注重可访问性、治理能力与实用价值。该模式遵循一项原则,数据和优质消费产品一样,需要按照用户的具体数据需求完成管理与梳理。

什么是数据产品?

数据产品是一种可复用的独立资产,包含数据、元数据、语义信息和模板。它面向特定用例设计,服务企业内各类用户,帮助用户从原本孤立的数据中挖掘有效业务价值。

数据产品是采用产品思维方法并应用传统产品开发原则开发的。这种方法包括了解用户需求、优先考虑高价值功能并根据反馈进行迭代。

合格的数据产品需要具备可发现、可理解、可互操作、可共享、安全以及可复用的特性。

数据网格的工作原理是什么?

数据网格范式不只是一种技术实现形式。它还会推动组织转变对于数据所有权和数据访问权限的固有理念。以往,组织会将领域数据视作流程或系统的附属产物。然而,由于数据网格将数据定义为产品,各领域团队也因此成为数据产品负责人。

根据 Zhamak Dehghani 的说法,数据网格有四个核心原则:1

  1. 面向领域的去中心化数据所有权和架构
  2. 数据作为产品
  3. 自助服务式数据基础设施即平台
  4. 联合计算治理

面向领域的去中心化数据所有权与架构

传统上,集中式基础设施或数据工程团队负责维护跨领域的数据所有权。在数据网格模型中,数据所有权进行分散,并移交至领域团队,这类团队最贴近数据且熟悉数据使用方式。这类数据所有者负责打造适配具体使用场景的数据产品。

领域团队还可在数据网格架构内管理自有提取、转换、加载 (ETL) / 提取、加载、转换 (ELT) 管道。不过,该职责划分并不会弱化集中式数据工程团队的作用。该团队的职能会发生转变,负责搭建和维护优质数据基础设施,支撑数据产品的存储与分发。

数据即产品

数据即产品 (DaaP) 模式将数据集视作可对外提供的产品,服务组织内外各类用户。领域数据产品可通过应用程序编程接口 (API) 或数据共享平台,供组织内全体用户调用。

借助这种模式,数据网格可实现更灵活的数据整合,打造具备互操作性的数据产品。来自多个领域的数据可直接应用于数据分析、数据科学、机器学习及其他用例。

自助服务式数据基础设施即平台

自助服务式数据平台配备相关工具,帮助专业产品搭建经验有限的领域团队创建、维护和分享全新数据产品。数据平台团队可提供可扩展数据存储、数据管道编排、数据沿袭等各类数据服务。

自助服务平台可划分不同层面,分别服务各类用户群体。Dehghani 列举了三类层面,分别为数据基础设施配置层、数据产品开发人员体验层以及数据网格监管层。

联合治理和管道管理

在数据网格生态系统中,领域团队负责制定与文档、数据质量及访问权限相关的数据治理策略。具体工作包括维护语义定义、整理元数据以及配置权限和使用规则。

这套标准化规则支撑组织内部的自助服务式数据访问,同时由集中式数据治理团队制定并统一执行组织规范。

AI Academy

数据管理是生成式 AI 的秘诀吗?

深入了解为什么高质量数据对于成功使用生成式 AI 至关重要。

数据网格与 data fabric 架构

数据结构和数据网格是两类互为补充的数据架构。事实上,数据结构通常可以丰富功能,助力数据网格落地应用。

数据结构利用智能化和自动化系统打破数据孤岛,大规模地管理数据资产并优化数据管理。该架构侧重实现数据摄取、数据整合、数据工程与数据治理的自动化。例如,数据结构可以将数据网格中的核心环节转为自动化,包括数据产品创建与生命周期管理。

数据网格的优势

采用数据网格架构的组织可收获多项优势,具体如下:

  • 数据民主化与可发现性
  • 成本效益
  • 灵活扩展
  • 减少技术债务
  • 提升互操作性
  • 强化安全性和合规性

数据民主化与可发现性

数据网格架构将数据集对外开放并保证可用,以此推动自助服务式数据访问。数据民主化模式让数据访问不再局限于数据科学家、数据工程师、开发人员等技术团队。配合完善的治理机制,该模式还能减少数据孤岛与运行瓶颈,支撑更敏捷的决策。

成本效益

数据网格的分布式架构便于引入云数据平台与管道来处理实时数据。借助这类工具可以清晰掌握存储与处理成本,帮助工程团队合理分配预算与资源。

灵活扩展能力

当组织在基础设施上部署数据网格后,数据团队可根据需求扩展存储与计算资源。例如,如果需要提升算力将任务耗时从数天缩短至数小时,企业可快速配置临时计算节点。

减少技术债务

按领域划分数据管道管理职责,可降低集中式数据系统的维护难度与协作成本。这种去中心化模式能够减轻技术压力、减少技术负债,加快面向数据消费者的交付速度。

提升互操作性

数据网格推动各领域团队统一标准,使用跨领域通用的数据字段与格式(字段类型、元数据、模式标识等)。这套通用规则可在各领域快速套用,从而促进数据整合与复用。

强化安全性和合规性

数据网格架构依托统一规则与内置可观测能力,在领域层面落实数据规范与访问控制。这种完善的治理体系能够保障组织遵守敏感数据相关法规,例如《健康保险流通和责任法案》 (HIPAA)。

数据网格的用例

依托领域所有权与分布式数据生态系统,数据网格架构可帮助组织在各类用例中提升数据的可访问性与可用性,包括:

商业智能 (BI) 仪表板

可发现的、由领域负责并经过整理的数据集,能够支撑 BI 智能相关工作。团队无需集中式数据工程团队提供技术支持,即可将数据集接入 BI 仪表板与数据可视化界面。

自动化虚拟助理

聊天机器人虚拟代理在获取优质相关数据后,能够发挥最佳运行效果。数据网格架构可为这类系统提供更多来自不同领域的优质数据源。

客户体验

组织整合各领域的标准化客户数据,可形成完整统一的客户视图。该视图有助于全面优化客户体验,支撑个性化服务与定向运营工作。

机器学习和 AI 项目

标准化数据缩短了数据科学家整合不同领域数据所需的时间。节省的时间能够加快数据处理进度,同时提升可部署至生产环境的模型数量。

相关解决方案
数据管理软件和解决方案

设计数据战略,消除数据孤岛、降低复杂性并提高数据质量,以获得卓越的客户和员工体验。

深入了解数据管理解决方案
IBM watsonx.data™

watsonx.data 支持您通过开放、混合和已治理数据,利用您的所有数据(无论位于何处)来扩展分析和 AI。

了解 watsonx.data
数据和分析咨询服务

通过 IBM® Consulting 发掘企业数据的价值,建立以洞察分析为导向的组织,实现业务优势。

了解分析服务
采取下一步行动

设计数据战略,消除数据孤岛、降低复杂性并提高数据质量,以获得卓越的客户和员工体验。

  1. 深入了解数据管理解决方案
  2. 了解 watsonx.data
脚注

Data Mesh Principles and Logical Architecture,Martin Fowler,2020 年 12 月 3 日。