辅以专家洞察分析的最新科技新闻
通过 Think 时事通讯,了解有关 AI、自动化、数据等方面最重要且最有趣的行业趋势。请参阅 IBM 隐私声明。
数据网格是一种去中心化数据架构,按照市场营销、销售、客户服务等业务领域划分数据。领域数据产出方将数据视作产品,让业务用户可以轻松查找、理解并使用组织内的各类数据。
组织每日都会生成并收集海量数据。各个部门或业务单元生成的数据集通常存放于不同存储库,一般由集中式数据团队负责管理。
这种分隔会形成数据孤岛,各类运行数据与分析数据彼此孤立,阻碍数据共享、降低数据质量并削弱数据驱动决策的效果。数据孤岛也会制约大数据、机器学习 (ML) 和人工智能 (AI) 相关项目的效果。
事实上,根据 IBM Data Differentiator 的调查,82% 的企业报告称数据孤岛扰乱了他们的关键工作流程,68% 的企业数据未经分析。
分布式数据网格架构通过下放数据所有权与管理权,解决上述各类问题。数据所有权不再交由集中式数据团队和传统管道负责,而是移交至各领域团队。各团队自主管理数据,并借助自助服务式数据基础设施,将数据作为产品提供给组织内其他成员。
这种数据即产品的模式注重可访问性、治理能力与实用价值。该模式遵循一项原则,数据和优质消费产品一样,需要按照用户的具体数据需求完成管理与梳理。
通过 Think 时事通讯,了解有关 AI、自动化、数据等方面最重要且最有趣的行业趋势。请参阅 IBM 隐私声明。
数据网格范式不只是一种技术实现形式。它还会推动组织转变对于数据所有权和数据访问权限的固有理念。以往,组织会将领域数据视作流程或系统的附属产物。然而,由于数据网格将数据定义为产品,各领域团队也因此成为数据产品负责人。
根据 Zhamak Dehghani 的说法,数据网格有四个核心原则:1
自助服务式数据平台配备相关工具,帮助专业产品搭建经验有限的领域团队创建、维护和分享全新数据产品。数据平台团队可提供可扩展数据存储、数据管道编排、数据沿袭等各类数据服务。
自助服务平台可划分不同层面,分别服务各类用户群体。Dehghani 列举了三类层面,分别为数据基础设施配置层、数据产品开发人员体验层以及数据网格监管层。
在数据网格生态系统中,领域团队负责制定与文档、数据质量及访问权限相关的数据治理策略。具体工作包括维护语义定义、整理元数据以及配置权限和使用规则。
这套标准化规则支撑组织内部的自助服务式数据访问,同时由集中式数据治理团队制定并统一执行组织规范。
采用数据网格架构的组织可收获多项优势,具体如下:
数据网格架构将数据集对外开放并保证可用,以此推动自助服务式数据访问。数据民主化模式让数据访问不再局限于数据科学家、数据工程师、开发人员等技术团队。配合完善的治理机制,该模式还能减少数据孤岛与运行瓶颈,支撑更敏捷的决策。
按领域划分数据管道管理职责,可降低集中式数据系统的维护难度与协作成本。这种去中心化模式能够减轻技术压力、减少技术负债,加快面向数据消费者的交付速度。
数据网格推动各领域团队统一标准,使用跨领域通用的数据字段与格式(字段类型、元数据、模式标识等)。这套通用规则可在各领域快速套用,从而促进数据整合与复用。
数据网格架构依托统一规则与内置可观测能力,在领域层面落实数据规范与访问控制。这种完善的治理体系能够保障组织遵守敏感数据相关法规,例如《健康保险流通和责任法案》 (HIPAA)。
依托领域所有权与分布式数据生态系统,数据网格架构可帮助组织在各类用例中提升数据的可访问性与可用性,包括:
组织整合各领域的标准化客户数据,可形成完整统一的客户视图。该视图有助于全面优化客户体验,支撑个性化服务与定向运营工作。
标准化数据缩短了数据科学家整合不同领域数据所需的时间。节省的时间能够加快数据处理进度,同时提升可部署至生产环境的模型数量。
设计数据战略,消除数据孤岛、降低复杂性并提高数据质量,以获得卓越的客户和员工体验。
watsonx.data 支持您通过开放、混合和已治理数据,利用您的所有数据(无论位于何处)来扩展分析和 AI。
通过 IBM® Consulting 发掘企业数据的价值,建立以洞察分析为导向的组织,实现业务优势。
1 Data Mesh Principles and Logical Architecture,Martin Fowler,2020 年 12 月 3 日。