什么是数据网格?

了解什么是数据网格、数据网格与数据结构的关系以及数据网格如何利用去中心化在大型组织中实现数据民主化

穿过庭院的人们
什么是数据网格?

数据网格是一种去中心化的数据体系结构,按特定业务领域(例如营销、销售、客户服务等)来组织数据,为给定数据集的生产者提供更多所有权。 生产者对领域数据的理解使他们能够设定专注于文档、质量和访问的数据治理策略。 反过来,这可以在整个组织中实现自助服务。 虽然这种联合方法消除了与集中式单体系统相关的许多操作瓶颈,但并不一定意味着您不能使用传统的存储系统,如数据湖或数据仓库。 这只是意味着它们的使用已经从单一的集中式数据平台转变为多个去中心化的数据存储库。

值得注意的是,数据网格促进采用云原生和云平台技术来扩展和实现数据管理的目标。 这个概念通常与微服务进行比较,以帮助受众了解数据网格在这个领域中的使用。 由于这种分布式体系结构特别有助于在整个组织中扩展数据需求,因此可以推断数据网格可能不适用于所有类型的业务;也就是说,小型企业可能无法从数据网格中获益,因为它们的企业数据可能不像大型组织那样复杂。  

IT 咨询公司 ThoughtWorks 的技术总监 Zhamak Dehghani 因推广数据网格的概念而受到赞誉,他将数据网格的概念作为解决集中式、单一数据结构(例如数据可访问性和组织)的固有挑战的解决方案。 COVID-19 大流行进一步推动了数据网格的采用,以推动文化变革并降低数据方面的组织复杂性。


数据网格如何工作?

数据网格涉及公司思考数据方式的文化方面的转变。 数据不再是流程的副产品,而是成为产品,其中数据生产者充当数据产品所有者。 从历史上看,一个集中的基础架构团队将跨域维护数据所有权,但数据网格模型下的产品思维焦点将这种所有权转移给生产者,因为生产者才是主题专家。 他们对主要数据消费者的理解以及他们如何利用域的操作和分析数据使他们能够在设计 API 时考虑到自身的最大利益。 虽然这种领域驱动的设计还让数据生产者负责记录语义定义、编目元数据以及设置权限和使用策略,但仍然有一个集中的数据治理团队来围绕数据执行这些标准和程序。 此外,虽然领域团队负责数据网格体系结构下的 ETL 数据管道,但并没有消除对集中式数据工程团队的需求。 然而,他们的责任变得更加集中于为所存储的数据产品确定最佳的数据基础架构解决方案。

类似于微服务体系结构如何将轻量级服务耦合在一起以向面向业务或面向消费者的应用程序提供功能,数据网格使用功能域作为围绕数据设置参数的一种方式,使其能够被视为一种产品整个组织的用户都可以访问。 通过这种方式,数据网格允许更灵活的数据集成和互操作功能,用户可以立即使用来自多个域的数据进行业务分析、数据科学实验等。


数据网格与数据湖

如前所述,数据网格是一种分布式数据体系结构,其中数据按其域进行组织,以使其更容易被整个组织的用户访问。 数据湖是一种低成本的存储环境,通常包含用于业务分析、机器学习和其他广泛应用的 PB 级结构化、半结构化和非结构化数据。 数据网格是一种数据架构方法,数据湖可以成为其中的一部分。 然而,中央数据湖更常被用作数据的倾倒场,因为中央数据湖经常用于提取尚未明确用途的数据。 因此,中央数据湖可能成为数据沼泽的牺牲品,数据沼泽是指某种特定的数据湖,其缺乏适当的数据质量和数据治理实践来提供有洞察力的学习。


数据网格与数据结构

数据结构是一个架构概念,它侧重于数据提供者和数据消费者之间的数据价值链中的数据集成、数据工程和治理的自动化。 数据结构基于“活动元数据”的概念,使用知识图、语义和 AI/ML 技术来发现各种类型元数据(例如系统日志、社交等)中的模式,并将这种洞察力应用于自动化并编排数据价值链(例如,使数据消费者能够找到数据产品,然后自动向他们提供该数据产品)。 数据结构与数据网格是互补的,而不是相互排斥的。 事实上,数据结构会使数据网格变得更好,因为它可以自动化数据网格的关键部分,例如更快地创建数据产品、执行全球治理以及更容易协调多个数据产品的组合。


数据网格的好处

数据民主化: 数据网格架构促进了来自多个数据源的自助服务应用程序,将数据的访问范围扩大到更多技术资源之外,例如数据科学家、数据工程师和开发人员。 通过这种领域驱动的设计,使数据更易于发现和访问,减少了数据孤岛和运营瓶颈,实现更快的决策并让技术用户腾出时间来优先处理可以更好地利用其技能的任务。

成本效率:这种分布式体系结构不再是批量数据处理,而是促进采用云数据平台和流式管道来实时收集数据。 云存储提供了额外的成本优势,它允许数据团队根据需要启动大型集群,只需为指定的存储付费。 这意味着,如果您需要额外的计算能力以在几小时而不是几天内运行作业,那么可以通过购买额外的计算节点在云数据平台上轻松完成此操作。 这也意味着云存储可以提高对存储成本的可见性,从而为工程团队提供更好的预算和资源分配。

降低技术债务:由于复杂性和维护系统所需的协作,集中式数据基础设施会导致更多的技术债务。 随着数据在存储库中累积,集中式数据基础设施会开始减慢整个系统的速度。 通过按域所有权分布数据管道,数据团队可以更好地满足数据消费者的需求,并减少存储系统的技术压力。 他们还可以通过为他们提供接口来提供更多的数据可访问性,从而减少单个请求的总量。

互操作性:在数据网格模型下,数据所有者同意如何预先标准化与领域无关的数据字段,这有助于互操作性。 这样,当域团队构建各自的数据集时,他们正在应用相关规则以快速轻松地实现跨域的数据链接。  一些通常标准化的字段是字段类型、元数据、模式标志等。 跨域的一致性使数据消费者能够更轻松地与 API 交互并开发应用程序以更适当地满足其业务需求。

安全性和合规性:数据网格架构促进了更强大的治理实践,因为它们有助于实施与域无关的数据的数据标准以及对敏感数据的访问控制。 这可确保组织遵守政府法规,例如 HIPPA 限制,并且这种数据生态系统的结构通过启用数据审计来支持这种合规性。 在数据网格体系结构中记录和跟踪数据将可观察性嵌入到系统中,使审计人员能够了解哪些用户正在访问特定数据以及该访问的频率。


数据网格的用例

尽管分布式数据网格架构仍在不断被采用,但但这些架构正在帮助团队实现对常见大数据用例的可伸缩性目标。 具体包括:

  • 商业智能仪表板:随着新计划的出现,团队通常需要自定义数据视图来了解这些项目的绩效。 数据网格架构可以通过使数据对数据消费者更可用来支持这种灵活性和定制化需求。 
  • 自动化虚拟助手:企业通常使用聊天机器人来支持呼叫中心和客户服务团队。 由于常见问题可能涉及各种数据集,因此分布式数据体系结构可以为这些虚拟代理系统提供更多数据资产。
  • 客户体验:客户数据可以让企业更好地了解他们的用户,让企业能够为用户提供更加个性化的体验。 从营销到医疗保健的各个行业都观察到了这种情况。
  • 机器学习项目:通过标准化与领域无关的数据,数据科学家可以更轻松地将来自各种数据源的数据拼接在一起,从而减少数据处理所花费的时间。 通过节省的这些时间,可以帮助加快进入生产环境的模型数量,从而实现自动化目标。

IBM 解决方案

IBM Cloud Pak for Data

IBM 支持通过 IBM Data Fabric on Cloud Pak for Data 来实施数据网格。 IBM Data Fabric 是一个统一的解决方案,包含创建数据产品所需的所有功能,并支持对这些数据产品的受监管和协调的访问和使用。 IBM Data Fabric 支持在任何平台(例如,本地数据湖、云数据仓库等)上实施数据网格,从而实现真正的企业级自助服务和数据产品的重用,而不管数据位于何处是。



执行下一步

IBM 通过其数据结构解决方案支持数据网格的实施。 IBM 的数据结构方法正在解决常见客户的四个关键痛点:数据治理和隐私、多云数据集成、MLOps 和可信赖的 AI 以及 Customer 360,所有这些功能都在 IBM 的混合云平台 IBM Cloud Pak for Data 上提供。