数据网格是一种去中心化的数据体系结构,按特定业务领域(例如营销、销售、客户服务等)来组织数据,为给定数据集的生产者提供更多所有权。 生产者对领域数据的理解使他们能够设定专注于文档、质量和访问的数据治理策略。 反过来,这可以在整个组织中实现自助服务。 虽然这种联合方法消除了与集中式单体系统相关的许多操作瓶颈,但并不一定意味着您不能使用传统的存储系统,如数据湖或数据仓库。 这只是意味着它们的使用已经从单一的集中式数据平台转变为多个去中心化的数据存储库。
值得注意的是,数据网格促进采用云原生和云平台技术来扩展和实现数据管理的目标。 这个概念通常与微服务进行比较,以帮助受众了解数据网格在这个领域中的使用。 由于这种分布式体系结构特别有助于在整个组织中扩展数据需求,因此可以推断数据网格可能不适用于所有类型的业务;也就是说,小型企业可能无法从数据网格中获益,因为它们的企业数据可能不像大型组织那样复杂。
IT 咨询公司 ThoughtWorks 的技术总监 Zhamak Dehghani 因推广数据网格的概念而受到赞誉,他将数据网格的概念作为解决集中式、单一数据结构(例如数据可访问性和组织)的固有挑战的解决方案。 COVID-19 大流行进一步推动了数据网格的采用,以推动文化变革并降低数据方面的组织复杂性。
数据网格涉及公司思考数据方式的文化方面的转变。 数据不再是流程的副产品,而是成为产品,其中数据生产者充当数据产品所有者。 从历史上看,一个集中的基础架构团队将跨域维护数据所有权,但数据网格模型下的产品思维焦点将这种所有权转移给生产者,因为生产者才是主题专家。 他们对主要数据消费者的理解以及他们如何利用域的操作和分析数据使他们能够在设计 API 时考虑到自身的最大利益。 虽然这种领域驱动的设计还让数据生产者负责记录语义定义、编目元数据以及设置权限和使用策略,但仍然有一个集中的数据治理团队来围绕数据执行这些标准和程序。 此外,虽然领域团队负责数据网格体系结构下的 ETL 数据管道,但并没有消除对集中式数据工程团队的需求。 然而,他们的责任变得更加集中于为所存储的数据产品确定最佳的数据基础架构解决方案。
类似于微服务体系结构如何将轻量级服务耦合在一起以向面向业务或面向消费者的应用程序提供功能,数据网格使用功能域作为围绕数据设置参数的一种方式,使其能够被视为一种产品整个组织的用户都可以访问。 通过这种方式,数据网格允许更灵活的数据集成和互操作功能,用户可以立即使用来自多个域的数据进行业务分析、数据科学实验等。
如前所述,数据网格是一种分布式数据体系结构,其中数据按其域进行组织,以使其更容易被整个组织的用户访问。 数据湖是一种低成本的存储环境,通常包含用于业务分析、机器学习和其他广泛应用的 PB 级结构化、半结构化和非结构化数据。 数据网格是一种数据架构方法,数据湖可以成为其中的一部分。 然而,中央数据湖更常被用作数据的倾倒场,因为中央数据湖经常用于提取尚未明确用途的数据。 因此,中央数据湖可能成为数据沼泽的牺牲品,数据沼泽是指某种特定的数据湖,其缺乏适当的数据质量和数据治理实践来提供有洞察力的学习。
数据结构是一个架构概念,它侧重于数据提供者和数据消费者之间的数据价值链中的数据集成、数据工程和治理的自动化。 数据结构基于“活动元数据”的概念,使用知识图、语义和 AI/ML 技术来发现各种类型元数据(例如系统日志、社交等)中的模式,并将这种洞察力应用于自动化并编排数据价值链(例如,使数据消费者能够找到数据产品,然后自动向他们提供该数据产品)。 数据结构与数据网格是互补的,而不是相互排斥的。 事实上,数据结构会使数据网格变得更好,因为它可以自动化数据网格的关键部分,例如更快地创建数据产品、执行全球治理以及更容易协调多个数据产品的组合。
数据民主化: 数据网格架构促进了来自多个数据源的自助服务应用程序,将数据的访问范围扩大到更多技术资源之外,例如数据科学家、数据工程师和开发人员。 通过这种领域驱动的设计,使数据更易于发现和访问,减少了数据孤岛和运营瓶颈,实现更快的决策并让技术用户腾出时间来优先处理可以更好地利用其技能的任务。
成本效率:这种分布式体系结构不再是批量数据处理,而是促进采用云数据平台和流式管道来实时收集数据。 云存储提供了额外的成本优势,它允许数据团队根据需要启动大型集群,只需为指定的存储付费。 这意味着,如果您需要额外的计算能力以在几小时而不是几天内运行作业,那么可以通过购买额外的计算节点在云数据平台上轻松完成此操作。 这也意味着云存储可以提高对存储成本的可见性,从而为工程团队提供更好的预算和资源分配。
降低技术债务:由于复杂性和维护系统所需的协作,集中式数据基础设施会导致更多的技术债务。 随着数据在存储库中累积,集中式数据基础设施会开始减慢整个系统的速度。 通过按域所有权分布数据管道,数据团队可以更好地满足数据消费者的需求,并减少存储系统的技术压力。 他们还可以通过为他们提供接口来提供更多的数据可访问性,从而减少单个请求的总量。
互操作性:在数据网格模型下,数据所有者同意如何预先标准化与领域无关的数据字段,这有助于互操作性。 这样,当域团队构建各自的数据集时,他们正在应用相关规则以快速轻松地实现跨域的数据链接。 一些通常标准化的字段是字段类型、元数据、模式标志等。 跨域的一致性使数据消费者能够更轻松地与 API 交互并开发应用程序以更适当地满足其业务需求。
安全性和合规性:数据网格架构促进了更强大的治理实践,因为它们有助于实施与域无关的数据的数据标准以及对敏感数据的访问控制。 这可确保组织遵守政府法规,例如 HIPPA 限制,并且这种数据生态系统的结构通过启用数据审计来支持这种合规性。 在数据网格体系结构中记录和跟踪数据将可观察性嵌入到系统中,使审计人员能够了解哪些用户正在访问特定数据以及该访问的频率。
尽管分布式数据网格架构仍在不断被采用,但但这些架构正在帮助团队实现对常见大数据用例的可伸缩性目标。 具体包括: