数据平台架构的发展历程十分曲折。世纪之交之际,企业逐渐意识到报表和商业智能工作负载需要新型解决方案,而非依赖事务型应用程序。一种可整合多应用程序数据的读取优化平台应运而生。即数据仓库。
十年后,互联网与移动技术开始生成具有空前规模、多样性与速度的数据。这要求不同的数据平台解决方案。于是,数据湖诞生了,它能处理海量非结构化和结构化数据。
又过了十年。数据湖与数据仓库已明显不足以应对企业业务复杂性与新工作负载。成本过高。数据项目价值难以实现。数据平台难以变更。时代再次呼唤新的解决方案。
猜猜如何?这次至少涌现出三种数据平台解决方案:湖仓一体、数据编织和数据网格。虽然这令人鼓舞,但也造成市场困惑。这些概念与价值存在重叠。不同的受访者时常给出不同的解读。
本文旨在澄清这些困惑。先阐释基本概念。再引入一个框架,展示这三者如何相互衔接或协同使用。
湖仓一体概念由 Databricks 推广普及。其定义为: “湖仓一体0是一种新型开放数据管理架构,融合数据湖的灵活性、成本效益与规模优势,以及数据仓库的数据管理与 ACID 事务特性,支持对全部数据执行商业智能 (BI) 与机器学习 (ML)。 ”
传统数据仓库采用提取-转换-加载 (ETL) 流程处理数据,而数据湖则依赖提取-加载-转换 (ELT) 流程。从多源提取的数据被载入廉价的 BLOB 存储,经转换后存入采用昂贵块存储的数据仓库。
这种存储架构既缺乏弹性又效率低下。需要持续执行数据转换以保持 BLOB 存储与数据仓库同步,从而增加成本。而且持续转换仍然很耗时。待数据完成分析准备时,其可提供的洞察已相对事务系统当前状态严重滞后。
此外,数据仓库存储无法支持人工智能 (AI) 与机器学习 (ML) 等需要海量数据训练模型的工作负载。对此类工作负载需求,数据湖厂商通常建议将数据提取为平面文件专供模型训练与测试之用。这相当于额外增加了 ETL 步骤,进一步加剧数据滞后性。
湖仓一体正是为解决这些问题应运而生。湖仓架构中取消了数据仓库存储层。转而在 BLOB 存储内部实施持续数据转换。通过增设多重 API 使不同类型工作负载能共享存储桶。这种架构尤其契合云端环境,因为 AWS S3 或 Azure DLS2 均可提供所需的存储支持。
数据编织代表了新一代数据平台架构。其定义为:一套松散耦合的分布式服务集合,能够以恰当形态在适当时机和地点,从事务性与分析性异构数据源中提供准确数据,覆盖任意云端与本地平台,通常通过自助服务实现,同时满足成本效益、性能、治理、安全与合规等非功能性需求。
数据编织的核心目标是实现数据随需随取,通过抽象化数据移动、转换与整合的技术复杂性,使所有人都能便捷使用数据。数据编织的主要特征包括:
数据编织由数据节点(如数据平台与数据库)构成的网络组成,各节点通过相互协作创造更大价值。这些数据节点分布在整个企业的混合云与多云计算生态中。
数据编织可包含多种数据仓库、数据湖、物联网/边缘设备及事务数据库。它能整合从 Oracle、Teradata、Apache Hadoop 到 Azure 上的 Snowflake、AWS 上的 RedShift 乃至本地数据中心的 MS SQL 等各类技术。
数据编织贯穿数据-信息-洞察的全生命周期。该编织中的某个节点可向其他节点提供原始数据,由后者执行分析任务。这些分析结果可通过 REST API 在编织中开放,供事务记录系统调用以支持决策制定。
数据编织旨在整合分析型与事务型领域。在此架构中,所有元素均以节点形式存在,通过多种机制相互交互。部分交互需伴随数据移动,另一些则支持无需移动的数据访问。其根本理念是数据孤岛(及差异化)终将在此架构中消融。
当数据在数据编织中流动或被访问时,安全与治理策略将全程实施。正如 Istio 对 Kubernetes 中的容器实施安全治理,数据编织亦遵循相似原则实时执行数据策略。
数据编织强化数据可发现性。数据资产可分类发布,形成企业级数据市场。该市场提供基于元数据和知识图谱的检索机制,实现资产发掘功能。从而使数据在价值生命周期各阶段均可被访问。
数据编织的出现为企业文化与运营模式转型开启新机遇。因其分布式与包容性特质,使用过程将推动联合但统一的治理模式。从而增强数据可信度与可靠性。数据市场便于跨部门利益相关者发掘运用数据推动创新。多元团队更易秉持共同目标开展协作,管理共享数据资产。
数据编织是一种包容性架构,其中数据虚拟化等新技术发挥关键作用。该架构允许现有数据库和数据平台接入网络,通过数据目录或数据市场实现新资产发现。元数据在数据资产发掘过程中起着核心作用。
数据网格概念由 Thoughtworks 提出。其定义为 :“......一种分析型数据架构与运营模式,将数据视为产品,由最熟悉且消费数据的团队负责管理。”该概念立足四大原则:领域自治、数据即产品、自助式数据平台、联合计算治理。
数据编织与数据网格存在概念重叠。例如,两者均推荐分布式架构以区别于数据仓库、数据湖和湖仓一体等集中式平台。两者都倡导通过数据市场提供数据产品的理念。
但差异同样存在。从上面的定义可以清楚地看出,与数据编织不同,数据网格明确针对分析型数据。其范围窄于数据编织。其次,它更强调运营模式与文化变革,超越数据编织之类的单纯架构范畴。数据编织中的数据产品具有通用性,而数据网格明确规定数据产品需遵循领域驱动所有权。
这三个概念各有侧重与优势。但其重叠领域亦不容忽视。
湖仓一体与其他两者截然不同。作为一项新技术,它与前辈们一样。能够被具体实现。市场上已有多种相关产品,包括 Databricks、Azure Synapse 和 Amazon Athena。
数据网格则需要新型运营模式与文化变革。此类文化转变往往要求企业集体思维的根本性调整。因此数据网格本质上具有革命性。它可以先在组织局部构建试行,再逐步推广至整体。
数据编织则不像数据网格那样需要前置条件。不要求彻底的文化转型。它能够基于企业多年投资积累的现有资产逐步构建。因而采用渐进式演进路径。
那么企业该如何融合这些概念?
企业可将湖仓一体纳入自身数据平台演进历程。例如,银行可通过实施数据仓库,淘汰沿用十年的旧数据仓库,在统一数据平台上支撑所有 BI 与 AI 应用场景。
若企业架构复杂且拥有多数据平台,面临数据发现困难、跨部门数据交付受阻等挑战,数据编织或许是值得采用的架构。既有的数据平台节点可与一个或多个湖仓节一体点协同运作。甚至事务数据库也可作为节点加入编织网络,提供或消费数据资产。
为了解决业务复杂性,若企业开启文化转型,推行领域驱动数据所有权、促进数据发现与交付的自助服务、并采用联合治理模式,即标志着踏上数据网格转型之路。若已建成数据编织架构,企业可将其作为数据网格转型的关键推动因素。例如数据编织市场可提供领域中心型数据产品(数据网格的核心成果)。其通过数据编织建立的元数据驱动发现机制,也能有效支持网格中新数据产品的发掘。
每家企业可根据自身业务目标选择最适合的切入点。尽管切入点或动机各不相同,但在向数据驱动转型的过程中,企业完全可以协同运用这三类概念。
设计数据战略,消除数据孤岛、降低复杂性并提高数据质量,以获得卓越的客户和员工体验。
watsonx.data 支持您通过开放、混合和已治理数据,利用您的所有数据(无论位于何处)来扩展分析和 AI。
通过 IBM® Consulting 发掘企业数据的价值,建立以洞察分析为导向的组织,实现业务优势。