湖仓一体是一个数据平台,可将数据仓库和数据湖的最佳方面融合到一个数据管理解决方案中。
IBM 的湖仓一体和针对混合云环境的治理架构以 watsonx.data 平台为基础。这种混合开放式湖仓一体使企业能够扩展分析和 AI,提供基于开放湖仓一体架构的稳健数据存储。该架构将数据仓库的性能和可用性属性与数据湖的灵活性和可扩展性相结合,为数据管理和分析任务提供平衡的解决方案。
watsonx.data 平台既作为 SaaS 产品提供,也作为内部部署解决方案提供。对于所在地区没有 SaaS 产品的客户,或者由于监管或其他限制而要求将湖仓一体平台保留在本地的客户,IBM 通过以下部署选项提供灵活性,以便在任意地点实现湖仓一体能力:
湖仓一体 - watsonx.data 是下一代数据存储架构,可平衡数据湖和数据仓库的功能。这是 IBM 湖仓一体方法的基础,可促进 AI 和机器学习 (ML) 工作负载的扩展,同时确保高效的数据治理。
生成式 AI 平台 - 湖仓一体可以选择连接到生成式 AI 平台,以便使用 LLM 增强查询。用户可以输入提示,该提示将被发送到经过微调的 LLM 以生成可由湖仓一体中支持的引擎执行的检索查询。
湖仓一体模式 1:多个适合用途的查询引擎
利用适合工作负载的正确引擎,使用适合用途的计算来优化成本,同时在所有引擎、共享元存储(即数据目录)和相同的环境中分享数据和元数据。
湖仓一体模式 2:所有数据集中到一站式界面
企业多年来在当前的数据架构中构建了诸多数据存储孤岛来满足不同的需求,从结构化、高性能的企业数据仓库 (EDW) 到大容量、非结构化/半结构化的数据湖,这些数据存储孤岛大多数时候会变成数据沼泽(重复、数据质量不佳、缺乏治理);而湖仓一体为其提供了一种现代化的方法。采用 watsonx.data 的湖仓一体架构将通过多个查询引擎、开放数据格式和治理功能,实现对各种数据存储的单层访问,而无需数据移动。
湖仓一体模式 3:优化数据仓库工作量以优化成本
通过利用湖仓一体实惠的存储空间和计算,并支持多个查询引擎使用相同的数据集,来降低仓储成本,同时仍保持临时查询能力。像 Spark 这样的查询引擎可支持对当前状态的数据执行真空/物化查询(例如,非所有数据更改历史记录),这能够降低数据查询大小和查询计算成本。此外,湖仓一体预处理和选择性转换功能可支持数据仓库工作负载的最佳分配,从而降低成本。
湖仓一体模式 4:混合多云部署
借助缓存远程源的功能,跨混合云远程连接和访问数据。
湖仓一体模式 5:将大型机数据与分析生态系统集成
同步并合并 Db2 for z/OS 数据,以进行湖仓一体分析,并跨 VSAM 和 Db2 数据在大型机上执行实时分析。数据虚拟化将始终直接从大型机查询数据,并考虑额外的负载,而 CDC 将根据管理部门定义的频率以 Iceberg 格式捕获信息(不会给大型机增加负载,也不会提供实时数据)
选择使用哪个查询引擎通常由要查询的数据类型决定。