针对客户服务 Leadspace 使用 Watson 作为基础,重新着色的引导区。
概述

湖仓一体是一个数据平台,可将数据仓库和数据湖的最佳方面融合到一个数据管理解决方案中。

IBM 的湖仓一体和针对混合云环境的治理架构以 watsonx.data 平台为基础。这种混合开放式湖仓一体使企业能够扩展分析和 AI,提供基于开放湖仓一体架构的稳健数据存储。该架构将数据仓库的性能和可用性属性与数据湖的灵活性和可扩展性相结合,为数据管理和分析任务提供平衡的解决方案。

部署

watsonx.data 平台既作为 SaaS 产品提供,也作为内部部署解决方案提供。对于所在地区没有 SaaS 产品的客户,或者由于监管或其他限制而要求将湖仓一体平台保留在本地的客户,IBM 通过以下部署选项提供灵活性,以便在任意地点实现湖仓一体能力:

  1. 在 IBM Cloud 或 AWS 上配置 watsonx.data SaaS。
  2. 将 watsonx.data 作为独立解决方案部署在 OpenShift 本地上或其他具有托管 OpenShift 的超大规模服务提供商处。
  3. 部署 IBM® CloudPak for Data (CP4D) 集群中的 watsonx.data 部分。
部署 IBM® CloudPak for Data (CP4D) 集群中的 watsonx.data 部分。
湖仓一体架构可使用多个适合目的的查询引擎,并在所有引擎中提供对相同数据的同时访问权限
  • 数据源 - 包括来自数据库和应用程序的结构化数据,来自文件、社交媒体、IoT 设备等以及企业数据仓库和其他非结构化数据存储位置(均来自客户端本地应用程序和 SaaS)的非结构化数据。

  • 客户端应用程序 - 客户端可能已有本地应用程序或已配备自己的数据存储(结构化和非结构化)的 SaaS,其数据可能不在数据湖中,且客户可能希望将该数据带入湖仓一体中,以便于查询。

  • 湖仓一体 - watsonx.data 是下一代数据存储架构,可平衡数据湖和数据仓库的功能。这是 IBM 湖仓一体方法的基础,可促进 AI 和机器学习 (ML) 工作负载的扩展,同时确保高效的数据治理。

  • 生成式 AI 平台 - 湖仓一体可以选择连接到生成式 AI 平台,以便使用 LLM 增强查询。用户可以输入提示,该提示将被发送到经过微调的 LLM 以生成可由湖仓一体中支持的引擎执行的检索查询。

湖仓一体模式

湖仓一体模式 1:多个适合用途的查询引擎

利用适合工作负载的正确引擎,使用适合用途的计算来优化成本,同时在所有引擎、共享元存储(即数据目录)和相同的环境中分享数据和元数据。

多个适用查询引擎。借助适合工作负载的正确引擎,使用适合用途的计算来优化成本,
一种数据湖仓架构,支持使用多个查询引擎来优化成本和性能。

湖仓一体模式 2:所有数据集中到一站式界面

企业多年来在当前的数据架构中构建了诸多数据存储孤岛来满足不同的需求,从结构化、高性能的企业数据仓库 (EDW) 到大容量、非结构化/半结构化的数据湖,这些数据存储孤岛大多数时候会变成数据沼泽(重复、数据质量不佳、缺乏治理);而湖仓一体为其提供了一种现代化的方法。采用 watsonx.data 的湖仓一体架构将通过多个查询引擎、开放数据格式和治理功能,实现对各种数据存储的单层访问,而无需数据移动。

无需迁移数据,所有数据集中到一站式界面。 湖仓一体架构为企业的所有数据存储(包括对象存储、关系数据和数据湖)提供单一访问层(一站式界面)。

湖仓一体模式 3:优化数据仓库工作量以优化成本

通过利用湖仓一体实惠的存储空间和计算,并支持多个查询引擎使用相同的数据集,来降低仓储成本,同时仍保持临时查询能力。像 Spark 这样的查询引擎可支持对当前状态的数据执行真空/物化查询(例如,非所有数据更改历史记录),这能够降低数据查询大小和查询计算成本。此外,湖仓一体预处理和选择性转换功能可支持数据仓库工作负载的最佳分配,从而降低成本。

优化数据仓库工作负载以优化成本,降低仓储成本,同时仍保持临时查询能力
湖仓一体架构,用于最大限度地降低数据仓库成本并优化仓库查询性能。

湖仓一体模式 4:混合多云部署

借助缓存远程源的功能,跨混合云远程连接和访问数据。

借助缓存远程源的能力,跨混合云远程连接和访问数据。
湖仓一体架构,用于整合多个提供商的本地和云端数据。

湖仓一体模式 5:将大型机数据与分析生态系统集成

同步并合并 Db2 for z/OS 数据,以进行湖仓一体分析,并跨 VSAM 和 Db2 数据在大型机上执行实时分析。数据虚拟化将始终直接从大型机查询数据,并考虑额外的负载,而 CDC 将根据管理部门定义的频率以 Iceberg 格式捕获信息(不会给大型机增加负载,也不会提供实时数据)

同步并合并 Db2 for z/OS 数据,以进行湖仓一体分析,并跨 VSAM 和 Db2 数据在大型机上执行实时分析
湖仓一体架构使用数据网关和数据虚拟化将大型机数据与非大型机来源的数据集成。
其他湖仓一体用例
  • 新数据资产的存储层 现代应用程序通常依赖新的数据集和先进的数据处理技术来提供更高效、可扩展和数据驱动的服务。湖仓一体可以提供所需的数据/存储层、整合、性能、可扩展性和成本效益。

  • 结合生成式 AI 和大型语言模型 (LLM) 功能 (watsonx.ai) 的自然语言数据提示和响应湖仓一体 (watsonx.data) 可支持不了解信息技术结构、不掌握 SQL 的分析人员使用自然语言提示对不同的数据存储进行交叉分析,并从 LLM 获取响应。
架构决策

选择查询引擎

选择使用哪个查询引擎通常由要查询的数据类型决定。

  1. Presto 查询引擎最适合与 Hive 和 Parquet 表/存储桶一起使用。
  2. Spark 查询引擎最适合在现有 Hadoop/Cloudera 环境中使用 SCALA 编码的时候。
  3. DB2 查询引擎最适合与 DB2 数据存储一起使用。
  4. Netezza 查询引擎最适合查询 Netezza 数据仓库
湖仓一体特征
  1. 统一数据管理:确保湖仓一体作为单一可信信息源,对于数据分析和决策的一致性和可靠性至关重要。
  2. 数据集成: 应无缝集成不同来源和各种格式的数据,并支持实时和批量数据摄取。
  3. 查询性能:优化查询性能,以支持符合企业 SLA/SLO 的分析和报告需求。
  4. 数据治理:成功的湖仓一体实施需要一个稳健的数据治理框架,以确保数据质量、元数据管理和数据源追踪。
  5. 安全性:确保数据加密、访问控制和审计跟踪,以符合组织和监管要求。
  6. 部署灵活性: 对本地、混合和多云部署的支持提供了灵活性,并有助于优化成本和性能。
  7. 数据敏感性:确保在不同环境中轻松迁移数据,同时保持数据的一致性和完整性。
  8. 监控和管理:实施监控、记录和管理工具,以了解数据迁移、任务完成时间和比率以及性能调整的情况。
后续步骤

与我们的专家探讨如何实施混合云部署模式。

更多探索方式 混合云架构中心 图表工具和模板 IBM Well-Architected Framework
内容添加者:

Bryan KyleManav GuptaMihai CrivetiWissam DibChris Kirby

更新日期:2023 年 12 月 11 日