什么是数据湖?

什么是数据湖?

数据湖是一个旨在存储大量原始数据的存储库,通常使用低成本的云对象存储。这种方法允许在一个平台摄取存储结构化、半结构化和非结构化数据

数据湖的出现是为了帮助组织管理 2000 年代末和 2010 年代初由联网应用和服务生成的海量 大数据。与传统数据库 和数据仓库不同,数据湖不强制执行严格的模式,且当今的数据湖使用经济实惠、可扩展的 云存储——使其成为存储大量多样化数据的理想选择。

数据湖现在是许多组织数据架构的核心组成部分。它们被用作低成本的通用存储;用于存放旧数据或未使用数据的归档库;用于暂存传入数据的临时区域;或者用于存储数据科学机器学习 (ML)、人工智能 (AI) 和大数据分析工作负载所必需的海量非结构化数据集。

尽管数据需求不断演变,新架构(如数据湖仓一体)层出不穷,但数据湖的低成本灵活性对于希望从海量数据中创造价值的企业来说,仍然具有优势。预计到 2030 年,全球数据湖市场规模将达到 458 亿美元,自 2024 年起的年复合增长率 (CAGR) 为 23.9%。1

为什么数据湖很重要?

企业数据量正开始让人感觉如同夜空中的繁星——浩瀚、无垠,似乎永无止境。

数据来自物联网 (IoT) 传感器、社交媒体信息流、企业应用程序以及无数其他来源。如果没有一个经济高效、可扩展的地方来存储所有这些数据,组织就可能犯下战略失误:对数拍字节的数据视而不见、弃而不用。

这些数据可能蕴藏着解锁新收入来源、推动真正运营效率或提供超个性化客户体验所需的洞察。它们对于确保 AI 投资的有效性和盈利能力也至关重要:高达 72% 的首席执行官 认为,专有数据是释放生成式 AI 价值的关键。2

但实现数据的价值,不仅仅需要一个存放数据的地方。还需要方便数据访问以支持协作使用。根据 IBM 商业价值研究院 2025 年的一项研究,82% 接受调查的首席数据官认为,如果员工无法访问数据来进行决策,那么这些数据就是浪费。3

作为集中式存储库,数据湖可以显著改善以往孤立数据的可访问性。它们通常提供自助式数据访问,使非技术用户能够访问和分析来自整个业务的可信数据集,从而提升协作并加速创新。

数据湖的历史与演变

长期以来,组织依赖 关系数据库 (开发于 20 世纪 70 年代)和数据仓库(开发于 20 世纪 80 年代)来管理数据。这些解决方案至今仍是许多组织 IT 生态系统的重要组成部分,但它们最初主要是为结构化数据集设计的。

随着互联网的发展,特别是社交媒体和流媒体的出现,组织发现自己需要处理海量的非结构化数据,例如自由格式的文本和图像。由于严格的模式和相对昂贵的存储成本,数据仓库和关系数据库难以应对这种实时数据的涌入。

2011年,时任 Pentaho 首席技术官的 James Dixon 创造了“数据湖”一词。Dixon 将数据湖视为数据仓库的替代方案。数据仓库为特定业务用例提供经过处理的数据,而 Dixon 设想的数据湖则是一个以原始格式存储海量数据的场所。用户可以从这个湖中提取所需数据,并按照自己的意愿使用。

许多早期的数据湖构建在  Hadoop 分布式文件系统 (HDFS) 上,这是一个开源框架,也是  Apache Hadoop 的主要组件之一。这些早期的数据湖部署在本地,但随着数据量的持续激增,这很快就成了一个问题。云计算提供了一个解决方案:将数据湖迁移到更具可扩展性的基于云的对象存储服务。

如今,数据湖仍在不断发展。许多数据湖解决方案现在提供的功能已不仅仅是廉价、可扩展的存储,还包括 数据安全 和治理工具、数据目录以及元数据管理

数据湖也是数据湖仓一体的核心组件,数据湖仓一体是一种相对较新的 数据管理 解决方案,它结合了数据湖的低成本存储 和数据仓库的高性能分析能力。

数据湖架构

典型的数据湖架构分为几个层次,每个层次支持数据生命周期的一个阶段。

  • 摄取层
  • 存储层
  • 数据目录和元数据层
  • 处理和分析层
  • 安全和治理层
  • 访问层

摄取层

摄取层将中央数据湖存储连接到各种数据源,例如数据库、应用程序、 物联网 (IoT)  设备和传感器。大多数数据湖在此层使用 提取、加载、转换  (ELT) 流程,而非提取、转换、加载 (ETL) 流程。它们从各种数据管道摄取原始状态的数据,但仅在需要时才进行转换。这种仅在访问数据时才应用模式的方法称为“读取时定义模式”。

存储层

虽然早期的数据湖构建在 Apache Hadoop 之上,但现代数据湖的核心是云对象存储服务,它可以部署在本地、私有云公有云环境中。常见的选择包括 Amazon Simple Storage Service、Microsoft Azure Blob Storage、Google Cloud Storage 和 IBM Cloud Object Storage。

云对象存储使组织能够将不同类型的原始数据全部存储在同一个数据存储中。它通常也比本地存储更具可扩展性和成本效益。云存储提供商允许组织按需启动大型存储集群(作为统一系统工作的服务器),仅需为已使用的存储付费。

数据目录和元数据层

数据目录元数据层使用户能够查找和理解数据湖中的数据。数据目录充当详细的数据清单。它们利用元数据(例如作者、创建日期和文件大小)和数据管理工具,帮助用户轻松地发现、理解、管理、筛选和访问数据。

如果没有这一层,数据湖可能会退化为数据沼泽,这是一个混乱的泥潭,由于缺乏元数据、结构和治理,优质数据无法被访问。数据沼泽实际上就是数据的“倾倒场”。

处理和分析层

由于数据湖架构中存储和计算是分离的,数据处理和分析通过集成计算引擎进行。在这一层,数据湖支持多种工具。常见的例子包括大数据处理引擎,如 Apache Spark 和 Hive;机器学习和深度学习框架,如 TensorFlow; 以及分析库,如 Pandas。

安全和治理层

最重要的是,数据湖存储必须是安全的,尤其是当它包含有关员工和客户的个人或敏感信息时。安全和治理层包括集成 数据治理 解决方案、加密以及通过 身份和访问管理 (IAM) 实现的访问控制等功能。这些解决方案有助于防止未经授权的访问,并支持跨其他层的有效数据管理。

这些功能还有助于组织满足数据隐私法(如《通用数据保护条例》(GDPR) 和美国《健康保险流通与责任法案》(HIPAA))下的监管要求。

访问层

数据湖的一个关键优势是它们提供对原始、以前无法访问的数据的访问。访问层使用户能够从湖中查询、探索和提取洞察。下游用户通常包括数据工程师和数据科学家,以及技术专业知识较少的业务用户。

该层使用查询接口和应用程序编程接口 (API) 将用户连接到数据。常见的例子包括 SQL 查询引擎,如 PrestoSpark API。

Mixture of Experts | 12 月 12 日,第 85 集

解码 AI:每周新闻摘要

加入我们世界级的专家小组——工程师、研究人员、产品负责人等将为您甄别 AI 领域的真知灼见,带来最新的 AI 资讯与深度解析。

数据湖的优势

数据湖通过使数据更易于共享和使用,帮助组织从其数据中获取更多价值。更具体地说,数据湖可以提供:

  • 灵活、简便的数据收集和摄取
  • 成本和资源优化
  • 可扩展性和性能
  • 更快、更具协作性的决策
灵活、简便的数据收集和摄取

数据湖可以摄取和存储各种格式的数据——包括结构化、半结构化和非结构化数据集。它们还支持多种摄取方法,无论是批量上传还是实时流数据。这种灵活性使组织能够从不同来源(如 IoT 设备、社交媒体信息流或内部系统)收集数据,而无需进行复杂的转换或使用单独的存储解决方案。

成本和资源优化

使用数据湖,数据可以以其原始的本机格式被摄取和存储,从而避免了成本高昂的预先清洗转换过程。云对象存储通常比本地存储方案更具成本效益,并且使用开源技术进行处理进一步降低了成本。这些节省使组织能够优化其数据管理流程,更有效地在各计划之间分配预算和资源。

可扩展性和性能

数据湖将计算和存储资源解耦,并且通常使用云存储服务,这使得与许多其他数据存储解决方案相比,更容易扩展容量和计算能力。 这种架构使它们能够处理海量数据增长(这对 AI 和 ML 工作负载至关重要),而不会降低性能。

更快、更具协作性的决策

数据湖通过将信息统一到整个组织可访问的单一可信信息源中(而不是分散在各个业务部门),有助于减少数据孤岛。分析师和数据科学家不必花费时间直接访问多个来源,而是可以快速访问、查询和使用他们需要的数据。

这种集中式存储库有助于加快数据准备,鼓励重用,并支持更具协作性的数据驱动决策。通过这些优势,组织还可以体验到创新和研发工作的加速。

数据仓库与数据湖与数据湖仓一体

数据湖、数据仓库和数据湖仓一体都是不同类型的数据存储解决方案。但它们之间的差异相互补充,并且它们经常在集成数据架构中一起使用,以支持各种用例。

数据湖与数据仓库

像数据湖一样, 数据仓库 将来自不同来源的数据聚合到一个中央存储中。 关键区别在于,数据仓库通常在数据摄取之前进行清洗和准备,以便数据可以立即用于分析。

数据仓库针对结构化数据进行了优化,并与分析引擎、商业智能  (BI) 仪表盘和 数据可视化 工具紧密集成。因此,数据仓库往往提供强大的性能,但成本较高,且灵活性不如数据湖。组织通常将数据仓库用于特定分析项目,同时依赖数据湖进行大规模、多用途的数据存储。 

数据湖与湖仓一体

 数据湖仓一体 是一种数据管理解决方案,它结合了数据湖灵活、低成本的数据存储和数据仓库的高性能分析能力。 与数据湖一样,数据湖仓一体可以以低成本存储任何格式的数据。 然而,它还在云数据湖存储之上提供了仓库式的分析基础设施。 

组织可以使用数据湖仓一体来支持众多工作负载,包括 AI、ML、BI 和实时分析。数据湖仓一体还可以作为数据架构的现代化路径:组织可以在现有数据湖和数据仓库旁边插入数据湖仓一体, 而无需进行昂贵的推倒重来。

数据湖应用场景

组织可以在各个行业中将数据湖用于多种目的。一些最常见的用途包括:

  • 多功能存储
  • 数据备份和归档
  • 高级分析和 AI
  • 数据集成

通用存储

对于许多组织而言,数据湖充当海量数据的通用存储解决方案。组织无需花费时间和资源转换数据以便摄取,而是可以将传入的原始数据存储到可扩展的对象存储中——这可以 轻松地 以几乎任何格式存储数拍字节的数据。用户既可以使用分析引擎直接从湖中查询数据,也可以根据需要将数据移动到数据仓库或其他 数据平台 。

组织还可能使用数据湖来存储用途尚未确定的“以防万一”的数据。由于对象存储相对便宜且可扩展,组织不必担心为他们可能还不需要的数据超支。

数据备份和归档

高存储容量和相对较低的存储成本使数据湖成为关键数据备份和灾难恢复策略的常见组成部分。数据湖也经常被用来以较低的成本存储冷数据或不活跃数据。这种方法对于归档旧数据和维护历史记录以满足合规审计、监管查询或未来的分析用例非常有用。

例如,银行和金融业从股票市场、信用卡和其他金融活动中产生高速交易数据。它还必须保留法律文件和其他记录,以满足监管和审计要求。数据湖架构非常适合存储这些混合数据格式,并保存遗留和历史数据以便于查询。

高级分析和 AI

根据 2025 年 IBM  首席执行官研究,61% 表现出色的 CEO 认同拥有最先进的 生成式 AI  工具能赋予组织竞争优势。数据湖在 AI、ML 和大数据分析工作负载中扮演着重要角色,包括构建预测模型和训练 生成式 AI  系统。

这些项目需要访问大量且多样化的结构化、非结构化和半结构化数据集。数据湖架构提供了经济高效、可扩展的存储以及与处理框架的集成能力,支持这些需求。

数据整合

根据  IBM 商业价值研究院的基准数据,64% 的组织报告称,打破组织内部数据共享的障碍是他们面临的最大人员相关挑战之一。 如果数据被孤立且难以访问,组织就无法从其数据中充分受益。

数据湖通过为来自多个来源的数据提供集中式存储库,有助于支持 数据整合 计划。通过将不同数据整合到一个环境中,它们为下游的数据协调和转换打下了坚实的基础。

数据湖带来的挑战

虽然数据湖具有可扩展性、灵活性和成本优势,但组织应考虑三个主要挑战。

  • 数据质量: 由于数据湖不强制执行严格的模式,并接受来自多个来源的多种不同数据类型,因此它们可能在数据治理和 数据质量 方面面临挑战。如果没有适当的管理,数据湖很容易变成数据沼泽。

  • 数据安全: 数据湖存储来自许多不同来源的大量多样化数据。确保所有这些数据不会被未经授权地访问、使用或篡改,并完全符合数据隐私法规,可能具有挑战性。

  • 性能: 数据湖不像许多数据仓库和数据湖仓一体那样具有内置的处理和查询工具。随着输入数据湖的数据量增长,查询和分析性能可能会受到影响,特别是如果数据没有针对检索进行优化。
Techsplainers | 播客 | 什么是数据湖?

收听:“什么是数据湖?”

关注 Techsplainers:SpotifyApple PodcastsCasted

关于数据湖的常见问题

如何防止数据沼泽?

从一开始就采用强大的数据治理数据质量数据安全实践是避免数据沼泽的关键。定义并强制执行数据标准、元数据管理和文档记录以及访问控制,将有助于确保数据湖保持有序、有用且安全。

IBM 软件高级副总裁 Dinesh Nirmal 指出,在准备数据湖以支持生成式 AI 时,这些原则尤其重要:

“虽然数据是非结构化的,但应用与结构化数据相同的治理和安全措施非常重要。那里蕴藏着巨大的机遇:只有我们为模型提供受管、可信的数据,生成式 AI 才能成功。”

我真的需要数据湖吗?

除非您为 AI机器学习数据科学管理大量半结构化和非结构化数据,否则您可能不需要数据湖。数据湖提供经济高效、可扩展的云存储以及独立的计算。或者,数据湖仓一体将这种可扩展性与数据仓库的内置数据分析功能相结合。

数据湖安全吗?

数据湖并非默认就是安全的,并且可能成为安全威胁的主要目标,因为它们是大量数据(其中一些是敏感信息)的集中存储库。安全的数据湖使用数据加密、访问控制和网络保护来保护数据集免受未经授权的访问。

可以在数据湖上直接运行机器学习吗?

是的,数据湖非常适合机器学习,因为它们存储了训练、验证、调优和部署 ML 模型所需的海量、原始、多样化的数据。使用数据处理和分析引擎(如 Apache Spark),数据科学团队可以直接在数据湖内访问和准备原始数据集,构建和完善他们的模型。

作者

Alexandra Jonker

Staff Editor

IBM Think

Matthew Kosinski

Staff Editor

IBM Think

相关解决方案
IBM watsonx.data

利用混合、开放的湖仓一体,无论数据位于何处,都能为 AI 和分析所用。

了解 watsonx.data
数据湖解决方案

利用湖仓一体架构因应当今的数据挑战。可以在几分钟内连接数据,快速获得可靠的洞察分析,并降低数据仓库成本。

深入了解 IBM 数据湖解决方案
数据和分析咨询服务

通过 IBM Consulting 发掘企业数据的价值,建立以洞察分析为导向的组织,实现业务优势。

了解分析服务
采取后续步骤

企业要想蓬勃发展,就必须利用数据建立客户忠诚度,实现业务流程自动化,并利用 AI 驱动的解决方案进行创新。

  1. 深入了解分析解决方案
  2. 了解分析服务
脚注

1数据湖,全球行业分析,2025 年 10 月 1 日。

22025 年 CEO 研究:五大认知升级, 激发业务增长:借助智能体 AI, 从生产力跃升到绩效提升——大中华区洞察,IBM 商业价值研究院,2025 年 5 月。

32025 年首席数据官研究:AI 的乘数效应,IBM 商业价值研究院,2025 年 11 月 12 日。