辅以专家洞察分析的最新科技新闻
通过 Think 时事通讯,了解有关 AI、自动化、数据等方面最重要且最有趣的行业趋势。请参阅 IBM 隐私声明。
数据湖的出现是为了帮助组织管理 2000 年代末和 2010 年代初由联网应用和服务生成的海量 大数据。与传统数据库 和数据仓库不同,数据湖不强制执行严格的模式,且当今的数据湖使用经济实惠、可扩展的 云存储——使其成为存储大量多样化数据的理想选择。
数据湖现在是许多组织数据架构的核心组成部分。它们被用作低成本的通用存储;用于存放旧数据或未使用数据的归档库;用于暂存传入数据的临时区域;或者用于存储数据科学、机器学习 (ML)、人工智能 (AI) 和大数据分析工作负载所必需的海量非结构化数据集。
尽管数据需求不断演变,新架构(如数据湖仓一体)层出不穷,但数据湖的低成本灵活性对于希望从海量数据中创造价值的企业来说,仍然具有优势。预计到 2030 年,全球数据湖市场规模将达到 458 亿美元,自 2024 年起的年复合增长率 (CAGR) 为 23.9%。1
通过 Think 时事通讯,了解有关 AI、自动化、数据等方面最重要且最有趣的行业趋势。请参阅 IBM 隐私声明。
企业数据量正开始让人感觉如同夜空中的繁星——浩瀚、无垠,似乎永无止境。
数据来自物联网 (IoT) 传感器、社交媒体信息流、企业应用程序以及无数其他来源。如果没有一个经济高效、可扩展的地方来存储所有这些数据,组织就可能犯下战略失误:对数拍字节的数据视而不见、弃而不用。
这些数据可能蕴藏着解锁新收入来源、推动真正运营效率或提供超个性化客户体验所需的洞察。它们对于确保 AI 投资的有效性和盈利能力也至关重要:高达 72% 的首席执行官 认为,专有数据是释放生成式 AI 价值的关键。2
但实现数据的价值,不仅仅需要一个存放数据的地方。还需要方便数据访问以支持协作使用。根据 IBM 商业价值研究院 2025 年的一项研究,82% 接受调查的首席数据官认为,如果员工无法访问数据来进行决策,那么这些数据就是浪费。3
作为集中式存储库,数据湖可以显著改善以往孤立数据的可访问性。它们通常提供自助式数据访问,使非技术用户能够访问和分析来自整个业务的可信数据集,从而提升协作并加速创新。
长期以来,组织依赖 关系数据库 (开发于 20 世纪 70 年代)和数据仓库(开发于 20 世纪 80 年代)来管理数据。这些解决方案至今仍是许多组织 IT 生态系统的重要组成部分,但它们最初主要是为结构化数据集设计的。
随着互联网的发展,特别是社交媒体和流媒体的出现,组织发现自己需要处理海量的非结构化数据,例如自由格式的文本和图像。由于严格的模式和相对昂贵的存储成本,数据仓库和关系数据库难以应对这种实时数据的涌入。
2011年,时任 Pentaho 首席技术官的 James Dixon 创造了“数据湖”一词。Dixon 将数据湖视为数据仓库的替代方案。数据仓库为特定业务用例提供经过处理的数据,而 Dixon 设想的数据湖则是一个以原始格式存储海量数据的场所。用户可以从这个湖中提取所需数据,并按照自己的意愿使用。
许多早期的数据湖构建在 Hadoop 分布式文件系统 (HDFS) 上,这是一个开源框架,也是 Apache Hadoop 的主要组件之一。这些早期的数据湖部署在本地,但随着数据量的持续激增,这很快就成了一个问题。云计算提供了一个解决方案:将数据湖迁移到更具可扩展性的基于云的对象存储服务。
如今,数据湖仍在不断发展。许多数据湖解决方案现在提供的功能已不仅仅是廉价、可扩展的存储,还包括 数据安全 和治理工具、数据目录以及元数据管理。
数据湖也是数据湖仓一体的核心组件,数据湖仓一体是一种相对较新的 数据管理 解决方案,它结合了数据湖的低成本存储 和数据仓库的高性能分析能力。
典型的数据湖架构分为几个层次,每个层次支持数据生命周期的一个阶段。
摄取层将中央数据湖存储连接到各种数据源,例如数据库、应用程序、 物联网 (IoT) 设备和传感器。大多数数据湖在此层使用 提取、加载、转换 (ELT) 流程,而非提取、转换、加载 (ETL) 流程。它们从各种数据管道摄取原始状态的数据,但仅在需要时才进行转换。这种仅在访问数据时才应用模式的方法称为“读取时定义模式”。
最重要的是,数据湖存储必须是安全的,尤其是当它包含有关员工和客户的个人或敏感信息时。安全和治理层包括集成 数据治理 解决方案、加密以及通过 身份和访问管理 (IAM) 实现的访问控制等功能。这些解决方案有助于防止未经授权的访问,并支持跨其他层的有效数据管理。
这些功能还有助于组织满足数据隐私法(如《通用数据保护条例》(GDPR) 和美国《健康保险流通与责任法案》(HIPAA))下的监管要求。
数据湖通过使数据更易于共享和使用,帮助组织从其数据中获取更多价值。更具体地说,数据湖可以提供:
数据湖将计算和存储资源解耦,并且通常使用云存储服务,这使得与许多其他数据存储解决方案相比,更容易扩展容量和计算能力。 这种架构使它们能够处理海量数据增长(这对 AI 和 ML 工作负载至关重要),而不会降低性能。
数据湖、数据仓库和数据湖仓一体都是不同类型的数据存储解决方案。但它们之间的差异相互补充,并且它们经常在集成数据架构中一起使用,以支持各种用例。
数据湖仓一体 是一种数据管理解决方案,它结合了数据湖灵活、低成本的数据存储和数据仓库的高性能分析能力。 与数据湖一样,数据湖仓一体可以以低成本存储任何格式的数据。 然而,它还在云数据湖存储之上提供了仓库式的分析基础设施。
组织可以使用数据湖仓一体来支持众多工作负载,包括 AI、ML、BI 和实时分析。数据湖仓一体还可以作为数据架构的现代化路径:组织可以在现有数据湖和数据仓库旁边插入数据湖仓一体, 而无需进行昂贵的推倒重来。
组织可以在各个行业中将数据湖用于多种目的。一些最常见的用途包括:
对于许多组织而言,数据湖充当海量数据的通用存储解决方案。组织无需花费时间和资源转换数据以便摄取,而是可以将传入的原始数据存储到可扩展的对象存储中——这可以 轻松地 以几乎任何格式存储数拍字节的数据。用户既可以使用分析引擎直接从湖中查询数据,也可以根据需要将数据移动到数据仓库或其他 数据平台 。
组织还可能使用数据湖来存储用途尚未确定的“以防万一”的数据。由于对象存储相对便宜且可扩展,组织不必担心为他们可能还不需要的数据超支。
高存储容量和相对较低的存储成本使数据湖成为关键数据备份和灾难恢复策略的常见组成部分。数据湖也经常被用来以较低的成本存储冷数据或不活跃数据。这种方法对于归档旧数据和维护历史记录以满足合规审计、监管查询或未来的分析用例非常有用。
例如,银行和金融业从股票市场、信用卡和其他金融活动中产生高速交易数据。它还必须保留法律文件和其他记录,以满足监管和审计要求。数据湖架构非常适合存储这些混合数据格式,并保存遗留和历史数据以便于查询。
根据 IBM 商业价值研究院的基准数据,64% 的组织报告称,打破组织内部数据共享的障碍是他们面临的最大人员相关挑战之一。 如果数据被孤立且难以访问,组织就无法从其数据中充分受益。
数据湖通过为来自多个来源的数据提供集中式存储库,有助于支持 数据整合 计划。通过将不同数据整合到一个环境中,它们为下游的数据协调和转换打下了坚实的基础。
虽然数据湖具有可扩展性、灵活性和成本优势,但组织应考虑三个主要挑战。
利用混合、开放的湖仓一体,无论数据位于何处,都能为 AI 和分析所用。
利用湖仓一体架构因应当今的数据挑战。可以在几分钟内连接数据,快速获得可靠的洞察分析,并降低数据仓库成本。
通过 IBM Consulting 发掘企业数据的价值,建立以洞察分析为导向的组织,实现业务优势。
1数据湖,全球行业分析,2025 年 10 月 1 日。
22025 年 CEO 研究:五大认知升级, 激发业务增长:借助智能体 AI, 从生产力跃升到绩效提升——大中华区洞察,IBM 商业价值研究院,2025 年 5 月。
32025 年首席数据官研究:AI 的乘数效应,IBM 商业价值研究院,2025 年 11 月 12 日。