什么是数据湖?
了解数据湖如何帮助激发公司内部的创新。
技术员在服务器机房使用数字平板电脑
什么是数据湖?

数据湖最初由 Pentaho 前 CTO 所创造,是一种低成本的存储环境,通常可存储数 PB 的原始数据。 与数据仓库不同,数据湖既可以存储结构化数据,也可以存储非结构化数据,并且不需要定义模式来存储数据,这种特性称为"读时模式"。 这种灵活的存储需求对于数据科学家、数据工程师和开发人员尤其有用,让他们能够访问数据进行数据发现练习和机器学习项目。

451 Research 最近发布的企业之声 (链接位于 ibm.com 外部)报告确定,几乎"四分之三 (71%) 的企业目前正在使用或试用数据湖环境,或者计划在未来 12 个月内这样做,并且 53% 的受访者已在执行部署或 POC。" 本报告中的受访者强调,业务敏捷性是其部署的主要优势,具体可能会有所不同。 他们还发现,数据湖通常托管在云中,或者通过企业的数据中心在本地托管。 

虽然采用者发现了数据湖的价值,但有些人可能会陷入数据沼泽或数据坑而成为受害者。 数据沼泽是数据湖管理不善导致的结果,也就是说,缺乏适当的数据质量和数据治理实践来实现富有洞察力的学习。 如果没有适当的监督,这些存储库中的数据就将变得毫无用处。 另一方面,数据坑与数据沼泽类似,它们都没有什么商业价值,只不过在这些情况下,数据问题的来源并不明确。 类似地,让数据治理和数据科学团队参与进来,有助于防止落入这些陷阱。 


数据湖与数据仓库

虽然数据湖和数据仓库都存储数据,但每个存储库都有各自的存储需求,这使其成为不同场景下的理想之选。 例如,数据仓库需要定义的模式来满足数据输出的特定数据分析需求,例如仪表板、数据可视化和其他商业智能任务。 这些需求通常由业务用户和其他利益相关方指定,他们将定期使用报告的输出。 数据仓库的底层结构通常以关系系统(即结构化数据格式)的形式加以组织,并从事务数据库中获取数据。 而另一方面,数据湖则整合了来自关系系统和非关系系统的数据,支持数据科学家将结构化数据和非结构化数据整合到更多数据科学项目中。 

每个系统也各自都有一系列的优点和缺点。 例如,数据仓库往往性能更高,但成本也不菲。 数据湖虽然返回查询结果的速度可能较慢,但它们的存储成本也更低。 此外,数据湖庞大的存储容量也使其成为企业数据的理想选择。 


数据湖与湖仓一体

虽然数据湖和数据仓库的采用只会随着新数据源的增长而不断增加,但这两个数据存储库的局限性也导致了这些技术日渐融合。 湖仓一体将数据湖的成本优势与数据仓库的数据结构和数据管理功能融为一体。 根据 415 Research 发布的另一份调查报告 (链接位于 ibm.com 外部)显示,"三分之二的公司已经在使用或试用湖仓一体环境,或者计划在 12 个月内这样做。" 此外,他们还发现,在采用了数据湖的企业中,93% 的企业还计划在未来 12 个月内采用湖仓一体形式。 


数据湖架构

数据湖也通常与 Apache Hadoop 相关联,后者是一种开源软件框架,可为大数据存储提供可靠的低成本分布式处理方法。 它们以往都部署在本地,但正如 451 Research 的报告所指出的那样,采用者正在迅速转向云环境,因为这些环境为最终用户提供了更多的灵活性。 与本地部署不同,云存储提供商允许用户根据需要启动大型集群,且只需要为指定的存储付费。 这意味着,如果您需要额外的计算能力以在几小时而不是几天内运行作业,那么可以通过购买额外的计算节点在云平台上轻松完成此操作。 据 Forrester Research (链接位于 ibm.com 之外) 报告显示,使用云数据湖而不是本地数据湖的企业节省了大约 25% 的成本。

在 Hadoop 中,Hadoop Distributed File System (HDFS) 可在多个服务器之间存储和复制数据,而 Yet Another Resource Negotiator (YARN) 则决定如何在这些服务器之间分配资源。  随后,您可以使用 Apache Spark 为数据处理创建一个庞大内存空间,支持更高级的用户通过 Python、R 和 Spark SQL 接口来访问数据。 

随着数据量以指数级增长,数据湖成为数据管道的重要组成部分。 


数据湖的用例

由于数据湖主要用于存储大量原始数据,因此不一定要在一开始就定义数据的业务目的。 这表示,可以在下述阶段找到数据湖的两个主要用例:

- 概念验证 (POC):数据湖存储是概念验证项目的理想选择。 它们能够存储不同类型的数据,这对于机器学习模型尤为有益,也为将结构化数据和非结构化数据整合到预测模型中创造了机会。 这对于文本分类等用例也很有用,因为在此情况下,数据科学家无法利用关系数据库(至少在没有根据模式要求预处理数据的情况下无法如此)。 数据湖也可以作为其他大数据分析项目的沙箱。 从大规模仪表板开发到 IoT 应用支持,统统涵盖在内,这通常需要实时流数据。 在确定了数据的用途和价值后,就可以进行 ETL 或 ELT 处理,以便存储在下游数据仓库中。 

- 数据备份和恢复:高存储容量和低存储成本使得数据湖可以作为灾难恢复事件的存储替代方案。 由于数据以其原生格式存储(即,未进行转换),因此它们还有利于进行数据审计,进一步保证质量。 如果数据仓库围绕其数据处理缺乏相应的文档,这就特别有用,团队由此可以反复核对以前数据所有者的工作。 

最后,由于数据湖中的数据不一定要求存储后立即使用,它也可以作为以经济合理的价格存储冷数据或不活动数据的方法,这些数据日后可能用于监管查询或开展新分析。


数据湖的好处

更灵活:数据湖可以获取结构化、半结构化和非结构化数据集,这使其成为高级分析和机器学习项目的理想选择。 

成本:由于数据湖无需太多的前期计划即可获取数据(例如模式和转换定义),因此在人力资源上所需投入的资金也就更少。 此外,与数据仓库等其他存储库相比,数据湖的实际存储成本也更低。 这样一来,公司便能够跨数据管理计划更有效地优化预算和资源。 

可扩展性:数据湖可以通过多种方式帮助企业实现扩展。 与其他存储服务相比,自助服务功能和整体存储容量使得数据湖更具可扩展性。 此外,数据湖还为工作人员成功开发 POC 提供了一个沙箱。 一旦某个项目小规模地展示出了价值,也就更容易使用自动化功能在更大范围内扩展该工作流程。  

减少了数据孤岛:从医疗保健到供应链,各行各业的公司在其组织内都会遇到数据孤岛。 由于数据湖可以跨不同部门获取原始数据,这些依赖关系开始自行消除,因为给定数据集不再拥有单一所有者。 

增强了客户体验:虽然这种好处不会立即显现,但成功的概念验证可以改善整体用户体验,让团队能够通过富有洞察力的全新分析更深入地理解和个性化定制客户旅程。


数据湖带来的挑战

虽然数据湖提供了许多好处,但它们也带来了一些挑战。 其中包括: 

- 性能:随着输入数据湖的数据量日渐增长,它以牺牲性能为代价,速度上已经比其他替代数据存储系统要慢。 

- 治理:虽然由于数据湖能够获取各种数据源,它为企业的数据管理实践带来了一定的优势,但妥善的管理也离不开强有力的治理。 数据应使用相关元数据加以标记和分类,避免形成数据沼泽,并且还应能够通过数据目录轻松访问此信息,从而能够为业务分析师等不太精通技术的人员提供自助服务功能。 最后,还应设置数据护栏,满足隐私和监管标准;这可能包括访问控制、数据加密等。  


数据湖和 IBM
尽管市场上有许多供应商可供选择,但 IBM 和 Cloudera 合作提供的企业级数据湖解决方案,可帮助您用一个敏捷的可扩展平台取代数据孤岛,该平台可以收集、存储、管理和保护整个企业中的原始数据,为展开分析做好准备。 Cloudera 的高级数据平台可在本地或云端提供,并与 IBM 产品、服务和多厂商支持相结合,帮助您充分释放 AI 的价值。 有关数据湖和 IBM 存储服务的更多信息,请注册一个 IBMid,并创建您的 IBM Cloud® 帐户。 创建 IBM Cloud 帐户