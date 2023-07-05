数据湖已经存在十多年了，为一些全球最大公司的分析运营提供支持。不过，也有人认为，这些部署中的绝大多数现在已经变成了数据“沼泽”。无论您支持这场争议的哪一方，现实都是这些系统中仍然保存着大量数据。这样的数据量不容易移动、迁移或现代化。
从高层次上讲，数据湖是大规模数据的单一存储库。数据能够以其原始形式存储，也可以优化为适合专用引擎使用的其他格式。
就 Hadoop（一款更流行的数据湖）而言，它承诺使用开源代码软件实现这样一个存储库，并让其在商用硬件上运行，这意味着您能以非常低的成本在这些系统上进行大量数据的存储。数据能以开放数据格式持久化，使数据消费民主化，还可以自动复制，从而帮助您保持高可用性。默认的处理框架能够在飞行途中从故障中恢复。毫无疑问，这与传统的分析环境截然不同，传统的分析环境通常意味着供应商锁定且无法大规模处理数据。
另一个意想不到的挑战是引入 Spark 作为大数据处理框架。由于支持数据转换、流媒体和 SQL，它迅速受到欢迎。但它从未与现有的数据湖环境和谐共处。因此，通常需要额外的专用计算集群才能运行 Spark。
快进近 15 年，这项技术所带来的权衡与妥协，如今已在现实中清晰显现。它们的快速普及使客户很快就对最终落入数据湖的数据失去了掌控。同样具有挑战性的是，他们无法判断数据的来源，也不清楚数据是如何被摄取的，更不了解在此过程中数据经历了哪些转化。对于这项技术而言，数据治理仍然是一个待探索的前沿领域。软件可能是开放的，但仍然需要有人掌握其使用方法、进行维护并提供支持。依赖社区支持，并不总能达到业务运营所要求的响应速度。通过复制实现高可用性意味着更多数据副本分布在更多磁盘上，从而带来更高的存储成本和更频繁的故障。高度可用的分布式处理框架意味着以牺牲性能为代价来换取弹性（这里指交互式分析和 BI 的性能可能下降几个数量级）。
事实证明，数据湖颇有成效，公司能够将注意力集中在特定的使用场景中。但显而易见的是，这些部署亟需进行现代化改造，并保护针对系统中的基础架构、技能和数据的投资。
为了寻找答案，行业研究了现有的数据平台科技及其优势。很明显，一个行之有效的路径，是将传统（或者说旧版）数据仓库或数据集市的关键特性，与数据湖中最具优势的能力融为一体。有几项内容很快浮现为基本门槛，成为不可或缺的必备要素。
上述原因促成 湖仓一体的出现。湖仓一体是一个数据平台，它将数据仓库和数据湖的最佳方面融合到一个统一且内聚的数据管理解决方案中。
IBM 针对当前分析领域的十字路口提出的解决方案是 watsonx.data。这是一个全新的开放式数据存储系统，可用于大规模数据管理，使企业在无需进行迁移的情况下，就能围绕现有的数据湖与数据仓库，对其加以增强并实现现代化升级。其混合特性意味着可以部署在客户自管理的基础设施上（本地或 IaaS），也可运行在云环境中。watsonx.data 基于湖仓一体架构，内置统一的解决方案和通用软件堆栈，适用于各种使用场景和数据形态。
与市场上的竞争产品相比，IBM 的方案基于开源堆栈与开放架构。这些组件并非全新发明，而是业界公认、成熟可靠的技术。IBM 已充分处理了它们的互操作性、共存性以及元数据交换问题。用户能够快速上手，从而显著降低部署与采用成本，同时其高层架构与基础概念都熟悉且直观，易于理解与应用：
Watsonx.data 为企业提供了一种保护其数十年数据湖与数据仓库投资的解决方案。它使企业能够即时扩展，同时逐步实现现代化改造，让每个组件都聚焦于最关键的使用场景。
一个关键的差异化因素在于多引擎战略，它让用户能够通过统一的数据平台，在合适的时间为合适的任务选择最合适的技术。Watsonx.data 使客户能够实现完全动态的分层存储及其对应的计算能力。从长远来看，这将为数据管理与处理带来可观的成本节约。
如果您的最终目标是通过现代化湖仓一体架构升级现有的数据湖部署，watsonx.data 可通过灵活选择计算方式，尽量减少数据与应用迁移，从而简化整个过程。
过去几年里，数据湖在大多数企业的数据管理战略中都发挥了关键作用。如果您的目标是让数据管理战略实现演进与现代化，迈向真正的混合分析云架构，那么 IBM 基于湖仓一体架构打造的新型数据存储 watsonx.data值得你考虑。
