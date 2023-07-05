从高层次上讲，数据湖是大规模数据的单一存储库。数据能够以其原始形式存储，也可以优化为适合专用引擎使用的其他格式。

就 Hadoop（一款更流行的数据湖）而言，它承诺使用开源代码软件实现这样一个存储库，并让其在商用硬件上运行，这意味着您能以非常低的成本在这些系统上进行大量数据的存储。数据能以开放数据格式持久化，使数据消费民主化，还可以自动复制，从而帮助您保持高可用性。默认的处理框架能够在飞行途中从故障中恢复。毫无疑问，这与传统的分析环境截然不同，传统的分析环境通常意味着供应商锁定且无法大规模处理数据。

另一个意想不到的挑战是引入 Spark 作为大数据处理框架。由于支持数据转换、流媒体和 SQL，它迅速受到欢迎。但它从未与现有的数据湖环境和谐共处。因此，通常需要额外的专用计算集群才能运行 Spark。

快进近 15 年，这项技术所带来的权衡与妥协，如今已在现实中清晰显现。它们的快速普及使客户很快就对最终落入数据湖的数据失去了掌控。同样具有挑战性的是，他们无法判断数据的来源，也不清楚数据是如何被摄取的，更不了解在此过程中数据经历了哪些转化。对于这项技术而言，数据治理仍然是一个待探索的前沿领域。软件可能是开放的，但仍然需要有人掌握其使用方法、进行维护并提供支持。依赖社区支持，并不总能达到业务运营所要求的响应速度。通过复制实现高可用性意味着更多数据副本分布在更多磁盘上，从而带来更高的存储成本和更频繁的故障。高度可用的分布式处理框架意味着以牺牲性能为代价来换取弹性（这里指交互式分析和 BI 的性能可能下降几个数量级）。