数据仓库或企业数据仓库 (EDW) 作为一种系统,可将不同来源的数据提取到单个统一的中央数据存储库中,以支持数据分析、数据挖掘、人工智能 (AI) 和机器学习。 数据仓库系统使组织能够以标准数据库无法实现的方式对大量(PB 级)历史数据运行强大的分析。
过去三十多年,数据仓库系统一直是商业智能 (BI) 解决方案的一部分,但近年来,它们随着新数据类型和数据托管方法的出现而不断发展。 过去,数据仓库托管在本地(通常托管在大型计算机上),其功能主要是从其他源提取数据、清理和准备数据,以及在关系数据库中加载和维护数据。 近年来,数据仓库可以托管在专用设备或云中,并且大多数的数据仓库都添加了分析功能以及数据可视化和演示工具。
面向所有数据随处扩展 AI 工作负载
一般来说,数据仓库有采用三层架构,其中包括:
OLAP(表示联机分析处理) 是一种软件,用于对来自统一集中式数据存储(如数据仓库)的大量数据进行高速多维分析。 OLTP(联机事务处理)可以让大量用户(通常是通过因特网)实时执行大量数据库事务。 OLAP 和 OLTP 的主要区别在于名称:OLAP 本质上用于分析的,而 OLTP 是事务性的。
OLAP 工具旨在对数据仓库中的数据(包括历史数据和事务数据)进行多维分析。 OLAP 的常见用途包括数据挖掘和其他商业智能应用、复杂的分析计算和预测场景,以及业务报告功能(如财务分析、预算编制和预测规划)。
OLTP 旨在通过尽可能快速准确地处理最近的事务来支持面向事务的应用。 OLTP 的常见用途包括 ATM、电子商务软件、信用卡支付处理、在线预订、预订系统和记录保存工具。
要深入了解这些方法之间的差异,请查看"OLAP 与 OLTP:有何区别?"
模式是指数据在数据库或数据仓库中的组织方式。 主要有两种类型的模式结构:星型模式和雪花模式,它们会影响数据模型的设计。
星型模式: 此模式由一个事实表组成,该事实表可以连接到多个非规范化维度表。 它被认为是最简单、最常见的模式类型,可以为用户提供更快的查询速度。
雪花模式: 虽然没有被广泛采用,但雪花模式是数据仓库中使用的另一种组织结构。 在这种情况下,事实表将连接到许多规范化维度表,而这些维度表都具有子表。 雪花模式可以为用户提供较低水平的数据冗余,但这会对查询性能造成一定影响。
数据仓库、数据库、数据湖和数据集市这些术语往往可以互换使用。 虽然这些术语相似,但它们之间存在很大区别:
数据仓库将多个来源的原始数据收集到一个中央存储库中,该存储库使用为数据分析设计的预定义模式进行结构化。 数据湖是没有预定义模式的数据仓库。 因此,它支持的分析类型要多于数据仓库。 数据湖通常是在 Apache Hadoop 等大数据平台上构建的。
有关数据湖的更多信息,请观看以下视频:
数据集市是数据仓库的一个子集,其中包含特定于某些业务线或业务部门的数据。 由于数据集市包含较小的数据子集,因此在使用范围较广泛的数据仓库数据集时,业务部门或业务线可以借助数据集市更快地发现更有针对性的洞察。
数据库主要用于快速查询和事务处理,而不是分析。 数据库通常用作特定应用程序的主要数据存储库,而数据仓库将存储来自组织中任意数量(甚至所有)应用程序的数据。
数据库侧重于更新实时数据,而数据仓库的应用范围更广,它能够捕获当前和历史数据以进行预测分析、机器学习和其他高级分析。
云数据仓库是专为在云端运行而构建的数据仓库,可以作为一个托管服务提供给客户。 越来越多的公司使用云服务并希望减少其本地数据中心的占用空间,因此基于云的数据仓库在过去五到七年中变得越来越流行。
如果使用云数据仓库,那么物理数据仓库基础架构将由云公司管理,这意味着客户不必对硬件或软件进行前期投资,也不必管理或维护数据仓库解决方案。
一家企业可以购买数据仓库许可证,然后在自己的本地基础架构上部署数据仓库。 尽管这样做的成本通常比使用云数据仓库服务要高,但对于希望更好地掌控数据或需要遵守严格的安全或数据隐私标准或法规的政府实体、金融机构或其他组织来说,这可能是更好的选择。
数据仓库设备是预先集成的硬件和软件(CPU、存储、操作系统和数据仓库软件)捆绑包,企业可以将此捆绑包连接到其 网络 并按原样开始使用。 就前期成本、部署速度、易扩展性和管理控制能力而言,数据仓库设备介于云实施和本地实施之间。
数据仓库为以下改进奠定了基础: