什么是数据仓库?
数据仓库会将许多不同来源的数据提取到一个数据存储库中,以便提供复杂的分析和决策支持
订阅 IBM 时事通讯
黑色和蓝色背景
什么是数据仓库?

数据仓库或企业数据仓库 (EDW) 作为一种系统,可将不同来源的数据提取到单个统一的中央数据存储库中,以支持数据分析、数据挖掘、人工智能 (AI) 和机器学习。 数据仓库系统使组织能够以标准数据库无法实现的方式对大量(PB 级)历史数据运行强大的分析。

过去三十多年,数据仓库系统一直是商业智能 (BI) 解决方案的一部分,但近年来,它们随着新数据类型和数据托管方法的出现而不断发展。 过去,数据仓库托管在本地(通常托管在大型计算机上),其功能主要是从其他源提取数据、清理和准备数据,以及在关系数据库中加载和维护数据。 近年来,数据仓库可以托管在专用设备或云中,并且大多数的数据仓库都添加了分析功能以及数据可视化和演示工具。

了解有关 IBM 数据仓库解决方案的更多信息。

 

了解 watsonx.data

面向所有数据随处扩展 AI 工作负载

数据仓库架构

一般来说,数据仓库有采用三层架构,其中包括:

  • 底层: 底层包含一个数据仓库服务器,这通常是一个关系数据库系统,该系统通过称为提取、转换和加载 (ETL) 的过程或称为提取、加载和变换 (ELT) 的过程从多个数据源收集、清理和转换数据。
  • 中间层: 中间层由一个 OLAP(联机分析处理)服务器组成,可以实现快速查询。 在这一层中可以使用以下三种类型的 OLAP 模型:ROLAP、MOLAP 和 HOLAP。 使用的 OLAP 模型类型取决于存在的数据库系统类型。
  • 顶层: 顶层由某种前端用户界面或报告工具表示,使最终用户能够对其业务数据进行临时数据分析。   
了解数据仓库中的 OLAP 和 OLTP

OLAP(表示联机分析处理) 是一种软件,用于对来自统一集中式数据存储(如数据仓库)的大量数据进行高速多维分析。 OLTP(联机事务处理)可以让大量用户(通常是通过因特网)实时执行大量数据库事务。 OLAP 和 OLTP 的主要区别在于名称:OLAP 本质上用于分析的,而 OLTP 是事务性的。 

OLAP 工具旨在对数据仓库中的数据(包括历史数据和事务数据)进行多维分析。 OLAP 的常见用途包括数据挖掘和其他商业智能应用、复杂的分析计算和预测场景,以及业务报告功能(如财务分析、预算编制和预测规划)。

OLTP 旨在通过尽可能快速准确地处理最近的事务来支持面向事务的应用。 OLTP 的常见用途包括 ATM、电子商务软件、信用卡支付处理、在线预订、预订系统和记录保存工具。

要深入了解这些方法之间的差异,请查看"OLAP 与 OLTP:有何区别?"

数据仓库中的模式

模式是指数据在数据库或数据仓库中的组织方式。 主要有两种类型的模式结构:星型模式和雪花模式,它们会影响数据模型的设计。

星型模式: 此模式由一个事实表组成,该事实表可以连接到多个非规范化维度表。 它被认为是最简单、最常见的模式类型,可以为用户提供更快的查询速度。

雪花模式: 虽然没有被广泛采用,但雪花模式是数据仓库中使用的另一种组织结构。 在这种情况下,事实表将连接到许多规范化维度表,而这些维度表都具有子表。 雪花模式可以为用户提供较低水平的数据冗余,但这会对查询性能造成一定影响。 

数据仓库与数据库、数据湖和数据集市

数据仓库、数据库、数据湖和数据集市这些术语往往可以互换使用。 虽然这些术语相似,但它们之间存在很大区别:

数据仓库与数据湖
 

数据仓库将多个来源的原始数据收集到一个中央存储库中,该存储库使用为数据分析设计的预定义模式进行结构化。 数据湖是没有预定义模式的数据仓库。 因此,它支持的分析类型要多于数据仓库。 数据湖通常是在 Apache Hadoop 等大数据平台上构建的。

有关数据湖的更多信息,请观看以下视频:

数据仓库与数据集市
 

数据集市是数据仓库的一个子集,其中包含特定于某些业务线或业务部门的数据。 由于数据集市包含较小的数据子集,因此在使用范围较广泛的数据仓库数据集时,业务部门或业务线可以借助数据集市更快地发现更有针对性的洞察。

数据仓库与数据库
 

数据库主要用于快速查询和事务处理,而不是分析。 数据库通常用作特定应用程序的主要数据存储库,而数据仓库将存储来自组织中任意数量(甚至所有)应用程序的数据。

数据库侧重于更新实时数据,而数据仓库的应用范围更广,它能够捕获当前和历史数据以进行预测分析、机器学习和其他高级分析。

数据仓库类型

云数据仓库
 

云数据仓库是专为在云端运行而构建的数据仓库,可以作为一个托管服务提供给客户。 越来越多的公司使用云服务并希望减少其本地数据中心的占用空间,因此基于云的数据仓库在过去五到七年中变得越来越流行。  

如果使用云数据仓库,那么物理数据仓库基础架构将由云公司管理,这意味着客户不必对硬件或软件进行前期投资,也不必管理或维护数据仓库解决方案。

数据仓库软件(本地/许可)
 

一家企业可以购买数据仓库许可证,然后在自己的本地基础架构上部署数据仓库。 尽管这样做的成本通常比使用云数据仓库服务要高,但对于希望更好地掌控数据或需要遵守严格的安全或数据隐私标准或法规的政府实体、金融机构或其他组织来说,这可能是更好的选择。

数据仓库工具
 

数据仓库设备是预先集成的硬件和软件(CPU、存储、操作系统和数据仓库软件)捆绑包,企业可以将此捆绑包连接到其 网络 并按原样开始使用。 就前期成本、部署速度、易扩展性和管理控制能力而言,数据仓库设备介于云实施和本地实施之间。

数据仓库的优势

数据仓库为以下改进奠定了基础:

  • 更好的数据质量: 数据仓库集中了来自各种数据源的数据,例如事务系统、操作数据库和平面文件。 然后对数据进行清理,消除重复项,并将其标准化以创建单一的事实来源。
  • 更快获取业务洞察: 数据的来源不同,这限制了决策者自信地制定业务战略的能力。   数据仓库支持数据集成,因而业务用户可充分利用公司的所有数据来制定每一个业务决策。   
  • 更智慧的决策:数据仓库支持大规模 BI 功能,例如数据挖掘(发现数据中看不见的模式和关系)、人工智能和机器学习,数据专业人员和业务负责人可以利用这些工具获得确凿证据,以便在组织内从业务流程到财务管理和库存管理的几乎各个领域作出更明智的决策
  •  
  • 获得和增长竞争优势:以上所有内容结合起来,可以帮助组织从数据中发现更多机遇,这比从不同数据存储中发现机遇要快得多。
  •  
相关解决方案
数据仓库解决方案

IBM 数据仓库解决方案可提供高性能和灵活性,支持将结构化数据和非结构化数据用于分析工作负载(包括机器学习)。

探索数据仓库解决方案
Db2 Warehouse on Cloud

探索为高性能分析和 AI 构建的完全管理的弹性云数据仓库的功能。

探索 Db2 Warehouse on Cloud
IBM Cloud Pak® for Data System

IBM Cloud Pak® for Data System 是一体化的混合云平台,可在本地提供预配置、受管理且高度安全的环境。

探索 IBM Cloud Pak® for Data System
资源 寻找能够应对数据和 AI 挑战的合适的企业数据仓库

企业数据仓库和数据集市可以帮助克服 AI 所带来的许多挑战。 了解如何评估此类解决方案可以实现的总体价值。

如何选择适用于 AI 的数据仓库

在选择企业数据仓库时,企业应考虑 AI 的影响、关键的仓库差异化因素以及部署模型的多样性。 这本电子书可帮助您全面考虑这些问题。

数据差异化优势

构建数据驱动型组织并推动业务优势指南

采取下一步行动

IBM 提供了本地、云和集成设备数据仓库解决方案,所有解决方案都建立在数据分析和人工智能基础之上,并针对预测性洞察和数据驱动的决策进行了优化。 这三种解决方案都是 IBM Db2 产品系列的一部分,它们提供了通用 SQL 引擎来简化查询和机器学习功能,因此可以提高数据管理性能。

立即探索数据仓库解决方案