数据仓库
黑蓝背景
数据仓库

作为商业智能的核心组件,数据仓库会将来自许多不同源的数据提取到一个数据存储库中,以便提供复杂的分析和决策支持。

特色产品

Db2 Warehouse on Cloud

Netezza Performance Server


什么是数据仓库?

数据仓库或企业数据仓库 (EDW) 是一种系统,它会将来自不同源的数据提取到一个统一的中央数据存储中,以便支持数据分析、数据挖掘、人工智能 (AI) 和机器学习。 数据仓库系统使组织能够以标准数据库无法实现的方式对大量(PB 级)历史数据运行强大的分析。

过去三十年来,数据仓库系统一直是商业智能 (BI) 解决方案的一部分,但近年来,它们随着新数据类型和数据托管方法的出现而不断发展。 在过去,数据仓库托管在本地(通常托管在大型计算机上),其功能主要是从其他源提取数据、清理和准备数据,以及在关系数据库中加载和维护数据。 近年来,数据仓库可以托管在专用设备或云中,并且大多数的数据仓库都添加了分析功能以及数据可视化和演示工具。

了解有关 IBM 数据仓库解决方案的更多信息。

相关链接

IBM 数据仓库解决方案


数据仓库架构

一般来说,数据仓库使用的是三层架构,此架构包括:

  • 底层:  底层由一个数据仓库服务器组成,此服务器通常是一个关系数据库系统,可通过一个称为“提取、转换和加载”(ETL) 的流程或称为“提取、加载和转换”(ELT) 的流程从多个数据源中收集数据并对数据进行清理和转换。
  • 中间层:  中间层由一个 OLAP(联机分析处理)服务器组成,可以实现快速查询。 在这一层中可以使用以下三种类型的 OLAP 模型:ROLAP、MOLAP 和 HOLAP。 使用的 OLAP 模型类型取决于存在的数据库系统类型。
  • 顶层:  顶层由某种前端用户界面或报告工具表示,使最终用户能够对其业务数据进行临时 数据分析 。 

了解数据仓库中的 OLAP 和 OLTP

OLAP(  联机分析处理)是一种软件,用于对来自统一集中式数据存储(如数据仓库)的大量数据进行高速多维分析。 OLTP(联机事务处理)可以让许多用户(通常是通过因特网)实时执行大量数据库事务。 OLAP 和 OLTP 的主要区别在于名称:OLAP 本质上是分析性的,而 OLTP 是事务性的。 

OLAP 工具旨在对数据仓库中的数据(包括历史数据和事务数据)进行多维分析。 OLAP 的常见用途包括数据挖掘和其他商业智能应用程序、复杂的分析计算和预测场景,以及业务报告功能(如财务分析、预算和预测规划)。

OLTP 旨在通过尽可能快速准确地处理最近的事务来支持面向事务的应用程序。 OLTP 的常见用途包括 ATM、电子商务软件、信用卡支付处理、在线预订、预订系统和记录保存工具。

要深入了解这些方法之间的差异,请查看“ OLAP 与 OLTP:有何不同?


数据仓库中的模式

模式是指在数据库或数据仓库中组织数据的方式。 存在两种主要类型的模式结构(星型模式和雪花模式),它们会影响数据模型的设计。

星型模式:  此模式由一个事实表组成,该事实表可以连接到多个非规范化维度表。 它被认为是最简单、最常见的模式类型,可以为用户提供更快的查询速度。

雪花模式:  虽然没有被广泛采用,但雪花模式是数据仓库中使用的另一种组织结构。 在这种情况下,事实表将连接到许多规范化维度表,而这些维度表都具有子表。 雪花模式可以为用户提供较低水平的数据冗余,但这是以查询性能为代价的。 


数据仓库与数据库、数据湖和数据集市

数据仓库、数据库、数据湖和数据集市都是可以互换使用的术语。 虽然这些术语十分相似,但存在明显的区别:

数据仓库与数据湖

 

数据仓库会将来自多个源的原始数据收集到一个中央存储库中,使用专为数据分析设计的预定义模式进行结构化处理。 数据湖是没有预定义模式的数据仓库。 因此,它支持的分析类型要多于数据仓库。 数据湖通常是在 Apache Hadoop 等大数据平台上构建的。

有关数据湖的更多信息,请观看以下视频:

数据仓库与数据集市
  

数据集市是数据仓库的一个子集,其中包含特定于特定业务线或部门的数据。 由于数据集市包含较小的数据子集,因此在使用更广泛的数据仓库数据集时,数据集市使部门或业务线能够更快地发现更有针对性的洞察。

数据仓库与数据库
  

数据库主要用于快速查询和事务处理,而不是用于分析。 数据库通常用作特定应用程序的主要数据存储,而数据仓库将存储来自组织中任意数量(甚至所有)应用程序的数据。

数据库侧重于更新实时数据,而数据仓库的应用范围更广,能够捕获当前和历史数据以进行预测分析、机器学习和其他高级分析。


数据仓库类型

云数据仓库
  

云数据仓库是专门为在云端运行而构建的数据仓库,可以作为一个托管服务提供给客户。 随着越来越多的公司使用云服务并希望减少其本地 

数据中心 的占用空间,基于云的数据仓库在过去五到七年中变得越来越流行。 如果使用云数据仓库,那么物理数据仓库基础架构将由云公司管理,这意味着客户不必对硬件或软件进行前期投资,也不必管理或维护数据仓库解决方案。

数据仓库软件(本地/许可证)
  

企业可以购买数据仓库许可证,然后在自己的本地基础架构上部署数据仓库。 尽管这样做的成本通常比云数据仓库服务要高,但对于希望对其数据进行更多控制或需要遵守严格的安全或数据隐私标准/法规的政府实体、金融机构或其他组织来说,这可能是更好的选择。

数据仓库设备
  

数据仓库设备是预先集成的硬件和软件(CPU、存储、操作系统和数据仓库软件)捆绑包,企业可以连接到其 

网络 并按原样开始使用。 就前期成本、部署速度、易扩展性和管理控制能力而言,数据仓库设备介于云实施和本地实施之间。

数据仓库的优势

数据仓库可以为以下方面提供基础:

  • 提供更好的数据质量: 数据仓库会将来自各种数据源(例如事务系统、操作数据库和平面文件)的数据集中起来。 然后对数据进行清理,消除重复项,并将其标准化以创建单一的事实来源。 
  • 更快地获取业务洞察: 来自不同源的数据 限制了决策者 自信地制定业务战略的能力。 数据仓库 支持数据集成,允许业务 用户 将公司的所有数据用于每一个业务决策。 
  • 制定更明智的决策: 数据仓库支持大规模的 BI 功能,例如数据挖掘(发现数据中未被发现的模式和关系)、人工智能和机器学习 - 数据专业人士和商业领袖可以使用这些工具来获取确凿的证据,几乎可以在组织的每个业务领域内做出更明智的决策,从业务流程到财务管理和库存管理 
  • 获得和扩大竞争优势: 综合上述所有优势,帮助组织在数据中发现更多商机,其速度超过了从不同数据存储中发现商机的速度。 

数据仓库与 IBM Cloud

IBM 提供了本地、云和集成设备  数据仓库解决方案 - 所有这些解决方案都建立在数据分析和人工智能基础之上,并针对预测性洞察和数据驱动的决策进行了优化。 这三种解决方案都是 IBM Db2 产品系列的一部分,均提供了通用 SQL 引擎来简化查询和机器学习功能,因此可以提高数据管理性能。

IBM Db2 Warehouse on Cloud  是一个完全托管的弹性云数据仓库,可提供独立的存储和计算扩展,具有高度优化的列式数据存储、可操作的压缩和内存中处理功能,能够超额处理分析和机器学习工作负载。 小型数据集市可以添加  Flex One 进行自由扩展,Flex One 是一种为高性能分析而构建的弹性数据仓库,可部署在多个云提供商的平台上,其存储容量至少为 40 GB。

Netezza Performance Server 是 IBM Netezza 设备的下一个演进版本,它构建在  IBM Cloud Pak for Data System  的超融合架构之上,提供了一个 云原生 决策支持系统,以便企业进行最复杂的分析。

IBM InfoSphere DataStage  是一种数据仓库工具,可提供高级企业 ETL 并提供跨多个企业系统集成数据的 多云 平台。

另外, IBM Watson Studio 是一种数据科学和机器学习产品,使组织能够利用数据资产并将预测注入到业务流程和现代应用程序中。

有关数据仓库的更多信息,请注册一个 IBMid 并 创建 IBM Cloud 帐户


相关解决方案

数据仓库解决方案

IBM 数据仓库解决方案提供高性能和灵活性,支持在分析工作负载(包括机器学习)中使用结构化数据和非结构化数据。


Db2 Warehouse on Cloud

探索为高性能分析和 AI 构建的完全管理的弹性云数据仓库的功能。


Netezza Performance Server

探索一个具有强大数据库内分析功能且可在本地和云端使用的高级数据仓库和分析平台。


IBM Cloud Pak for Data System

IBM Cloud Pak for Data System 是一体化的混合云平台,用于在本地交付预先配置且高度安全的管理环境。


IBM Watson Studio

构建、运行和管理 AI 模型。 使用开源代码或可视化建模在任何云中准备数据和构建模型。 预测并优化结果。


IBM DataStage

探索 IBM DataStage ,这是一个功能强大且可扩展的 ETL 平台,可在本地和云环境中近乎实时地集成所有类型数据。