数据仓库或企业数据仓库 (EDW) 是一种系统,它会将来自不同源的数据提取到一个统一的中央数据存储中,以便支持数据分析、数据挖掘、人工智能 (AI) 和机器学习。 数据仓库系统使组织能够以标准数据库无法实现的方式对大量(PB 级)历史数据运行强大的分析。
过去三十年来,数据仓库系统一直是商业智能 (BI) 解决方案的一部分,但近年来,它们随着新数据类型和数据托管方法的出现而不断发展。 在过去,数据仓库托管在本地(通常托管在大型计算机上),其功能主要是从其他源提取数据、清理和准备数据,以及在关系数据库中加载和维护数据。 近年来,数据仓库可以托管在专用设备或云中,并且大多数的数据仓库都添加了分析功能以及数据可视化和演示工具。
IBM 数据仓库解决方案
一般来说,数据仓库使用的是三层架构,此架构包括:
OLAP( 联机分析处理)是一种软件,用于对来自统一集中式数据存储(如数据仓库)的大量数据进行高速多维分析。 OLTP(联机事务处理)可以让许多用户(通常是通过因特网)实时执行大量数据库事务。 OLAP 和 OLTP 的主要区别在于名称:OLAP 本质上是分析性的,而 OLTP 是事务性的。
OLAP 工具旨在对数据仓库中的数据(包括历史数据和事务数据)进行多维分析。 OLAP 的常见用途包括数据挖掘和其他商业智能应用程序、复杂的分析计算和预测场景,以及业务报告功能(如财务分析、预算和预测规划)。
OLTP 旨在通过尽可能快速准确地处理最近的事务来支持面向事务的应用程序。 OLTP 的常见用途包括 ATM、电子商务软件、信用卡支付处理、在线预订、预订系统和记录保存工具。
要深入了解这些方法之间的差异,请查看“ OLAP 与 OLTP:有何不同?”
模式是指在数据库或数据仓库中组织数据的方式。 存在两种主要类型的模式结构(星型模式和雪花模式),它们会影响数据模型的设计。
星型模式: 此模式由一个事实表组成,该事实表可以连接到多个非规范化维度表。 它被认为是最简单、最常见的模式类型,可以为用户提供更快的查询速度。
雪花模式: 虽然没有被广泛采用,但雪花模式是数据仓库中使用的另一种组织结构。 在这种情况下,事实表将连接到许多规范化维度表,而这些维度表都具有子表。 雪花模式可以为用户提供较低水平的数据冗余,但这是以查询性能为代价的。
数据仓库、数据库、数据湖和数据集市都是可以互换使用的术语。 虽然这些术语十分相似,但存在明显的区别:
数据仓库会将来自多个源的原始数据收集到一个中央存储库中,使用专为数据分析设计的预定义模式进行结构化处理。 数据湖是没有预定义模式的数据仓库。 因此,它支持的分析类型要多于数据仓库。 数据湖通常是在 Apache Hadoop 等大数据平台上构建的。
有关数据湖的更多信息,请观看以下视频:
数据中心 的占用空间,基于云的数据仓库在过去五到七年中变得越来越流行。 如果使用云数据仓库,那么物理数据仓库基础架构将由云公司管理,这意味着客户不必对硬件或软件进行前期投资,也不必管理或维护数据仓库解决方案。
数据仓库可以为以下方面提供基础:
IBM 提供了本地、云和集成设备 数据仓库解决方案 - 所有这些解决方案都建立在数据分析和人工智能基础之上,并针对预测性洞察和数据驱动的决策进行了优化。 这三种解决方案都是 IBM Db2 产品系列的一部分,均提供了通用 SQL 引擎来简化查询和机器学习功能,因此可以提高数据管理性能。
IBM Db2 Warehouse on Cloud 是一个完全托管的弹性云数据仓库,可提供独立的存储和计算扩展,具有高度优化的列式数据存储、可操作的压缩和内存中处理功能,能够超额处理分析和机器学习工作负载。 小型数据集市可以添加 Flex One 进行自由扩展,Flex One 是一种为高性能分析而构建的弹性数据仓库,可部署在多个云提供商的平台上,其存储容量至少为 40 GB。
Netezza Performance Server 是 IBM Netezza 设备的下一个演进版本,它构建在 IBM Cloud Pak for Data System 的超融合架构之上,提供了一个 云原生 决策支持系统,以便企业进行最复杂的分析。
IBM InfoSphere DataStage 是一种数据仓库工具,可提供高级企业 ETL 并提供跨多个企业系统集成数据的 多云 平台。
另外, IBM Watson Studio 是一种数据科学和机器学习产品,使组织能够利用数据资产并将预测注入到业务流程和现代应用程序中。
有关数据仓库的更多信息,请注册一个 IBMid 并 创建 IBM Cloud 帐户。
IBM 数据仓库解决方案提供高性能和灵活性,支持在分析工作负载(包括机器学习)中使用结构化数据和非结构化数据。
探索为高性能分析和 AI 构建的完全管理的弹性云数据仓库的功能。
探索一个具有强大数据库内分析功能且可在本地和云端使用的高级数据仓库和分析平台。
IBM Cloud Pak for Data System 是一体化的混合云平台,用于在本地交付预先配置且高度安全的管理环境。
构建、运行和管理 AI 模型。 使用开源代码或可视化建模在任何云中准备数据和构建模型。 预测并优化结果。
探索 IBM DataStage ,这是一个功能强大且可扩展的 ETL 平台,可在本地和云环境中近乎实时地集成所有类型数据。