开始之前
数据仓库设计和数据建模是计算机科学和 IT 结合的产物,众所周知、意义重大。借助上世纪 90 年代初研发的几种方法,这种技术得以发展起来。最重要的方法由 Ralph Kimball(自上而下)和 W. H. Inmon(自下而上)定义(参见 参考资料)。
商业数据建模产品因为其特定于内容的知识而弥足珍贵,这是基于实践经验和业务专长的。IBM 在这个领域提供了一个智力资本(intellectual capital)产品系列,称为 IBM Industry Models。IBM Industry Models 产品包含一些用于数据建模(关系型和多维型)的模式框架,这些框架经过充分测试,比较成熟,针对几个行业打包。本教程将简要介绍 Information Insurance Warehouse (IIW),IIW 是为保险业定义的 IBM Industry Models 产品的一部分。
本教程介绍使用 IBM Industry Model IIW 为数据仓库(DWH)开发数据模型的方法。本教程将演示开发核心数据仓库(CDW)模型(高度规范化的数据模型,包含原子数据元素)和数据专用栈(DM)模型(反规范化 [de-normalized] 的数据模型,实现多维数据模型的结构)的方法。多维数据模型的特征有两点:一是度量值定义,存储在事实表 中;二是维度表定义,定义分析的轴或维度。
本教程中描述的方法是用于开发数据模型的 IIW 路线图。IIW 路线图基于自上而下的方法,这种方法开始于业务需求采集和业务模型(IIW 术语称为分析数据模型)定义。定义业务需求是其他所有工作的前提条件。理想情况下,这个工作应该由数据建模师 和业务部门的专家共同完成。当业务部门创建并批准模型时,逻辑模型创建阶段就开始了。
逻辑模型设计包含两个步骤:先设计 DWH 逻辑模型(CDW),然后设计 DM 逻辑模型。遵守顺序很重要,颠倒设计顺序可能会产生意想不到的结果。因此,IIW 路线图的结构,以及本教程,被划分为以下 4 个阶段:
这 4 个阶段将完成不同的目标并提供不同的可交付结果:
- 阶段 1:采集 IIW 业务需求
- BI 项目应该负责业务需求的完整描述。此阶段的可交付结果是一个概念模型和一个分析需求模型。
- 概念模型
- 将在整个组织中使用的所有概念和业务术语的模型
- 分析需求模型
- 处理特定行业问题的业务需求的预定义模型。这些模型被表示为度量值和维度。
- 阶段 2:定义分析数据模型
- 一个概念模型,表示业务概念以及业务概念之间的相互关系的理想全景图。这个模型是一个独立平台,不需要实现的物理方面。此阶段的可交付结果是分析数据模型。
- 分析数据模型
- 指定表示概念模型中定义的概念需要的规范数据结构的数据模型。
- DWH 和 DM 设计阶段
- 业务概念映射到一个实体-关系(ER)逻辑模型(DWH)和一个多维(MD)逻辑模型上。这些模型是数据库中的数据的物理结构的基础。此阶段的可交付结果是 DW 设计数据模型和 DM 设计数据模型。
- DW 设计数据模型
- 代表用于信息处理的原子和分析数据的企业级存储库的数据模型。
- DM 设计和数据模型
- 实现分析需求并构造为支持特定维度分析的维度模型。
图 1 总结了这些可交付结果。
图 1. 图 1. 4 个 IIW 阶段的可交付结果
IIW 还定义了 3 个模型层:
- 基础层包含概念和分析需求模型。
- 分析层涵盖分析数据模型。
- 设计层包含 DW 设计和 DW 设计模型。
图 2 描绘了这些层。
图 2. 图 2. IIW 模型层
本教程下面各小节将分别描述这 4 个阶段,每个阶段都有一些使用 InfoSphere™ Data Architect (IDA) 的示例。那些示例使用 IBM IIW Model Version 8.2。IIW 模型内容通过 Enterprise Model Extender (EME) 工具导入 IDA。EME 是针对 IBM InfoSphere Data Architect 产品的一组插件扩展。要跟随本教程的操作,您需要安装这些产品。

