数据建模是创建整个或部分信息系统的可视化表示的过程,表示数据点和结构之间的连接。
数据建模的目标在于阐释系统中使用与存储的数据类型、数据间的关联关系、数据分组与组织方式,以及数据的格式和属性特征。
数据模型围绕业务需求建立。规则与需求通过业务利益相关者的反馈进行预先定义,以便将其融入新系统的设计或现有系统的迭代优化中。
可以在各种抽象级别上对数据进行建模。该流程始于向项目利益相关者及终端用户收集业务需求信息。随后,这些业务规则将被转化为数据结构,从而形成具体的数据库设计方案。数据模型好比路线图、建筑蓝图或任何能深化设计理解的规范化图表。
数据建模采用标准化模式与规范技术。这为整个组织乃至跨组织的数据资源定义与管理,提供统一、一致且可预测的方法体系。
理想情况下,数据模型是随着业务需求变化而演变的动态文档。它们在支持业务流程以及规划 IT 架构和战略方面发挥着重要作用。数据模型可与供应商、合作伙伴及行业同仁共享。
与所有设计流程相同,数据库及信息系统设计亦从高度抽象层面展开,并逐步趋于具体化与特定化。数据模型根据抽象程度的不同,通常可划分为三个类别。设计流程将从概念模型起步,经由逻辑模型过渡,最终以物理模型收尾。后续章节将详细讨论每种类型的数据模型:
它们也称为领域模型,完整呈现了系统的构成要素、组织架构及关联的业务规则全景。概念模型通常是在收集初始项目要求的过程中创建的。通常,它们包括实体类(用于定义对企业很重要的事物的类型,以便在数据模型中进行表示)、它们的特征和约束、它们相互之间的关系,以及相关的安全性与数据完整性要求。表示法通常极为简明。
它们为数据在数据库中的物理存储方式提供了架构方案。因此,它们的抽象程度最低。物理数据模型提供可直接实施为关系数据库的最终设计,包括用于说明实体间关系的关联表,以及用于维护这些关系的主键和外键。此外,物理数据模型还可包含特定于数据库管理系统 (DBMS) 的属性,包括性能优化相关设置。
作为一门学科,数据建模要求利益相关者以高度精细化的方式审视数据处理与存储机制。不同的数据建模技术遵循特定规范,这些规范界定了数据表征的符号体系、模型布局的逻辑结构,以及业务需求的传达方式。所有方法均提供规范化的工作流,这些流程包含以迭代方式执行的任务序列。这些工作流通常是这样的:
数据建模始终与数据库管理系统协同演进,随着企业数据存储需求的日益增长,模型类型也呈现出渐趋复杂的演进轨迹。以下是几种模型类型:
关系数据库经常使用结构化查询语言 (SQL) 进行数据管理。这些数据库可以很好地维护数据完整性并最大限度地减少冗余。它们常用于销售点系统,也适用于其他类型的交易处理场景。
两种流行的维度数据模型是星形架构,其中数据被组织为事实(可测量的项目)和维度(参考信息),其中每个事实被其关联的维度呈星形图案包围。另一种是雪花模型,它与星型模型类似,但包含额外的关联维度层级,使得分支结构更为复杂。
数据建模使开发人员、数据架构师、业务分析师和其他利益相关者可以更轻松地查看和理解数据库或数据仓库中数据之间的关系。此外,它还可以:
当前,众多商用及开源计算机辅助软件工程 (CASE) 解决方案已获广泛应用,涵盖多种数据建模、图表生成及可视化工具。部分示例如下:
使用数据科学工具和解决方案,利用数据、算法、机器学习和 AI 技术发现模式,并构建预测。
推出 Cognos Analytics 12.0,人工智能驱动洞察分析可以更好地做出决策。
通过 IBM Consulting 发掘企业数据的价值,建立以洞察分析为导向的组织,实现业务优势。