什么是数据架构?

了解什么是数据架构以及实现数据架构所需的组件

显示不同办公室人员全都使用 IBM Security 的等距图
什么是数据架构?

数据架构描述如何管理从收集到转换、分发和使用的数据。 它为数据及其在数据存储系统中流动的方式设定了蓝图。 它是数据处理操作和人工智能 (AI) 应用程序的基础。

数据架构的设计应该由业务需求驱动,数据架构师和数据工程师使用这些需求来定义相应的数据模型以及支持它的底层数据结构。 这些设计通常有助于满足业务需求,例如报告或数据科学计划。

随着物联网 (IoT) 等新兴技术的出现,新的数据源不断涌现,良好的数据架构可以确保数据易于管理且具有利用价值,从而支持数据生命周期管理。 更具体地说,它可以避免冗余数据存储,通过清理和重复数据删除来提高数据质量,并支持新的应用程序。 现代数据架构还提供了跨域(例如部门或地理区域之间)集成数据的机制,打破了数据孤岛,因而消除了将所有数据存储在同一地方所带来的巨大复杂性。

现代数据架构经常利用云平台来管理和处理数据。 虽然它的成本更高,但它的计算可扩展性使重要数据处理任务能够快速完成。 存储可扩展性还有助于应对不断增长的数据量,并确保所有相关数据都可用,以提高训练 AI 应用程序的质量。


概念、逻辑和物理数据模型

数据架构文档包含三种类型的数据模型

  • 概念数据模型:它们也被称为领域模型,可围绕系统将包含的内容、如何组织这些内容和涉及哪些业务规则提供一个全局视图。 在收集初始项目需求的过程中,通常会创建概念模型。 通常情况下,它们包含实体类(定义要在数据模型中表示的、对业务至关重要的事物类型)、其特征和约束、彼此之间的关系以及相关的安全性和数据完整性要求。
  •  逻辑数据模型:它们不是那么抽象,而是提供了有关所考虑领域中的概念和关系的更多细节。 遵循几种正式的数据建模符号系统之一。 这些模型表明了数据属性,例如数据类型及其对应的长度,并显示了实体之间的关系。 逻辑数据模型不会指定任何技术系统要求。
  • 物理数据模型:它们不是那么抽象,而是提供了有关所考虑领域中的概念和关系的更多细节。 遵循几种正式的数据建模符号系统之一。 这些模型表明了数据属性,例如数据类型及其对应的长度,并显示了实体之间的关系。 逻辑数据模型不会指定任何技术系统要求。

流行数据架构框架

数据架构可以借鉴流行的企业架构框架,包括 TOGAF、DAMA-DMBOK 2 和 Zachman 企业架构框架。

The Open Group Architecture Framework (TOGAF)

这个企业架构方法由 The Open Group 于 1995 年开发,IBM 是该组织的白金会员。

该架构有四大支柱:

  • 业务架构,它定义企业的组织结构、业务策略和流程。
  • 数据架构,它描述概念、逻辑和物理数据资产,以及这些资产在整个生命周期中的存储和管理方式。
  • 应用程序架构,它代表应用程序系统,以及这些系统与关键业务流程以及相互之间的关系。
  • 技术架构,它描述支持任务关键型应用程序所需的技术基础架构(硬件、软件和网络)。

因此,TOGAF 为设计和实现企业的 IT 架构(包括其数据架构)提供了一个完整的框架。

DAMA-DMBOK 2

DAMA International 最初成立时的名称是 Data Management Association International,是一个致力于推进数据和信息管理的非营利组织。 其数据管理知识体系 DAMA-DMBOK 2 涵盖数据架构以及治理和道德、数据建模和设计、存储、安全和集成。

Zachman 企业架构框架

该框架最初由 IBM 的 John Zachman 于 1987 年开发,使用一个从上下文到详细信息的六层矩阵,映射了诸如为什么、怎么做和是什么等六个问题。 它提供了一种正式的数据组织和分析方式,但不包括具体方法。

 


数据架构的类型和底层组件

数据架构展示了不同数据管理系统如何协同工作的高层视角。 其中包括许多不同的数据存储库,例如数据湖、数据仓库、数据集市和数据库等。 这些存储库结合起来可以创建越来越受欢迎的数据架构,例如数据结构和数据网格。 这些架构更注重将数据作为产品,通过 API 提高元数据的标准化水平以及跨组织的数据民主化程度。

以下部分将深入探讨这些存储组件和数据架构类型:

数据管理系统的类型

  • 数据仓库:数据仓库将来自企业内不同关系数据源的数据聚合到单个集中的统一存储库中。 提取后,数据流经 ETL 数据管道,经过各种数据转换,才能满足预定义数据模型的需求。 一旦加载到数据仓库中,数据就可以支持不同的商业智能 (BI) 和数据科学应用程序。
  • 数据集市:数据集市是一个有针对性的数据仓库版本,它包含一个较小的数据子集,这些数据对组织内的单个团队或选定用户组很重要且是必需的。 由于数据集市包含较小的数据子集,因此在使用更广泛的数据仓库数据集时,数据集市使部门或业务线能够更快地发现更有针对性的洞察。 最初创建数据集市的目的是应对组织在 20 世纪 90 年代建立数据仓库的困难。 当时集成来自整个组织的数据需要进行大量手动编码,而且非常耗时。 与集中式数据仓库相比,数据集市的范围更有限,使其实现起来更容易且更快速。
  • 数据湖:数据仓库存储已处理的数据,而数据湖存储原始数据,通常为 PB 级别。 数据湖可以存储结构化和非结构化数据,这使其与其他数据存储库不同。 这种灵活的存储需求对于数据科学家、数据工程师和开发人员尤其有用,让他们能够访问数据进行数据发现练习和机器学习项目。 最初创建数据湖的目的是应对数据仓库无法处理数量、速度和种类不断增加的大数据的情况。 虽然数据湖比数据仓库慢,但它们的价格也更低廉,因为在采集之前几乎不需要数据准备。 如今,它们作为云数据迁移工作的一部分持续演变。 数据湖支持广泛的用例,因为在收集数据时不需要定义数据的业务目标。 不过,两个主要用例包括数据科学探索以及数据备份和恢复工作。 数据科学家可以使用数据湖进行概念验证。 机器学习应用程序可以从能够在同一个地方存储结构化和非结构化数据中受益,这是使用关系数据库系统无法实现的。 数据湖也可以用于测试和开发大数据分析项目。 当应用程序开发完成并识别出有用数据后,可以将数据导出到数据仓库以供操作使用,并且可以利用自动化来实现应用程序扩展。 数据湖还可以用于数据备份和恢复,因为它们能够以低成本进行扩展。 出于同样的原因,数据湖非常适合存储尚未定义业务需求的“以备不时之需”数据。 现在存储这些数据意味着可以在以后出现新计划时使用。

数据架构的类型

数据结构数据结构是一种架构,它侧重于数据提供者和数据使用者之间的数据价值链中的数据集成、数据工程和治理的自动化 数据结构基于“活动元数据”的概念,使用知识图、语义、数据挖掘和机器学习 (AI) 技术来发现各种类型元数据(例如系统日志、社交等)中的模式。 然后,将这种洞察应用于自动化并编排数据价值链。 例如,它可以使数据使用者能够找到数据产品,然后自动向他们提供该数据产品。 数据产品和数据使用者之间数据访问的增加减少了数据孤岛,并提供了更完整的组织数据视图。 数据结构是一种具有巨大潜力的新兴技术,可用于增强客户概要分析、欺诈检测和预防性维护。  根据 Gartner 的数据,数据结构使集成设计时间减少 30%,部署时间减少 30%,维护时间减少 70%。

数据网格:数据网格是一种去中心化的数据架构,按业务领域来组织数据。 使用数据网格时,组织需要不再将数据视为流程的副产品,而是开始将其视为产品本身。 数据生产者充当数据产品所有者。 作为主题专家,数据生产者可以利用他们对数据主要使用者的理解为他们设计 API。 这些 API 也可以从组织的其他部分访问,提供了更广泛的受管数据访问渠道。

数据湖、数据仓库等相对传统的存储系统可以作为多个去中心化的数据存储库来实现数据网格。 数据网格还可以与数据结构一起使用,借助数据结构的自动化,可以更快地创建新的数据产品或执行全球治理。

 


数据架构的优势

结构完善的数据架构可以为企业提供许多关键优势,其中包括:

  • 减少冗余:不同来源中可能存在重叠的数据字段,从而会导致不一致、数据不准确和错失数据集成机会的风险。 良好的数据架构可以使数据存储方式标准化,并且可能减少重复,从而改善质量和整体分析。
  • 提高数据质量:精心设计的数据架构可以解决管理不善的数据湖(也称为“数据沼泽”)所带来的一些挑战。 数据沼泽缺乏适当的数据质量和数据治理实践来提供有洞察力的学习。 数据架构可以帮助实施数据治理和数据安全标准,从而对数据管道进行适当的监督,使其按预期运行。 通过改进数据质量和治理,数据架构可以确保数据以一种现在和将来都具有价值的方式存储。
  • 支持集成:由于数据存储的技术限制和企业内部的组织障碍,数据经常孤立存在。 当今的数据架构应该旨在促进跨域数据集成,以便不同的地理区域和业务部门可以访问彼此的数据。 这有助于对常用指标(例如费用、收入以及相关驱动因素)形成更准确、更一致的理解。 它还支持更全面地了解客户、产品和地理位置,从而更好地为决策提供信息。
  • 数据生命周期管理:现代数据架构可以解决如何随时间推移管理数据的问题。 随着存在时间的增加和访问频率的降低,数据的使用价值通常会减少。 随着时间的推移,可以将数据迁移到成本更低、速度更慢的存储类型,这样就可以继续用于报告和审计,但无需使用高性能存储。

现代数据架构

随着组织制定面向未来应用程序(包括 AI、区块链和物联网 (IoT) 工作负载)的路线图,他们需要能够支持这种数据需求的现代数据架构。

现代数据架构的七大特征:

  • 云原生和支持云,让数据架构能够从云技术的弹性扩展和高可用性中受益。
  • 强大、可扩展且可移植的数据管道,将智能工作流、认知分析和实时集成结合在一个框架中。
  • 无缝数据集成,使用标准 API 接口连接到原有应用程序。
  • 实时数据支持,包括验证、分类、管理和治理。
  • 解耦且可扩展,因此服务之间没有依赖关系,而且开放标准支持互操作性。
  • 基于公共数据域、事件和微服务。
  • 经过优化,在成本和简单性之间取得平衡。

IBM 解决方案

IBM Cloud Pak for Data

IBM Cloud Pak for Data 是一个开放且可扩展的数据平台,它提供的数据架构使所有数据可用于 AI 和分析,适用于任何云平台。


IBM Watson® Studio

构建、运行和管理 AI 模型。 使用开源代码或可视化建模在任何云中准备数据和构建模型。 预测并优化结果。


IBM® Db2® on Cloud

了解有关 Db2 on Cloud 的信息 - 作为完全管理型 SQL 云数据库,Db2 on Cloud 经配置和优化后,可提供出色的性能。



采取下一步行动

IBM 通过其数据结构解决方案支持实施现代数据架构。 IBM 的数据结构方法正在解决常见客户的四个关键痛点:数据治理和隐私、多云数据集成、MLOps 和可信赖的 AI 以及 Customer 360,所有这些功能都在 IBM 的混合云平台 IBM Cloud Pak for Data 上提供。