什么是数据架构？

By Tom Krantz , Alexandra Jonker

什么是数据架构？

数据架构阐述数据从采集、转换到分发、使用的全流程管理方式，为数据在组织内的流转制定框架。它是数据处理操作和人工智能 (AI) 应用的基础。

数据架构的设计通常基于业务需求和数据需求，数据架构师和数据工程师利用这些需求来定义支撑业务的数据模型及其底层数据结构。这种设计通常服务于业务战略或业务需求，例如报表系统或数据科学计划。

辅以专家洞察分析的最新科技新闻

通过 Think 时事通讯，了解有关 AI、自动化、数据等方面最重要且最有趣的行业趋势。请参阅 IBM 隐私声明。

为什么数据架构很重要？

随着企业数据规模扩大，对结构良好、适应性强的架构需求日益迫切。然而，94% 的数据领导者将“缺乏明确的数据架构”列为首要挑战。¹

现代数据架构有助于统一和标准化企业数据，实现跨业务领域的无缝数据共享。它还为实时数据分析和生成式 AI 等高级用例提供了可扩展的基础，帮助团队更快、更可靠地从数据中提取价值。

当物联网 (IoT) 等技术催生新数据源时，精心设计的架构能确保数据在全生命周期保持可管理性、集成性和可用性。通过连接企业系统，可减少冗余、提升数据质量并消除信息孤岛。

成功实施的数据架构不仅是技术结构，更是将原始数据转化为可复用资产的战略能力。

AI Academy

数据管理是生成式 AI 的秘诀吗？

深入了解为什么高质量数据对于成功使用生成式 AI 至关重要。

转到视频集

数据架构核心术语

数据架构汇集了几个重叠的概念。以下内容可帮助定义环境：

平台：承载和运行数据系统的底层技术环境。这包含云端或本地部署工具。

数据模型：系统内数据组织方式的详细表示。它定义了实体、关系和格式。

框架：用于设计和管理企业架构的战略方法。框架提供了结构化的方法来使数据系统与业务目标保持一致。

组件：在架构中执行特定角色的功能元素。例如，管道（用于移动）、数据湖（用于原始存储）以及目录（用于元数据管理）。

模式：针对常见架构挑战的可重复解决方案。data fabric 架构或数据网格等模式描述了改进可扩展性、治理或可访问性的经过测试的方法。

数据架构类型

现代数据架构往往遵循两种核心方法之一：集中式或去中心化。这些模型可指导如何收集、存储和治理企业数据。

集中式架构将数据导入统一的平台（如数据湖或数据仓库），在单一的数据治理模式下进行管理。这有助于减少冗余、提高数据质量并支持结构化数据建模（使用结构化查询语言 (SQL) 和其他关系数据库）。

分散式架构将数据所有权分散到各个业务领域。团队在本地管理数据，通常使用非关系数据库系统（也称为“ NoSQL 数据库”）或基于事件的管道（具有自己的架构、元数据和访问控制）。这种方法支持实时数据整合和处理、数据流和机器学习 (ML) 用例。

大多数组织将两种模型结合起来，以平衡可扩展性、数据集成和敏捷性。这种混合方法可以帮助支持不同的数据源，减少数据孤岛，并在 AWS 或 Microsoft Azure 等平台上实现云原生运营。

无论组织采用哪种架构模式，成功与否都取决于基础数据的结构是否合理。这就是数据建模的作用所在。

有哪三种数据模型？

数据架构关注的是数据如何在系统间流动，而数据建模则关注的是数据如何在这些系统内构建。数据模型定义了信息在架构中移动时的形式、关系和约束。

数据架构文档通常涵盖三类模型：

概念数据模型
逻辑数据模型
物理数据模型

概念数据模型

概念数据模型也称为“领域模型”，它提供了系统将包含的内容、组织方式以及适用哪些业务规则的整体视图。这些模型通常在项目规划的早期阶段创建，包括实体类（要在数据模型中跟踪的定义项）、它们的特征和约束、它们之间的关系以及任何相关的安全或数据完整性要求。

逻辑数据模型

逻辑数据模型比概念模型更少抽象性，并提供了关于特定领域内实体及关系的更多细节。它们遵循正式的数据建模表示法，定义数据属性（如数据类型和长度），并阐明实体间的连接方式。关键点在于：逻辑模型保持与技术无关性，不包含特定系统要求。

物理数据模型

物理数据模型是三种数据模型中最详细的，它描述了数据库将如何被实现。其定义表结构、索引、存储格式及性能优化方案。这些模型聚焦结构化数据的存储与访问技术细节，用于指导模式创建、配置及优化。

数据模型塑造系统内的信息结构。由此出发，更广泛的架构框架指导如何实现模型及其周围的系统。

主流数据架构框架

数据架构可从主流企业架构框架中提取内容，而此类架构则包括 TOGAF、DAMA-DMBOK 2 和 Zachman Framework for Enterprise Architecture。

The Open Group Architecture Framework (TOGAF)

该企业架构方法由 The Open Group 于 1995 年开发。其架构由四个支柱组成：

业务架构定义了企业的组织结构、数据战略和流程。

数据架构 描述概念性、逻辑性和物理性数据资产，及其全生命周期存储管理方式。

应用架构代表应用系统，以及它们与关键业务流程的关系和相互之间的关系。

技术架构描述了支持任务关键型应用程序所需的数据基础设施（硬件、软件和网络）。

TOGAF 可为设计和实施企业的 IT 架构（包括其数据架构）提供一个完整的框架。

DAMA-DMBOK 2

国际数据管理协会 (DAMA International) 最初以 Data Management Association International 之名创立，是致力于推进数据与信息管理的非营利组织。其《数据管理知识体系指南》(DAMA-DMBOK 2) 涵盖数据架构、治理与伦理、建模与设计、存储、安全及集成。

Zachman 企业架构框架

该框架最初由 IBM 的 John Zachman 于 1987 年开发，它使用一个由 6 层（从背景到详细）组成的矩阵，针对六个问题（例如，内容、原因和方法）进行映射。它提供了一种正式的数据组织与分析方法，但不包含具体的实现方式。

数据架构组件

数据架构由多个相互依存的组件构成，用于管理数据的移动、存储、治理及访问。这些要素构成数据系统的运行基础，支持从数据摄取到分析的全流程。

数据组件通常分为四大类，每类又有几个子类别：

流程和集成

数据从外部和内部来源获取，并移动到系统进行处理和存储。

数据管道

管道从数据源摄取数据，进行转换，并将其传输到进行处理和存储的位置。这些系统可采用批处理模式，例如提取、转换、加载 (ETL) 和提取、加载、转换 (ELT)。它们也支持近实时的数据流传输。现代管道流程常包含转换逻辑、质量检查及模式验证环节。

API 和连接器

应用程序编程接口 (API) 和预构建连接器实现了数据系统、应用程序和分析工具之间的无缝集成。它们通过标准化方式简化跨平台数据访问，是实时数据交换的核心。

存储系统

数据被摄取后，存储在可扩展的系统中（用于结构化和非结构化数据），可供进一步使用和分析。

数据仓库

数据仓库将来自整个企业中不同关系数据源的数据聚合到一个集中且一致的存储库中。提取后，数据会流经 ETL 管道，并进行各种转换，以满足预定义的数据模型。当加载到数据仓库系统时，数据可用于支持各种商业智能 (BI) 和数据科学应用。

数据市场

数据市场是数据仓库的重点版本，其中包含与单个团队或利益相关者群组相关的较小数据子集。通过缩小范围，数据市场可以比使用更广泛的仓库数据集提供更快、更有针对性的洞察分析。

数据湖

数据湖大规模存储原始、未处理的数据，包括结构化和非结构化格式。与数据仓库不同，数据湖无需预先建模或准备，特别适合大数据工作负载。

湖仓一体

湖仓一体架构融合数据仓库与数据湖特性，形成统一数据管理方案。它兼具低成本存储、高性能查询引擎及智能元数据治理能力。

数据库

数据库作为基础数字存储库，负责数据存储、管理与安全防护。不同类型的数据库以不同的方式存储数据。例如，关系型数据库（亦称 SQL 数据库）通过行列分明的表结构存储数据。NoSQL 数据库支持键值对、图结构等多种数据形式。

数据访问与使用

用户通过仪表板和查询调取数据，为分析工作以及 AI/ML 应用程序提供支撑。洞察分析会回流至架构中，用于优化后续的数据流转流程。

仪表板和分析工具

商业智能平台可以通过可视化和仪表板改善数据访问。这些工具可帮助非技术用户解释趋势、监控关键绩效指标 (KPI) 并做出数据驱动的决策。

查询与计算引擎

SQL 端点和其他查询接口允许分析师和数据科学家以直接方式深入了解和分析数据。Apache Spark 和 IBM® watsonx.data 等工具提供了在分布式数据集中规模化执行查询所需的计算层。

嵌入式数据产品

有些架构支持将数据直接传送到应用程序、工作流或 API 中。这些嵌入式数据产品为日常运营提供了洞察分析，从而实现了数据驱动的决策。

AI 和 ML 训练

架构中的数据可供给 AI 和 ML 工作流使用。训练数据通常源自数据湖，经过管道转换后，用于开发和再训练模型。这些模型可部署至产品、仪表板或业务流程，以增强自动化与预测能力。

治理和元数据

从数据摄取到数据使用的各个环节，治理机制与元数据都会维护数据完整性，保障数据在全生命周期内安全且可检索。

沿袭和可观测性

沿袭工具追踪跨系统数据流转路径，记录其转换过程与源头信息。该可见性对审计排障、依赖分析至关重要。可观测性平台通过监控管道性能与数据质量指标，与沿袭工具形成互补。

数据目录

数据目录是组织数据资产的集中式库存。它使用元数据来提供有关每个数据集的上下文，包括其来源、结构、所有权、使用历史和质量。数据目录可帮助用户查找和评估数据，支持治理和合规性工作，并促进跨团队的协作。

下图展示数据在架构各层级中的移动过程：

数据架构是如何实施的？

实施数据架构涉及将业务需求转化为数据收集、组织、安全和可访问性的路线图。虽然不存在完全相同的两个实施方案，但大多数方案都遵循从规划到执行的分阶段方法。

第 1 步：与业务目标保持一致

该流程始于明确业务数据需求——无论是支持机器学习还是满足合规要求。这决定了架构优先级、需纳入的数据源及待集成的系统。

第 2 步：定义数据模型和治理

数据架构师开发概念、逻辑和物理数据模型来指导结构和流程。这些模型有助于识别关键实体、关系、数据要求和访问控制。与此同时，还要制定管理政策，以确定所有权、访问权限和数据生命周期规则。

第 3 步：设计架构

有了模型和策略，团队就可以选择存储、整合、元数据管理和使用的技术来设计架构本身。这包括定义数据如何在系统之间移动，及其在存储系统中的驻留位置。

步骤 4：构建与集成

实施通常包含部署数据摄取管道、构建 API 接口、配置治理层，以及启用仪表板或查询端点等访问节点。此阶段融入安全合规要求以保护数据。

步骤 5：监控、演进与扩展

一旦部署，就必须持续监控和完善数据架构。数据量增长；用例演变；法规变化。组织经常重新审视和重新优化其架构，尤其是在他们采用云平台并且采用现代架构模式时。

现代数据架构核心特性

随着组织规模的扩张，对灵活、有弹性的数据架构的需求也在增长。现代数据架构优先考虑互操作性、实时访问以及将数据作为产品而不仅仅是资产进行管理的能力。它还通过 API 实现更大力度的标准化、元数据管理和民主化。

现代数据架构关键特征包括：

云原生设计：提供弹性扩展能力与高可用性。

智能数据管道，结合实时集成、数据流和认知分析。

与现代和传统应用程序实现基于 API 无缝集成。

实时数据启用，其中包括验证、分类和治理。

解耦且可扩展的服务，支持模块化增长和开放式互操作性。

基于领域的企业：运用事件流与微服务映射业务结构。

内置优化，在性能、成本和简单性之间取得平衡。

现代数据架构模式

企业升级数据基础设施时，正采用反映当今混合多云环境复杂性的新型数据策略。这一转变催生了数据编织架构与数据网格架构等新模式。

数据结构

data fabric 架构专注于跨混合环境的自动化数据整合和管理。它使用主动元数据和机器学习来发现跨系统的关系并编排数据流。data fabric 架构可以自动提供数据产品并按需交付，从而提高运营效率并减少数据孤岛。

数据网格

数据网格通过将架构与业务领域结合起来，实现了数据所有权去中心化。它鼓励数据生产者（最接近源的一方）将数据视为产品，并在设计 API 时考虑到使用者。这种模型有助于消除瓶颈，并支持整个企业范围内的可扩展的数据民主化。

尽管二者存在差异，却非互斥关系。众多企业融合两者优势，利用结构的自动化能力扩展网格架构的分布式治理。

数据架构的优点

精心构建的数据架构可为企业带来显著优势，包括：

减少冗余
提高数据质量
实现整合
数据生命周期管理 (DLM)

减少冗余

不同来源之间重叠的数据字段可能会导致不一致、不准确以及错失数据集成的机会。良好的数据架构可实现数据存储方式的标准化，且有可能减少冗余，从而实现更优质且全面的分析。

提高数据质量

设计良好的数据架构可解决管理不善的数据湖（也称为“数据沼泽”）所带来的某些难题。数据沼泽缺乏适当的数据标准（包括数据质量和数据治理实践），无法提供有意义的洞察。数据架构可以帮助实施数据治理和数据安全标准，从而实现适当的数据管道监督。

实现整合

由于数据存储的技术限制和企业内部的组织障碍，数据通常会形成孤岛。当今的数据架构着眼于促进跨领域的数据整合，以便不同地区和业务职能部门都能访问彼此的数据。这可以让人们更好、更一致地理解常见指标，并能够更全面地了解业务，为数据驱动的决策提供信息。

数据生命周期管理

现代数据架构可以解决数据随时间推移的管理方式。数据通常会随着时间的推移和访问频率的下降而变得越发无用。随着时间的推移，可将数据迁移到较便宜、速度较慢的存储设备，以便它们保持可用状态，供报告和审计使用，但无需承担高性能存储的费用。

Techsplainers | 播客 | 什么是数据架构？

收听：“什么是数据架构？”

关注 Techsplainers：Spotify、Apple Podcasts 和 Casted。

查看更多剧集

作者

Tom Krantz

Staff Writer

IBM Think

Alexandra Jonker

Staff Editor

IBM Think

阅读《数据领导者指南》，了解如何让您组织的数据实现 AI 就绪。

资源

AI 智能体依赖数据运行——您的数据准备好了吗？

您的数据就是您的竞争优势。在这期简短的网络研讨会中，了解如何安全地解锁数据价值，并从 AI 中获得可衡量的投资回报率。

数据管理详解

IBM 出品的 Techsplainers 系列视频将 AI 所需的数据基础知识化繁为简，从核心概念到实际用例。每集清晰、简短，助您快速掌握基本要点。

统一并访问您的数据，助力扩展 AI

了解为何走向 AI 就绪数据之路往往始于有效访问结构化和非结构化数据，以及数据负责人可能面临的挑战。

将法务费用转化为战略性洞察分析

了解人工智能驱动的法律智能体如何加速决策、减少人工工作并提升合规性。

AI 学院：构建企业 AI 数据战略

在本集中，Cathy Reese 阐述了当今组织需要为高级 AI 做好准备的数据战略，这就要求企业利用好自身最高质量的数据资产。

面向 AI 的混合、开放湖仓一体

简化数据访问并实现数据治理自动化。了解将湖仓一体战略集成到数据架构中的强大功能，包括优化工作负载的成本、扩展 AI 和分析，以及随时随地使用所有数据。

《2025 年数据泄露成本报告》

数据泄露成本再创新高。获取关于网络安全威胁及其对企业造成的经济损失的最新洞察。

数据领导者的 AI 就绪数据指南

了解数据负责人可以采取哪些可行步骤来克服数据挑战，为可信赖的数据基础奠定根基，并帮助组织的数据为 AI 做好准备。

高级管理层如何将信息转化为影响

在这份面向数据领导者的跨行业报告中，深入了解 1700 位 CDO 的洞察分析。

脚注

¹2024 Informatica Report: State of AI and Data with a Modern Data Architecture，Informatica

什么是数据架构？