现代数据架构往往遵循两种核心方法之一:集中式或去中心化。这些模型可指导如何收集、存储和治理企业数据。
集中式架构将数据导入统一的平台(如数据湖或数据仓库),在单一的数据治理模式下进行管理。这有助于减少冗余、提高数据质量并支持结构化数据建模(使用结构化查询语言 (SQL) 和其他关系数据库)。
分散式架构将数据所有权分散到各个业务领域。团队在本地管理数据,通常使用非关系数据库系统(也称为“ NoSQL 数据库”)或基于事件的管道(具有自己的架构、元数据和访问控制)。这种方法支持实时数据整合和处理、数据流和机器学习 (ML) 用例。
大多数组织将两种模型结合起来,以平衡可扩展性、数据集成和敏捷性。这种混合方法可以帮助支持不同的数据源,减少数据孤岛,并在 AWS 或 Microsoft Azure 等平台上实现云原生运营。
无论组织采用哪种架构模式,成功与否都取决于基础数据的结构是否合理。这就是数据建模的作用所在。
数据架构关注的是数据如何在系统间流动,而数据建模则关注的是数据如何在这些系统内构建。数据模型定义了信息在架构中移动时的形式、关系和约束。
数据架构文档通常涵盖三类模型:
逻辑数据模型比概念模型更少抽象性,并提供了关于特定领域内实体及关系的更多细节。它们遵循正式的数据建模表示法,定义数据属性(如数据类型和长度),并阐明实体间的连接方式。关键点在于:逻辑模型保持与技术无关性,不包含特定系统要求。
物理数据模型是三种数据模型中最详细的,它描述了数据库将如何被实现。其定义表结构、索引、存储格式及性能优化方案。这些模型聚焦结构化数据的存储与访问技术细节,用于指导模式创建、配置及优化。
数据模型塑造系统内的信息结构。由此出发,更广泛的架构框架指导如何实现模型及其周围的系统。
数据架构可从主流企业架构框架中提取内容,而此类架构则包括 TOGAF、DAMA-DMBOK 2 和 Zachman Framework for Enterprise Architecture。
该企业架构方法由 The Open Group 于 1995 年开发。其架构由四个支柱组成:
TOGAF 可为设计和实施企业的 IT 架构(包括其数据架构)提供一个完整的框架。
国际数据管理协会 (DAMA International) 最初以 Data Management Association International 之名创立,是致力于推进数据与信息管理的非营利组织。其《数据管理知识体系指南》(DAMA-DMBOK 2) 涵盖数据架构、治理与伦理、建模与设计、存储、安全及集成。
该框架最初由 IBM 的 John Zachman 于 1987 年开发,它使用一个由 6 层(从背景到详细)组成的矩阵,针对六个问题(例如,内容、原因和方法)进行映射。它提供了一种正式的数据组织与分析方法,但不包含具体的实现方式。
数据从外部和内部来源获取,并移动到系统进行处理和存储。
应用程序编程接口 (API) 和预构建连接器实现了数据系统、应用程序和分析工具之间的无缝集成。它们通过标准化方式简化跨平台数据访问,是实时数据交换的核心。
数据被摄取后,存储在可扩展的系统中(用于结构化和非结构化数据),可供进一步使用和分析。
随着数据的流动和积累,治理工具可确保数据在整个生命周期中组织良好、安全且可发现。
数据目录是组织数据资产的集中式库存。它使用元数据来提供有关每个数据集的上下文,包括其来源、结构、所有权、使用历史和质量。数据目录可帮助用户查找和评估数据,支持治理和合规性工作,并促进跨团队的协作。
沿袭工具追踪跨系统数据流转路径,记录其转换过程与源头信息。该可见性对审计排障、依赖分析至关重要。可观测性平台通过监控管道性能与数据质量指标,与沿袭工具形成互补。
最后,数据通过仪表板、查询或推动决策的嵌入式工具到达使用它的人员和系统。
SQL 端点和其他查询接口允许分析师和数据科学家以直接方式深入了解和分析数据。Apache Spark 和 IBM® watsonx.data 等工具提供了在分布式数据集中规模化执行查询所需的计算层。
架构中的数据可供给 AI 和 ML 工作流使用。训练数据通常源自数据湖,经过管道转换后,用于开发和再训练模型。这些模型可部署至产品、仪表板或业务流程,以增强自动化与预测能力。
实施数据架构涉及将业务需求转化为数据收集、组织、安全和可访问性的路线图。虽然不存在完全相同的两个实施方案,但大多数方案都遵循从规划到执行的分阶段方法。
该流程始于明确业务数据需求——无论是支持机器学习还是满足合规要求。这决定了架构优先级、需纳入的数据源及待集成的系统。
数据架构师开发概念、逻辑和物理数据模型来指导结构和流程。这些模型有助于识别关键实体、关系、数据要求和访问控制。与此同时,还要制定管理政策,以确定所有权、访问权限和数据生命周期规则。
有了模型和策略,团队就可以选择存储、整合、元数据管理和使用的技术来设计架构本身。这包括定义数据如何在系统之间移动,及其在存储系统中的驻留位置。
实施通常包含部署数据摄取管道、构建 API 接口、配置治理层,以及启用仪表板或查询端点等访问节点。此阶段融入安全合规要求以保护数据。
一旦部署,就必须持续监控和完善数据架构。数据量增长;用例演变;法规变化。组织经常重新审视和重新优化其架构,尤其是在他们采用云平台并且采用现代架构模式时。
data fabric 架构专注于跨混合环境的自动化数据整合和管理。它使用主动元数据和机器学习来发现跨系统的关系并编排数据流。data fabric 架构可以自动提供数据产品并按需交付,从而提高运营效率并减少数据孤岛。
精心构建的数据架构可为企业带来显著优势,包括:
不同来源之间重叠的数据字段可能会导致不一致、不准确以及错失数据集成的机会。良好的数据架构可实现数据存储方式的标准化,且有可能减少冗余,从而实现更优质且全面的分析。
由于数据存储的技术限制和企业内部的组织障碍,数据通常会形成孤岛。当今的数据架构着眼于促进跨领域的数据整合,以便不同地区和业务职能部门都能访问彼此的数据。这可以让人们更好、更一致地理解常见指标,并能够更全面地了解业务,为数据驱动的决策提供信息。
现代数据架构可以解决数据随时间推移的管理方式。数据通常会随着时间的推移和访问频率的下降而变得越发无用。随着时间的推移,可将数据迁移到较便宜、速度较慢的存储设备,以便它们保持可用状态,供报告和审计使用,但无需承担高性能存储的费用。
企业要想蓬勃发展,就必须利用数据建立客户忠诚度,实现业务流程自动化,并利用 AI 驱动的解决方案进行创新。
通过 IBM Consulting 发掘企业数据的价值,建立以洞察分析为导向的组织,实现业务优势。
推出 Cognos Analytics 12.0,人工智能驱动洞察分析可以更好地做出决策。
1 2024 年 Informatica 报告:现代数据架构中的 AI 和数据现状,Informatica