数据架构描述如何管理从收集到转换、分发和使用的数据。 它为数据及其在数据存储系统中流动的方式设定了蓝图。 它是数据处理操作和人工智能 (AI) 应用程序的基础。
数据架构的设计应该由业务需求驱动,数据架构师和数据工程师使用这些需求来定义相应的数据模型以及支持它的底层数据结构。 这些设计通常有助于满足业务需求,例如报告或数据科学计划。
随着物联网 (IoT) 等新兴技术的出现,新的数据源不断涌现,良好的数据架构可以确保数据易于管理且具有利用价值,从而支持数据生命周期管理。 更具体地说,它可以避免冗余数据存储,通过清理和重复数据删除来提高数据质量,并支持新的应用程序。 现代数据架构还提供了跨域(例如部门或地理区域之间)集成数据的机制,打破了数据孤岛,因而消除了将所有数据存储在同一地方所带来的巨大复杂性。
现代数据架构经常利用云平台来管理和处理数据。 虽然它的成本更高,但它的计算可扩展性使重要数据处理任务能够快速完成。 存储可扩展性还有助于应对不断增长的数据量,并确保所有相关数据都可用,以提高训练 AI 应用程序的质量。
数据架构文档包含三种类型的数据模型
数据架构可以借鉴流行的企业架构框架,包括 TOGAF、DAMA-DMBOK 2 和 Zachman 企业架构框架。
The Open Group Architecture Framework (TOGAF)
这个企业架构方法由 The Open Group 于 1995 年开发,IBM 是该组织的白金会员。
该架构有四大支柱:
因此,TOGAF 为设计和实现企业的 IT 架构(包括其数据架构)提供了一个完整的框架。
DAMA-DMBOK 2
DAMA International 最初成立时的名称是 Data Management Association International,是一个致力于推进数据和信息管理的非营利组织。 其数据管理知识体系 DAMA-DMBOK 2 涵盖数据架构以及治理和道德、数据建模和设计、存储、安全和集成。
Zachman 企业架构框架
该框架最初由 IBM 的 John Zachman 于 1987 年开发,使用一个从上下文到详细信息的六层矩阵,映射了诸如为什么、怎么做和是什么等六个问题。 它提供了一种正式的数据组织和分析方式,但不包括具体方法。
数据架构展示了不同数据管理系统如何协同工作的高层视角。 其中包括许多不同的数据存储库,例如数据湖、数据仓库、数据集市和数据库等。 这些存储库结合起来可以创建越来越受欢迎的数据架构,例如数据结构和数据网格。 这些架构更注重将数据作为产品,通过 API 提高元数据的标准化水平以及跨组织的数据民主化程度。
以下部分将深入探讨这些存储组件和数据架构类型:
数据管理系统的类型
数据架构的类型
数据结构:数据结构是一种架构,它侧重于数据提供者和数据使用者之间的数据价值链中的数据集成、数据工程和治理的自动化 数据结构基于“活动元数据”的概念,使用知识图、语义、数据挖掘和机器学习 (AI) 技术来发现各种类型元数据(例如系统日志、社交等)中的模式。 然后,将这种洞察应用于自动化并编排数据价值链。 例如,它可以使数据使用者能够找到数据产品,然后自动向他们提供该数据产品。 数据产品和数据使用者之间数据访问的增加减少了数据孤岛,并提供了更完整的组织数据视图。 数据结构是一种具有巨大潜力的新兴技术,可用于增强客户概要分析、欺诈检测和预防性维护。 根据 Gartner 的数据,数据结构使集成设计时间减少 30%,部署时间减少 30%,维护时间减少 70%。
数据网格:数据网格是一种去中心化的数据架构,按业务领域来组织数据。 使用数据网格时,组织需要不再将数据视为流程的副产品,而是开始将其视为产品本身。 数据生产者充当数据产品所有者。 作为主题专家,数据生产者可以利用他们对数据主要使用者的理解为他们设计 API。 这些 API 也可以从组织的其他部分访问,提供了更广泛的受管数据访问渠道。
数据湖、数据仓库等相对传统的存储系统可以作为多个去中心化的数据存储库来实现数据网格。 数据网格还可以与数据结构一起使用,借助数据结构的自动化,可以更快地创建新的数据产品或执行全球治理。
结构完善的数据架构可以为企业提供许多关键优势,其中包括:
随着组织制定面向未来应用程序(包括 AI、区块链和物联网 (IoT) 工作负载)的路线图,他们需要能够支持这种数据需求的现代数据架构。
现代数据架构的七大特征:
IBM Cloud Pak for Data 是一个开放且可扩展的数据平台,它提供的数据架构使所有数据可用于 AI 和分析,适用于任何云平台。
构建、运行和管理 AI 模型。 使用开源代码或可视化建模在任何云中准备数据和构建模型。 预测并优化结果。
了解有关 Db2 on Cloud 的信息 - 作为完全管理型 SQL 云数据库,Db2 on Cloud 经配置和优化后,可提供出色的性能。