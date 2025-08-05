什么是 Data Fabric？

2025 年 8 月 5 日

作者

Alexandra Jonker

Editorial Content Lead

Tom Krantz

Writer

数据结构是一种现代化的数据架构，旨在实现企业全域数据的访问民主化。它利用智能化和自动化系统打破数据孤岛，大规模地管理数据资产并优化数据管理。

在过去的十年中，混合云人工智能物联网 (IoT) 和边缘计算的进步推动了大数据的指数级增长。这种激增产生了日益复杂的数据环境，大量数据分散在相异的业务部门中。

根据 IBM 商业价值研究院 (IBV) 2025 年研究报告，50% 的 CEO 指出其企业因近期技术投资节奏过快导致技术体系脱节。 这使得数据整合与治理成为突破数据孤岛、安全风险及决策瓶颈的关键所在。

数据结构提供端到端的集成数据管理方案，其技术支撑体系包括：机器学习 (ML)、动态元数据管理应用程序接口 (API) 和其他智能技术。

它不是一款软件，而是一种设计方法，可以跨组织的内部和多云环境，从数据湖数据仓库SQL 数据库和其他来源创建统一的数据视图。通过这种方法，组织不必将分布式数据移动到单个位置或数据存储，也不必采取完全去中心化的方法。

这些核心功能不仅解决了数据孤岛和不断增长的数据量问题，还为业务用户提供了简单的自助服务数据访问。结果是形成了一个实时数据和高质量历史数据网络，加快了企业的数字化转型商业智能 (BI) 计划，而自动化管理则确保了数据战略的安全性和合规性。

数据结构用于什么？

对许多组织而言，结构化、半结构化非结构化数据的爆发式增长，已让传统数据管理方法不堪重负。而数据仓库、数据湖及混合云环境的激增，进一步加剧了这一挑战。

这些存储系统通常作为大量数据的低成本解决方案。然而，他们往往缺乏适当的元数据管理，导致数据难以定位、解释和有效使用。

数据孤岛进一步加剧了这种复杂性。传统上，企业可能为人力资源、供应链和客户信息设立独立的数据平台，尽管数据类型和需求存在重叠，这些平台仍各自孤立运作。

这些挑战导致暗数据（即被忽视、视为不可靠且最终未被使用的信息）大量堆积。事实上，约 60% 的企业数据从未被分析利用。1

企业采用数据结构应对上述挑战。该现代化架构统一数据、自动化治理流程并实现大规模自助式数据访问。通过连接异构系统间的数据，数据结构使决策者能够发现以往隐藏的关联，并从原本会被弃置的数据中获取更具价值的业务成果。

除数据民主化与决策优化优势外，数据结构方案对企业 AI 工作流同样至关重要。IBM 商业价值研究院 (IBV) 2024 年研究显示：67% 的首席财务官 (CFO) 表示其高管团队拥有快速把握新技术机遇所需的数据。但只有 29% 的技术领导者强烈认同其数据具备必要的质量、可访问性和安全性，能够高效扩展生成式 AI

借助 data fabric 架构，组织可以更轻松地构建可信的数据基础架构，以便将数据交付到其 AI 系统，并自动应用治理和隐私要求。

观看视频：构建企业级 AI 数据战略

data fabric 架构核心功能

data fabric 架构通过以下核心功能最大限度地减少数据访问、整合和保护方面的障碍：
 
  • 数据目录
  • 数据集成
  • 数据治理和安全性
  • 自助式数据访问
  • 统一的生命周期

数据目录

data fabric 架构利用数据目录，即详细的数据资产库。这些目录采用主动元数据（使用知识图谱、语义学和 AI）来实时组织数据资产，以便用户能够快速、轻松地找到适合其用例的数据。这些元数据还通过分类法、所有权和活动信息、相关资产等，为不同数据提供了共同的业务理解。

数据集成

在数据结构中，数据集成过程统一了来自不同数据源的数据，将其转换为一致的结构，并使其可用于数据分析和决策。这种连接通过各种整合方式发生，例如批处理实时数据整合更改数据捕获 (CDC)。智能整合流程可以最大限度地提高性能，同时最大限度地降低存储成本。

数据治理和安全性

数据结构提供统一框架，支持大规模创建与实施数据治理安全策略。例如，通过元数据（如用户组别或数据分类）可自动建立数据访问控制与敏感数据的智能关联。基于此类安全可信的业务就绪数据，企业得以实现 AI 落地应用。

自助服务数据访问

data fabric 架构充当数据消费的自助服务市场。通过数据分析元数据管理等关键治理功能，它使数据工程师、数据科学家和业务用户能够快速发现、访问高质量数据并进行协作。用户可以搜索数据资产，对其进行标记和注释，并添加评论。结果，对 IT 部门的依赖也大大降低。

统一的生命周期

数据结构还包含贯穿其整个生命周期的端到端管理。依托机器学习运维 (MLOps) 与 AI 技术，为数据管道等组件提供统一管理体验，覆盖架构组合、构建测试、部署优化和实时监控。

Mixture of Experts | 4 月 25 日，第 52 集

解码 AI：每周新闻摘要

加入我们由工程师、研究人员、产品负责人等组成的世界级专家团队，他们将突破 AI 的喧嚣，为您呈现最新的 AI 新闻和洞察分析。
观看最新播客节目

数据结构与数据网格

数据网格是一种去中心化数据架构，它按特定业务领域（例如，市场营销、销售或客户服务）组织数据，以便为既定数据集的生产者提供更多所有权。

数据结构与数据网格共生共存，并能增强其功能。它们可自动化执行数据网格关键环节，例如创建数据产品和实施全局治理策略。

深入解读数据结构与数据网格

Data Fabric 架构与湖仓一体

数据湖仓的出现是为了解决传统数据管理平台的缺陷。它融合了 数据湖 灵活的 数据存储 能力与 数据湖仓的高性能分析能力。

数据结构可被视为数据湖仓及其他数据平台演进的下一个阶段。企业利用它们来简化数据管理并改进对湖仓数据的访问。它们有助于促进数据共享、自动化数据集成与治理、并支持自助式数据消费——这些能力是单纯的存储库无法提供的。

了解湖仓一体、Data Fabric 架构和数据网格之间的关系

data fabric 架构如何运作？

与单个数据存储系统不同，data fabric 架构可以在数据环境中创建流动性，抵消数据重力问题，即随着越来越多的新数据到来，数据移动变得越来越困难的问题。data fabric 架构消除了数据移动、转换和整合所需的技术复杂性，使所有数据都可以在整个企业内使用。

但是 data fabric 架构如何实现这一目标呢？

data fabric 架构使用一系列数据服务。为了了解其工作原理，深入了解三个基本组成部分会有所帮助：数据虚拟化、联合主动元数据和机器学习。

数据虚拟化

数据虚拟化确保无需物理移动数据即可访问数据。数据虚拟化工具不使用传统的 ETL（提取、转换、加载）流程，而是直接连接到不同的源，仅集成所需的元数据。然后，它创建一个虚拟数据层，使用户能够实时搜索和访问数据，就像在集中存储库中一样。

观看：data fabric 架构中的数据虚拟化

联合主动元数据

联合活动元数据使数据更易于发现和使用。与静态且手动整理的被动元数据不同，联合主动元数据使用语义知识图谱和 AI/ML 技术来持续分析元数据、检测模式并统一不同系统和格式的数据。

这些系统能自动对数据进行标记、画像分析和 分类。同时基于元数据变更触发告警或执行预设操作，使数据生态具备自我运维弹性与自主管理能力。

机器学习

机器学习可以自动化 data fabric 架构中的关键流程，使其成为一种先进且智能的数据架构。ML 可用于自动执行治理策略、生成实时洞察分析、检测安全漏洞、跟踪数据沿袭、纠正数据质量问题等。

data fabric 架构

虽然 Data Fabric 架构因业务需求而异，但它们具有共同的特性。根据 Forrester 的企业 Data Fabric 架构促成 DataOps 报告，data fabric 架构通常由六个基本组件组成：2

  1. 数据管理层：这一层负责数据治理、安全性和质量。

  2. 数据摄取：这一层将各种来源（本地部署数据和云数据）的数据合并到架构中。

  3. 数据处理：该层转换、集成和清理数据，使其可供整个企业的团队使用。

  4. 数据编排：该层管理数据在各种数据系统之间的移动，以使其可供使用。

  5. 数据发现：该层利用数据编目和元数据管理，帮助用户轻松查找和理解数据。

  6. 数据访问：该层可促进仪表板和其他数据可视化工具的数据消费，并确保正确的权限。

Data Fabric 架构有哪些优点？

除优化全局数据管理与访问外，数据结构还带来核心商业收益：

  • 效率提升
  • 数据民主化
  • 降低风险
  • 可扩展性和敏捷性
效率提升

跨多个平台自动化数据治理、集成及其他数据服务，可简化数据管理和分析。企业可以通过突破流程瓶颈来提高生产力，让业务用户能够更快地做出决策，并减轻技术团队的工作量。

此外，智能整合能力可以帮助优化性能，同时最大限度地减少存储空间和成本。
数据民主化

data fabric 架构促进了自助服务应用程序的发展，将数据访问范围扩大到技术团队之外。它们为用户提供了组织数据的统一视图，无论数据位于何处或之前有多么孤立，都可以建立连接。
降低风险

可访问、可见的数据使数据编目和治理实施变得更加容易。扩大数据访问权限通常还会带来更多的治理护栏和数据安全方法，例如数据屏蔽和敏感数据加密
可扩展性和敏捷性

数据结构架构具有模块化特性，可扩展性强。它们既可水平扩展（以容纳不断增长的数据量），也可垂直扩展（以提升处理能力和性能）。
