什么是 Data Fabric?

白色背景上的蓝色立方体和矩形三维图形。

作者

Alexandra Jonker

Staff Editor

IBM Think

Tom Krantz

Staff Writer

IBM Think

什么是 Data Fabric?

数据结构是一种现代化的数据架构,旨在实现企业全域数据的访问民主化。它利用智能化和自动化系统打破数据孤岛,大规模地管理数据资产并优化数据管理。

在过去的十年中,混合云人工智能物联网 (IoT) 和边缘计算的进步推动了大数据的指数级增长。这种激增产生了日益复杂的数据环境,大量数据分散在相异的业务部门中。

根据 IBM 商业价值研究院 (IBV) 2025 年研究报告,50% 的 CEO 指出其企业因近期技术投资节奏过快导致技术体系脱节。 这使得数据整合与治理成为突破数据孤岛、安全风险及决策瓶颈的关键所在。

数据结构提供端到端的集成数据管理方案,其技术支撑体系包括:机器学习 (ML)、动态元数据管理应用程序接口 (API) 和其他智能技术。

它不是一款软件,而是一种设计方法,可以跨组织的内部和多云环境,从数据湖数据仓库SQL 数据库和其他来源创建统一的数据视图。通过这种方法,组织不必将分布式数据移动到单个位置或数据存储,也不必采取完全去中心化的方法。

这些核心功能不仅解决了数据孤岛和不断增长的数据量问题,还为业务用户提供了简单的自助服务数据访问。结果是形成了一个实时数据和高质量历史数据网络,加快了企业的数字化转型商业智能 (BI) 计划,而自动化管理则确保了数据战略的安全性和合规性。

数据结构用于什么?

对许多组织而言,结构化、半结构化非结构化数据的爆发式增长,已让传统数据管理方法不堪重负。而数据仓库、数据湖及混合云环境的激增,进一步加剧了这一挑战。

这些存储系统通常作为大量数据的低成本解决方案。然而,他们往往缺乏适当的元数据管理,导致数据难以定位、解释和有效使用。

数据孤岛进一步加剧了这种复杂性。传统上,企业可能为人力资源、供应链和客户信息设立独立的数据平台,尽管数据类型和需求存在重叠,这些平台仍各自孤立运作。

这些挑战导致暗数据(即被忽视、视为不可靠且最终未被使用的信息)大量堆积。事实上,约 60% 的企业数据从未被分析利用。1

企业采用数据结构应对上述挑战。该现代化架构统一数据、自动化治理流程并实现大规模自助式数据访问。通过连接异构系统间的数据,数据结构使决策者能够发现以往隐藏的关联,并从原本会被弃置的数据中获取更具价值的业务成果。

除数据民主化与决策优化优势外,数据结构方案对企业 AI 工作流同样至关重要。IBM 商业价值研究院 (IBV) 2024 年研究显示:67% 的首席财务官 (CFO) 表示其高管团队拥有快速把握新技术机遇所需的数据。但只有 29% 的技术领导者强烈认同其数据具备必要的质量、可访问性和安全性,能够高效扩展生成式 AI

借助 data fabric 架构,组织可以更轻松地构建可信的数据基础架构,以便将数据交付到其 AI 系统,并自动应用治理和隐私要求。

辅以专家洞察分析的最新科技新闻

通过 Think 时事通讯,了解有关 AI、自动化、数据等方面最重要且最有趣的行业趋势。请参阅 IBM 隐私声明

谢谢!您已订阅。

您的订阅将以英语提供。您会在每份时事通讯中找到一个取消订阅链接。您可以在此管理您的订阅或取消订阅。更多相关信息,请参阅我们的《IBM 隐私声明》。

data fabric 架构核心功能

data fabric 架构通过以下核心功能最大限度地减少数据访问、整合和保护方面的障碍:
 
  • 数据目录
  • 数据集成
  • 数据治理和安全性
  • 自助式数据访问
  • 统一的生命周期

数据目录

data fabric 架构利用数据目录,即详细的数据资产库。这些目录采用主动元数据(使用知识图谱、语义学和 AI)来实时组织数据资产,以便用户能够快速、轻松地找到适合其用例的数据。这些元数据还通过分类法、所有权和活动信息、相关资产等,为不同数据提供了共同的业务理解。

数据集成

在数据结构中,数据集成过程统一了来自不同数据源的数据,将其转换为一致的结构,并使其可用于数据分析和决策。这种连接通过各种整合方式发生,例如批处理实时数据整合更改数据捕获 (CDC)。智能整合流程可以最大限度地提高性能,同时最大限度地降低存储成本。

数据治理和安全性

数据结构提供统一框架,支持大规模创建与实施数据治理安全策略。例如,通过元数据(如用户组别或数据分类)可自动建立数据访问控制与敏感数据的智能关联。基于此类安全可信的业务就绪数据,企业得以实现 AI 落地应用。

自助服务数据访问

data fabric 架构充当数据消费的自助服务市场。通过数据分析元数据管理等关键治理功能,它使数据工程师、数据科学家和业务用户能够快速发现、访问高质量数据并进行协作。用户可以搜索数据资产,对其进行标记和注释,并添加评论。结果,对 IT 部门的依赖也大大降低。

统一的生命周期

数据结构还包含贯穿其整个生命周期的端到端管理。依托机器学习运维 (MLOps) 与 AI 技术,为数据管道等组件提供统一管理体验,覆盖架构组合、构建测试、部署优化和实时监控。

Mixture of Experts | 8 月 28 日,第 70 集

解码 AI:每周新闻摘要

加入我们世界级的专家小组——工程师、研究人员、产品负责人等将为您甄别 AI 领域的真知灼见,带来最新的 AI 资讯与深度解析。

数据结构与数据网格

数据网格是一种去中心化数据架构,它按特定业务领域(例如,市场营销、销售或客户服务)组织数据,以便为既定数据集的生产者提供更多所有权。

数据结构与数据网格共生共存,并能增强其功能。它们可自动化执行数据网格关键环节,例如创建数据产品和实施全局治理策略。

Data Fabric 架构与湖仓一体

数据湖仓的出现是为了解决传统数据管理平台的缺陷。它融合了 数据湖 灵活的 数据存储 能力与 数据湖仓的高性能分析能力。

数据结构可被视为数据湖仓及其他数据平台演进的下一个阶段。企业利用它们来简化数据管理并改进对湖仓数据的访问。它们有助于促进数据共享、自动化数据集成与治理、并支持自助式数据消费——这些能力是单纯的存储库无法提供的。

data fabric 架构如何运作?

与单个数据存储系统不同,data fabric 架构可以在数据环境中创建流动性,抵消数据重力问题,即随着越来越多的新数据到来,数据移动变得越来越困难的问题。data fabric 架构消除了数据移动、转换和整合所需的技术复杂性,使所有数据都可以在整个企业内使用。

但是 data fabric 架构如何实现这一目标呢?

data fabric 架构使用一系列数据服务。为了了解其工作原理,深入了解三个基本组成部分会有所帮助:数据虚拟化、联合主动元数据和机器学习。

数据虚拟化

数据虚拟化确保无需物理移动数据即可访问数据。数据虚拟化工具不使用传统的 ETL(提取、转换、加载)流程,而是直接连接到不同的源,仅集成所需的元数据。然后,它创建一个虚拟数据层,使用户能够实时搜索和访问数据,就像在集中存储库中一样。

联合主动元数据

联合活动元数据使数据更易于发现和使用。与静态且手动整理的被动元数据不同,联合主动元数据使用语义知识图谱和 AI/ML 技术来持续分析元数据、检测模式并统一不同系统和格式的数据。

这些系统能自动对数据进行标记、画像分析和 分类。同时基于元数据变更触发告警或执行预设操作,使数据生态具备自我运维弹性与自主管理能力。

机器学习

机器学习可以自动化 data fabric 架构中的关键流程,使其成为一种先进且智能的数据架构。ML 可用于自动执行治理策略、生成实时洞察分析、检测安全漏洞、跟踪数据沿袭、纠正数据质量问题等。

data fabric 架构

虽然 Data Fabric 架构因业务需求而异,但它们具有共同的特性。根据 Forrester 的企业 Data Fabric 架构促成 DataOps 报告,data fabric 架构通常由六个基本组件组成:2

  1. 数据管理层:这一层负责数据治理、安全性和质量。

  2. 数据摄取:这一层将各种来源(本地部署数据和云数据)的数据合并到架构中。

  3. 数据处理:该层转换、集成和清理数据,使其可供整个企业的团队使用。

  4. 数据编排:该层管理数据在各种数据系统之间的移动,以使其可供使用。

  5. 数据发现:该层利用数据编目和元数据管理,帮助用户轻松查找和理解数据。

  6. 数据访问:该层可促进仪表板和其他数据可视化工具的数据消费,并确保正确的权限。

Data Fabric 架构有哪些优点?

除优化全局数据管理与访问外,数据结构还带来核心商业收益:

  • 效率提升
  • 数据民主化
  • 降低风险
  • 可扩展性和敏捷性
效率提升

跨多个平台自动化数据治理、集成及其他数据服务,可简化数据管理和分析。企业可以通过突破流程瓶颈来提高生产力,让业务用户能够更快地做出决策,并减轻技术团队的工作量。

此外,智能整合能力可以帮助优化性能,同时最大限度地减少存储空间和成本。

数据民主化

data fabric 架构促进了自助服务应用程序的发展,将数据访问范围扩大到技术团队之外。它们为用户提供了组织数据的统一视图,无论数据位于何处或之前有多么孤立,都可以建立连接。

降低风险

可访问、可见的数据使数据编目和治理实施变得更加容易。扩大数据访问权限通常还会带来更多的治理护栏和数据安全方法,例如数据屏蔽和敏感数据加密

可扩展性和敏捷性

数据结构架构具有模块化特性,可扩展性强。它们既可水平扩展(以容纳不断增长的数据量),也可垂直扩展(以提升处理能力和性能)。

相关解决方案
IBM StreamSets

通过直观的图形界面创建和管理智能流数据管道,促进跨混合和多云环境的无缝数据集成。

深入了解流媒体集
Data Fabric 架构解决方案

设计数据架构,以加速生成式 AI 的数据准备,并为数据团队释放 无与伦比的生产力。

深入了解 Data Fabric 架构解决方案
数据和分析咨询服务

通过 IBM Consulting 发掘企业数据的价值,建立以洞察分析为导向的组织,实现业务优势。

了解分析服务
采取后续步骤

企业要想蓬勃发展,就必须利用数据建立客户忠诚度,实现业务流程自动化,并利用 AI 驱动的解决方案进行创新。

深入了解分析解决方案 了解分析服务