王积杰

作者:王积杰,
IBM 大中华区 云计算与认知软件事业部 数据与人工智能 信息架构产品总监

IT 世界,每隔 10年,就会出现一个 IT 的风口。20年前是数据仓库,10年前是大数据和数据湖,今天,一个名为 Data Fabric (数据经纬)的数据架构浮出水面,开始引发人们的关注。

我们首先来看,当今的 IT 数据架构和十多年前有什么不同了。在数据仓库时代,企业的数据量还不算大,一般几十个 TB, 数据仓库的建设一般采用中心化的方式,将各个应用系统的数据,从各个系统抽取出来,清洗转换后,加载到数据仓库里。由于架构相对简单,数据模型直观,相关的数据集成的工具软件及元数据管理的重要性并不突出,很多客户选择了忽视这一部分。而到了大数据时代,由于非结构化数据的导入,数据量大了,企业拥有上百个 TB 的数据成为了日常。但数据架构还是集中式,工具软件及元数据还是没有被广泛地应用。

今天已经到了一个云的时代。在企业内部,除了有各种本地应用系统,还有数据仓库(Data Warehouse)和很多数据集市(Data Mart),大数据平台(Big Data Platform)和数据湖(Data Lake)往往也是不可缺少,除了本地私有云平台,往往很多应用也会放到公有云平台之上。在这样一个分布式的数据架构中,如果为了获取数据,还要把数据搬移复制,集中到某一个地方去,其成本将会非常之大。因此,是否有办法既不需要搬动数据,允许数据还是保留在各个应用系统里,又能让数数据科学家们在需要的时候能够非常方便地获取这些数据呢?于是,一个名为Data Fabric(数据经纬)的数据架构因此而诞生了。

有关 Data Fabric(数据经纬), Gartner 和 Forrester 都有明确的定义,其中,Forrester 写到:“Data Fabric(数据经纬)是以一种智能和安全的并且是自服务的方式,动态地协调分布式的数据源,跨数据平台地提供集成和可信赖的数据,支持广泛的不同应用的分析和使用场景”。这些语句也许有些拗口,我们可以用更通俗的语言来描述,那就是,“使需要用数据的人,随时能够了解到他要的数据在哪里,数据质量如何,他可以如何方便地获取他需要的数据。” Data Fabric(数据经纬)的主要功能就是,把正确的数据,在正确的时间,传送给正确的人。通过 Data Fabric(数据经纬), 对的人可以从对的地点,在对的时间,获取对的数据。

我们可以把 Data Fabric(数据经纬)想象成一张虚拟的网,网上的每个节点就是一个 IT系统。人的大脑里有成万上亿个神经元,他们连接在一起,以非常快的速度处理和传递信息。现代医学还无法解释这些信息是如何传递的,只能说是以一种虚拟的方式来连接。这里 Data Fabric(数据经纬)也一样,这张网并不能理解为一种点对点的连接,而是一种虚拟的连接,可以使数据在网上迅速流动。

要实现 Data Fabric(数据经纬)这样的架构,有时候阻碍不是来自技术,而是人。很多时候,不同的业务部门把持着各自的数据,不愿共享,怕共享数据会降低本部门的权威。亚马逊的 CEO 贝索斯就曾经在一个内部的高层会议上,对一众高管发火,他说:“你们要么共享数据,要么离开公司!” 因为,贝索斯清楚地知道,发挥数据价值,给公司带来业务上的回报,是一家互联网公司的命脉。如果任由个别高管阻碍这种数据的共享,带来的后果将是毁灭性的。虽然有的人担心,数据共享会带来数据安全和隐私保护的问题,但这些问题都有相应的技术手段来解决,并不能成为阻碍数据共享的理由。

Data Fabric(数据经纬)可以同时给业务和技术团队带来明确的价值。从业务层面来看,由于企业能更容易地获得高质量的数据,从而能更快和更精确地获得企业数据洞察。数据科学家和业务人员能够花更多时间在数据分析上,而不是去寻找和准备数据,可以给数据使用者提供完美的自我服务的数据消费体验。优质和全面的数据,可以避免由于数据访问的限制而造成的数据分析偏差,从而可以提升企业数据的合规性和安全性。 从技术层面来说,由于较少的数据复制的次数和数量,从而减少了数据集成的工作,方便维护数据质量和标准,也减少了硬件架构和存储的开销。 由于减少了数据复制和大大优化了数据流程,加快并简化了数据处理过程,从而通过实施自动化的整体数据策略,减少了数据访问管理的工作。

要实现上述的 Data Fabric(数据经纬)的目标,至少需要四个方面的基本能力:

  1. 能够在数据之间建立虚拟链接,简化数据访问的模式,从而减少数据复制的数量。
  2. 需要建立一个企业的数据目录,并需要利用AI技术,自动化地实现基于语义和知识的分析,理解数据及其业务含义,并建立知识图谱, 从而使数据目录变得智能化和自动化。能够让需要数据的用户,随时了解他所需要的数据在哪里、数据质量如何等。
  3. 建立自动化的数据平台,并且允许用户通过自服务的方式,访问并获取数据。
  4. 通过提供整体的自动化策略,确保数据安全,增加数据的隐私和权限保护,并提高数据的质量。

Data Fabric(数据经纬)目前是一个 IT 热点,众多国际著名的 IT 公司包括 IBM、informatica 和 Telend 等,均推出了针对 Data Fabric 的解决方案。其中,IBM 公司的 Cloud Pak for Data 针对上述 Data Fabric(数据经纬)必须具备的四个基本能力,都能给予很好的支持。IBM 早在十多年前,就已经推出了有关数据虚拟化的方案 Data Virtualization, 目前这个方案的功能日趋丰富。IBM 的数据目录 Watson Knowledge Catalog 是业界最强大的智能数据目录解决方案,其中大量使用了 IBM 企业级 AI 和机器学习的技术,使数据目录智能化和自动化,并具有知识图谱的能力,方便业务用户使用。IBM 数据目录方案内嵌了数据安全和数据隐私保护的功能,确保在数据共享的过程中能符合 GDPR 的数据隐私保护要求。同时,IBM 作为一个老牌的专业数据集成的供应商,其数据复制和数据集成的自服务能力也日趋完善。IBM Cloud Pak for Data 应该是目前业界应对 Data Fabric(数据经纬)功能最为完善的数据平台。

Data Fabric(数据经纬)这个概念在国际上已经热起来了,但目前国内的 IT 用户知道的人还不多。20年前数据仓库在国外兴起后,用了 6到 8年才传到中国。10年前大数据的概念在国外兴起后,不到三年就被中国用户广泛接受。目前这个 Data Fabric(数据经纬)概念,中国可以用多快的速度接受并加以应用呢?我们拭目以待!