数据增长和标准

探索相关的开放标准

本文审视了数据大爆炸所带来的挑战以及随之而来的一些分析方法,并概述了一些与这些挑战相关的标准。本文通过样例场景描述了一个包含大量需要您去了解和操作的数据的系统,在该系统中,可以通过一些特定的标准来改进集成和提高互操作性。

Peter Haggar, 高级软件工程师, IBM

Peter Haggar 的照片Peter Haggar 是位于北卡罗莱纳州的 Research Triangle Park 的 IBM 的高级技术员工。他最近主要研究商业分析方法、新兴软件标准、XML、二进制 XML 和 Web 服务。他目前致力于重点关注 Watson 和 DeepQA 的新兴 Internet 技术。他已为 IBM 工作了 超过 20 年的时间,并获得 Clarkson 大学计算机科学理学士学位。



2011 年 8 月 08 日

概述

常见缩略语

  • GPS:全球定位系统
  • HTML:超文本标记语言
  • IT:信息技术
  • OASIS:结构化信息标准促进组织
  • OLAP:在线分析处理
  • SEC:安全和交换委员会
  • W3C:万维网联盟
  • XML:可扩展标记语言

数年来,在用来记录和储存几乎所有与交易相关的数据和千千万万其他数据的技术方面,客户投入了巨大的资金,希望从这些数据获得更大的价值。企业希望得到更加及时和有用的信息,尤其是能够直接、积极地影响到自身增长和盈利性的信息。

数据分析由不同的问题领域组成,包括零售、诈骗、消费者/客户的争取和维护、安全性、金融服务和许多技术。本文提供了用来支持创建各问题领域的解决方案的重要标准和技术,以及它们产生的价值。

这几年以来,IT 行业在创建用于记录数据和交易的系统方面已经投入了不计其数的时间和资金。此外,生成所收集数据的设备在数量上也呈指数级增长。另外,还需要大量用来储存这些数据的存储系统,以及更快的网络,以便在数据中心和处理数据的机器之间更快地传输数据。企业希望利用可用数据方面的投资带来的优势,通过获取及时的、有洞察力的信息来满足增长和盈利需求。


什么是商业分析方法?

商业分析方法是一种能够得出直接的、可执行的企业表现见解的技术。它使您能够觉察和分析趋势、模式和反常情况,为您规划、预算和预测资源提供帮助。商业分析的目标是得出更加明智的决策,以提供更有盈利能力的更强大的结果。大量的可用数据增加了通过数据创造商业价值的机会。现在面临的挑战是如何在节省成本的同时生成具有相同价值的数据。商业分析方法指的是对数据进行分析和整理,并以准时、便捷的方式提供有意义的商业信息。例如,实时警告或管理层指示板都是反映公司表现的高级衡量方式。通过在线提交信息而不是采用静态报告,商业分析工具使您能够更快地了解相关的商业事实,同时允许您通过单击图表上的按钮深入查看细节及其后隐藏的数据。

商业分析不是独立的产品或技术,而是需要许多产品共同支持的技术领域。分析系统很可能分析储存在独立的数据库中的各种格式的数据。此外,该系统还可能接收实时数据反馈,以便与历史数据一起进行分析。在分析数据的同时,可能需要应用规则,需要添加预测性或优化模型,并会得到不同形式的结果,这都取决于当时的场景和要解决的问题。

以一个试图留住现有客户的零售商店为例。客户的产品购买历史记录可能储存在一个数据库中,而客户的交易历史记录则储存在另一个数据库中。零售商店能够找出顾客购买了什么类型的产品,某个客户在某年的不同时间段购买这些商品花了多少钱,以及购买优惠如何影响购买决定,等等。零售商店还掌握未储存在上述数据库中的实时数据,比如根据现场销售数据给货架上货或卸货。可以使用所有这些数据构建一个预测模型,以确定在一定的信心水平下,特定客户购买商店的现有产品或即将进货的产品的可能性。基于这些不同的因素,该模型可以和商业规则、客户人口统计数据和历史购买模式和选择结合起来使用,以制定更明智的决策。例如,商店可以通过在销售场所提供特别优惠来采取实时行动,或者决定提供优惠和进行奖励宣传的最佳时机和目标人群。分析方法能够得出有趣并且有用的深层客户数据,这有助于理解客户的趋势和行为,并确保客户了解优惠政策和奖励。

存储历史信息的多个数据库、实时数据反馈、预测或优化模型、商业规则和用户界面指示板之间的协调工作构成了各种场景,但设计或开发出的场景并不一定能解决特定的问题。借助于所需的紧密交流,标准能够最好地解决这些不同产品和系统之间的复杂交互。标准为客户提供了一些好处,因为客户知道自己的数据、规则、预测模型等都以某种格式储存,并且是开放的,可以随时访问且不受某个供应商的控制。标准为客户提供他们所需的自主行动权,而不必担心被限制于使用特定的工具集、数据格式或协议。此外,标准还允许独立的系统能够协同工作,因此在构建系统时不需要考虑其他系统带来的影响。

商业分析的重点是基于统计数据方法和应用于数据的分析得出关于商业的新洞察和理解,从而做出更好、更明智的决策。商业分析软件通过在短时间内分析海量数据,能够为各种类型的问题提供各种可操作的见解。


分析数据

数据分析已不是什么新事物;但是至今仍然面临挑战,其中包括:

  • 为得到精确的、可操作的结果而必须或能够处理的海量数据
  • 分析数据以得到结果所需的速度
  • 分析的数据的类型 — 结构化的还是非结构化的

数据量

当今的分析系统必须能够处理 Internet 扩展 的数据量。在线数据快速地增长,TB(terabyte)、PB(petabyte)和 EB(exabyte)以成为常用的数据单位。(参见 表 1)。

表 1. 数据量的定义和估计
定义估计
GB:1024 MB4.7 GB:一张 DVD
TB(Terabyte):1024 GB

1 TB:不停地播放大约两年时间的 MP3(假设每分钟播放 1 MB)。

10 TB:美国国会图书馆的所有印刷书籍

PB(Petabyte):1024 TB

1 PB:叠起来近 2 英里高的一摞 CD 或能够播放 13 年的高清电视视频

20 PB:1995 年全年生产的硬盘的容量之和

EB(Exabyte):1024 PB

1 EB:10 亿 GB

5 EB:人类说过的所有词汇之和

在 2002 年,在线数据总量约为 5 EB(exabyte)。在 2009 年,该数据总量增至 281 EB,在 7 年时间内增长了 56 倍。根据 Forrester Research Inc. 公司的研究,企业的储存的数据的总量每 3 年就翻一翻。

Internet 扩展 指的是在数据量处于 TB (terabyte) 和 PB (petabyte) 的年代,根据需求进行扩展并及时地处理该数据量的能力。需要处理的数据包括存储数据和实时流数据。在今天,几乎所有东西都通过电子设备记录下来:视频和音频监控、银行业务、购买交易、电子邮件交流、即时消息交流、Internet 搜索、医疗图像和记录,等等。

例如,考虑一个简单的场景:下班开车回家途中停下来购买汽油。在您离开公司走向自己的汽车时,很可能被监控摄像头记录下来了。在开车的时候,您的手机可能会收到被记录下来的 GPS 位置信息。然后又收到一条短信。这些消息的时间和内容将被手机储存起来。您将在汽车加油的时候抽空回复短信,而此时您的行为又被加油站的监控记录下来。接下来,汽油购买交易和汽油积分会员卡的信息都被记录下来。加油站恰好位于犯罪高发区,因此该市使用 ShotSpotter 等技术进行严格监控(查看 参考资料 获得关于 ShotSpotter 的链接)。ShotSpotter 使用布置在不同位置的麦克风监听和记录枪声。如果监听到枪声,当局将马上知晓并调取该区域的监控录像。因此,您在加油站的时候,发出的声音将被记录和分析。

对于不断增加的储存数据,有相当一部分来自于 Electronic Medical Records (EMR)。EMR 和医疗影像的增加以及它们保存时间(根据美国联邦法律需要保存 7 年)在很大程度上导致了储存数据的大幅增长。这种存储数据以难以想象的方式促使了数据量的增加。此外,视频和音频记录的存储成本非常高,因为此类数据的量很大并且不能有效地压缩其体积。对于体积巨大的数据,实时分析显得尤其重要,这样能够有选择地储存相关的部分。

大部分运动事物和许多不运动的事物都以数据的形式记录下来。除了通常记录的交易之外,许多不活动的事物也被全天不间断地记录下来,比如停车场、建筑物和街道角落,这样数据量就会变得非常大。

速度

随着储存数据不间断地、呈指数级地增长,为了得到相关的结果,商业分析系统必须处理的数据也在急剧增长。您是否知道,Twitter 每天处理 7 TB (terabytes) 的数据,而 Facebook 每天处理 10 TB 的数据。CERN Hadron Collider 每秒生成 40 TB 的数据。如果没有能够根据这些数据量增长而扩展分析系统,收集到的数据将失去其价值。

下面用实际例子展示了所产生的数据量大概有多少。据称雅虎使用 Hadoop 在 16 个小时内对 1 PB(petabyte)数据进行排序(参见 参考资料 更多地了解这些基准测试)。该排序需要使用 3800 节点,并且每个节点使用 2 个 4 核的 2.5 Ghz 处理器。在所有其他条件一样的情况下,在相同的集群中对 1 EB(exabyte)的数据进行排序需要多达 1000 倍的时间,或者大约 2 年时间。

商业分析系统还处理尚未储存的实时流数据。处理大量数据和实时数据的速度对于及时生成关键商业见解至关重要。在一些商业分析用例中,正确的见解或答案,只要未能及时提供,通常就被认为是错误的。商业分析系统必须能够高效地处理大量数据,并以用户的时间要求为基准提供结果。例如,一个面部识别系统在处理实时视频反馈时,如果它显示通缉犯在事后一分钟内位于特定位置,要比显示通缉犯在事后一天内位于特定位置有价值得多。

结构化和非结构化数据

现在生成的大部分数据都是非结构化的。非结构化意味着没有给数据添加隐藏的语义,这样计算机程序就能够理解它的意思。结构化数据是指添加了语义的数据,这使它更加易于理解。例如,下面的文本消息或电子邮件包含非结构化数据:

Hi Joe, call me...my numbers are home – 919-555-1212, office – 919-555-1213, 
cell – 919-555-1213.

通过阅读这条消息,人类能够理解隐藏的含义,该数据提供了家庭、办公室和手机的号码。用 HTML 表示相同的数据时,该数据通过其布局和 HTML 的组织方式呈现出其结构化形式。不过,该数据对分析系统而言是非结构化的,因为它没有与之关联的意思。HTML、电子邮件、文本消息、博客、视频和音频表示的都是非结构化信息。如果将相关的电话号码信息放到 HTML 中,其形式应该如下所示:

<h1>List of Numbers</h1>
<b>HNumber: 919-555-1212</b>
<b>ONumber: 919-555-1213</b>
<b>CNumber: 919-555-1214</b>

根据这里的描述,HTML 看起来像结构化数据,但不是将隐藏语义应用到数据的结构类型。对分析处理系统而言,该数据仍然是非结构化的。另外,如果使用未带模式的 XML,该数据与 HTML 形式相似,还是非结构化的:

<List of Numbers>
<HNumber>919-555-1212</HNumber>
<ONumber>919-555-1213</ONumber>
<CNumber>919-555-1214</CNumber>
</List of Numbers>

XML 通常被认为是半结构化的。数据之间的关系中存在结构,但就该数据的意义而言它不是结构化数据。如果使用模式,可以认为上面的 XML 是结构化的,因为现在为给数据添加语义提供了一种方式。在使用模式时,HNumber、ONumber 和 CNumber 元素分别代表 Home 和 Office 和 Cellall 的电话号码。数据库也包含结构化数据。计算机程序能够理解带模式并储存在行和列中的数据的语义。

不同分析产品的一些价值在于它们处理大量非结构化数据以发现隐藏含义的能力。考虑一下上面的文本消息、HTML 和无模式 XML 例子。计算机程序能够识别出这些很可能是电话号码,因为它们匹配这样的模式,首先是 3 位数字,接着是一个分隔符 [ 形式为连字符 (-)、句号 (.) 或空格 ( )],然后又是 3 位数字,其后又接一个连字符,最后是 4 位数字。可以进行更深入的处理,并根据区号 919 推断出这三位数来自 North Carolina 州。您可以想象到通过类似的算法根据国家代码识别国际电话号码。

结构化数据处理起来更加容易,因为程序能够提前得到更多的信息来确定数据的含义。这种方法比花计算能力去找到数据更加高效。不过,在今天的数据增长中,非结构化数据占据了绝大部分,因此系统能够高效处理非结构化数据,以便正确确定其所包含的含义是否至关重要。例如,电子邮件、文本消息和音频、视频流都是当今非结构化数据的重要组成部分。这种非结构化类型的数据的增长势头有增无减,因此高效地处理它对于商业分析处理系统的持续成功至关重要。

尽管商业分析系统面临数据量、数据类型和处理速度的挑战,但在克服这些挑战方面也取得了巨大的进步。以前需要数周才能处理完成的巨大数据现在仅需几分钟就可以处理完成。具有故障转移功能的可伸缩集群在数据仍然在运动的同时仍然能够高效地处理实时反馈,并且都在商业机器上完成。这种类型的处理为创建数年前想象不到的应用程序创造了条件。要让这个领域的计算实现最大的价值,软件标准扮演了重要的角色。


定义

预测分析

预测分析是指软件使用各种历史数据源对未来的事件或行为进行预测。预测分析为预测带来某种程度的信心。

运动数据分析

运动数据分析是指将数据储存在硬盘或其他储存媒介之前对其进行分析。由于当今每天收集的数据量非常巨大,因此在储存数据之后在对其进行分析通常是不可行的。此外,即使事先有足够的空间来储存数据,储存和随后的分析也需要额外的时间。在某些用例中,这种时间延迟是不可接受的。

存储数据分析

由于储存数据量非常巨大,因此需要通过技术手段从中筛选出有意义的数据并得出结论。许多数据都储存在关系或 OLAP 数据库中。但是,今天的数据大部分都不是以结构化的方式储存的。随着非结构化数据的爆炸性增长,要求提供能够同时对关系、非关系、结构化、非结构化数据源进行分析的技术。

商业规则

规则用于定义或限制商业的某些方面,以便制定更加明智的决策。规则储存在应用程序逻辑所在的位置之外,这使得商业人员能够更加容易地增加或修改规则,而不需要使系统离线。

报告

报告通过复杂程度不同的用户界面指示板来呈现。


关键标准

这个小节描述一些关键标准及其对支持数据分析的价值和性关性。

UIMA

UIMA (Unstructured Information Management Architecture) 是一个 OASIS 标准,而 IBM 就是 OASIS 的技术委员会的主席(参见 参考资料)。UIMA 是一个框架,用于处理非结构化信息、挖掘数据包含的隐藏含义、关系和相关事实,并以开放和标准的形式表示这些发现结果。例如,UIMA 可用于分析纯文本并确定人物、位置、公司和关系,比如找出包含在数据中的 “与谁是朋友” 或 “与谁结婚”。用由 UIMA 标准定义的数据结构表示找到的结果。

UIMA 定义 4 个术语来帮助理解其角色和用途:

  • 工件(Artifact)—一段非结构化内容
  • 分析(Analysis)—为工件分配语义
  • 分析体(Analytic)—执行分析的软件
  • 工件元数据(Artifact metadata)—分析体分析工件得到的结果

考虑收集到的大量快餐餐馆的问卷调查,其中包含了许多非结构化文本。分析该信息以找到顾客投诉的最常见原因,找到投诉最多的餐馆的位置和名称,以及对投诉进行分类,并了解哪些连锁餐馆收到的投诉最多。您可以使用 UIMA 来分析这种类型的数据,这样就能看到投诉的趋势和类型,并且还能看到哪些类型的投诉逐渐增加,哪些逐渐减少。

参见 图 1,原始问卷调查数据表示 工件 (1),因为它是非结构化内容。分析将含义赋予工件 (2)。例如,连锁餐馆 15 和 38 在甜点方面收到的投诉最多,而连锁餐馆 27 在最后一次问卷调查中投诉比前一次减少了一半。分析体通常是执行这种分析并生成工件元数据 (3) 的专用软件。工件元数据包含在一种名为 Common Analysis Structure (CAS) 的数据结构中。

图 1. UIMA 的高级视图
UIMA 的高级视图

UIMA 的目标之一是支持分析体的互操作性。CAS 允许跨分析体共享这些结果。这种方法对客户有用,因为它允许客户在各种工具和支持 UIMA 的产品之间共享数据表示和界面。考虑一下 图 1,如果两者都支持 UIMA 的话,分析体能够与对工件执行分析的工具进行互操作。这种能力实现了各种工具之间进行互操作,并允许客户选择不同的提供商分析非结构化数据。

UIMA 支持工件的常见数据表示和工件元数据,而不受工件的原始表示的影响。它还允许独立于平台的工件和工件元数据互换,同时还允许发现、重用和组合独立开发的分析体。此外,UIMA 还提供独立开发的分析体之间的互操作性。UIMA 在该领域属于领先技术,并且受 Apache 开源实现的支持。1.0 规范自 2009 年 3 月份开始就是完整的,但没有进一步的规划。(要获得关于 UIMA 规范的链接,请查看 参考资料)。

PMML

PMML (Predictive Model Markup Language) 是一种由 Data Mining Group (DMG) 开发的基于 XML 的标记语言,而 IBM 是 DMG 的支持者。(查看 参考资料)。PMML 表示一个预测模型,它是在分析历史数据以获得各种见解之后创建的。

例如,假设一家电信公司想要分析历史数据以进行有一定确定性的预测,看看客户是否舍弃有线电话服务转而使用移动电话服务。该算法(图 2 中的 1)查看历史数据,并且为多个相关输入字段(年龄、工资、婚姻状况、是否购房和教育水平等)生成参数,这些字段能够更好地预测客户是否会弃用服务。该算法生成了一个作为计分流程 (3) 的输入的 PMML 模型 (2)。计分流程输出关于特定客户是否会弃用服务的预测,以及该预测的可信度指示器。关于可能失去客户的预测的可信度越高,则意味着应该采取更为强烈的反应。

图 2. PMML 的高级视图
PMML 的高级视图

PMML 是用于在提供商之间共享模型的模型交换标准。PMML 提供模型独立于提供商的应用程序,其目的是让专利问题和不兼容情况不再是应用程序之间的模型交换的障碍。这非常有用,它允许用户在一个提供商的应用程序内部开发模型,同时使用另一个提供商的应用程序来可视化、分析、评估和使用这些模型。因为 PMML 是基于 XML 的标准,因此其规范以 XML 模式的形式存在。

在该行业中采用 PMML 有很强的基础,如下面列表中当前采用情况所示(要获得 Web 页面链接,请查看 参考资料)。

  • Augustus / Open Data Group
  • KNIME
  • MicroStrategy
  • Pervasive DataRush
  • Rapid-i
  • R/Rattle
  • Salford Systems
  • SAS
  • TIBCO
  • Weka
  • Zementis

RIF

RIF (Rule Interchange Format) 是一个 W3C 标准,而 IBM 是 W3C 的联合主席。在 XML 中 RIF 表示商业规则的可执行形式。可以以多种方式在商业分析系统中使用商业规则。使用规则来确定系统根据各种条件和输入采取的行为。例如,住房贷款公司通过规则来确定贷款申请者是否达到贷款条件。收入、债务和信用度等因素都扮演重要角色。规则可能是这样的:如果借款者的收入大于 X,债务小于 Y,并且信用度为 Z,那么他就符合特定额度的贷款条件。不同的提供商有自己专门的规则编写规则,但是 RIF 让他们的可执行格式转换成通用的、可互操作的格式。

RIF 的主要目的是实现规则引擎之间的规则互换。RIF 能够产生价值,因为它在规则执行系统之间提供互操作性,同时阻止了规则提供商的垄断行为。互操作性允许用户通过各种工具来创建商业规则,并且让这些规则能够与支持 RIF 的各种规则执行系统进行互操作。

RIF 在 2010 年 6 月成为 W3C 的推荐产品。因此,根据下面的 RIF 实现参考列表,它在行业中的采用越来越多(要查看相关的 Web 页面,请参见 参考资料)。

  • SILK
  • OntoBroker
  • fuxi
  • Eye
  • VampirePrime
  • RIFle
  • Oracle (OBR)
  • STI Innsbruck (IRIS)
  • riftr
  • WebSphere ILOG JRULES
  • TIBCO
  • FICO
  • Drools

这些实现在开发时遵循的是 RIF 标准。尽管不是很确定,这些公司中有几个可能实现完整的标准。

XBRL

XBRL (eXtensible Business Reporting Language) 是由 XBRL International 基于 XML 制定的用于财务报告的标准。XBRL 是值得关注的,因为许多政府和国家都强制要求和/或采用它作为财务报告的标准格式。随着其使用的增加,分析 XBRL 文档及其包含的数据成了必不可少的工作。

传统的报告都采用 HTML 或 PDF 格式。尽管这些格式容易被人类阅读,但是它们不是结构化的。XBRL 是结构化的,因为它以 XML 格式提供并且拥有一个广为人知的模式,但它不太适合人类阅读。因此,能够从数据推断出含义让文档变成了结构化的,这对计算机程序而言更为有用。

最近,SEC 开始要求 500 家最大的国有公司使用 XBRL 填充它们的财务报表。这一要求将在未来逐步扩展到包含更小的国有公司。市场资本超过 50 亿美元的公司从 2009 年就开始使用 XBRL 填充财务数据,但今年它们必须提交带有更详细的脚注的财务报表。对于市场资本超过 7000 亿美元的公司,首次提交 XBRL 格式的财务报表时不能带详细脚注。韩国要求所有国有公司从 2007 年 10 月开始使用 XBRL 格式对定期的或其他财务报表进行整理。Tokyo Stock Exchange (TSE) 要求使用 XBRL 格式填充的数据,该交易所的交易额占日本股票交易的 90% 以上。从 2008 年开始,TSE 要求所有列出的实体使用 XBRL 格式对它们在 TSE 中使用的财务信息进行整理。

在全球最成熟的几个经济体中,XBRL 以成为强制的或要求采用的格式。表 2 列出了全球范围内采用 XBRL 的几个例子。

表 2. XBRL 采用
国家机构应用程序
Netherlands Dutch Tax Authority Corporate tax returns
Australia Australian Prudential Review Authority (APRA) Prudential filings
Jamaica Bank of Jamaica Financial companies' registered filings
United States Federal Financial Institutions Examination Council (FFIEC) Call report modernization
United States Securities and Exchange Commission XBRL voluntary filer program
Belgium National Bank of Belgium Belgium companies' annual account filings
Japan Bank of Japan Financial services companies' filings
Spain Bank of Spain COREP filings
Canada Ontario Securities Commission (OSC) Voluntary filer program
Japan Tokyo Stock Exchange (TSE) TSE registrant financial report filings

OWL

Web Ontology Language (OWL) 是用来表示信息或模型本体的高级预言。例如,Joe 是人,与 Jane 结婚,男性。Sam 是人,与 Sue 结婚,男性,是丈夫。因此,您可以推断出 Joe 是丈夫。这些相互关系需要进行挖掘,因为 XML 模式的语义通常很差,并且需要更多的人类参与才能推断出类似的事实。而使用 OWL 能够更加容易地根据语法推断出事实,因此 OWL 在交换模型和基于规则的系统中非常有用。


场景

下面描述一个使用了前面提到的各种标准的零售场景。


概述

图 3 显示了该场景的高级组件。这些组件包括:

  • 包含历史数据的数据库(已储存数据)
  • 实时数据反馈(运动数据)
  • 对数据执行分析的引擎
  • 预测分析体
  • 商业规则
  • 使用指示板显示结果或显示并允许用户交互的用户界面
图 3. 场景组件
样例场景组件图

图 4 呈现了不同组件(参见 图 3)之间的现在和将来的关键集成点,其中前面讨论的各种标准之间进行交互并提供互操作性好处。历史数据使用各种各样的标准,比如 XML、CSV、XLS、PDF、DITA 和 XBRL。分析引擎通常使用 UIMA。预测分析和商业规则通常分别使用 PMML 和 RIF 标准。

图 4. 关键集成点
使用不同标准的集成点

场景细节

接下来的几个图片详述该场景的步骤,并解释标准带来的价值。标准扮演重要的角色,尤其是将该类型的解决方案部署到现有的异构客户环境中时。这个场景描述一个大型零售商店解决方案,该解决方案尝试通过历史和实时数据增加销售、留住现有的客户并吸引新客户。

图 5 显示了储存以各种数据格式在不同数据库中零售连锁店的历史数据。这个场景包括各种数据,比如客户交易数据、偏好、购买历史、人口信息、问卷调查数据和客户呼叫中心记录等。此外,还提供了实时数据反馈。反馈可能包括每个商店或地区精确到某分钟的交易、每个客户或客户团的现场交易数据、现场客户呼叫中心反馈、视频监控反馈和正在运输到各地商店的产品等。

图 5. 历史和实时数据
历史和实时数据图

每个后续的图都使用深色来表示新添加的图片部分。图 6 显示了如何使用 Hadoop 来分析数据,以提供关于结构化和非结构化数据的分析。例如,分析该历史数据可能得到关于特定客户的购买模式、购买偏好和对其他竞争零售商的态度等信息。注意,通过引入 UIMA 标准可以和其他系统共享分析结果并实现互操作性。

图 6. 历史数据分析
历史数据分析

图 7 中引入了实时分析引擎。这些引擎能够接收和处理结构化和非结构化实时运动数据。此外,还可以将历史分析结果输入到实时引擎中来帮助发现更多的见解。例如,历史分析显示特定产品在周末时销售旺盛而平时则滞销。此外,实时分析还显示特定产品的库存减少,周末也即将到来。此时,对这种情况发出警告有助于解决问题。

图 7 还显示了实时分析引擎和数据库中的历史数据之间的双向连接。该引擎可能将历史数据与实时数据关联起来,也可能定期地储存数据。例如,假设实时数据包含来自客户呼叫中心的音频反馈。您可能不希望储存每次呼叫的每一分钟,而是希望随机储存呼叫用于后期的质量检查。将记录系统检测到客户生气的呼叫,用于后期的检查和分析。

图 7. 实时数据分析
实时数据分析图

图 8 显示了作为该场景的一部分的预测分析体(参见 图 8 的放大版)。可以使用建模工具来创建 PMML 格式的预测模型。这个 PMML 模型可以储存在数据库中并被实时分析引擎理解。例如,您可以在本场景中使用预测 PMML 模型,通过来自实时和历史数据的一系列事实确定客户转向竞争对手的可能性。在实时分析引擎处理数据的同时,它可以使用该模型来记录发现的事实。引擎通过记录行为可以从所处理的数据中找到更多、更深入的洞察。

图 8. 预测分析体
预测分析体

图 9 显示了可以实时地将新的 PMML 模型注入到分析引擎中(查看 图 9 的放大版)。注入是一个强大的概念,因为您可以在系统运行期间基于当前收集到的数据创建和部署新的模型。

图 9. 实时 PMML 模型注入
实时 PMML 模型注入图

图 10 显示了将商业规则引入到该场景中(查看 图 10 的放大版)。在实时分析引擎处理传入的数据和历史数据了解销售趋势时,它能够调用使用商业规则管理系统创建的规则,从而使决策更加明智。例如,规则可能这样表述:“如果客户 A、B 或 C(金牌客户的一部分)在最近的 N 天内没有任何购买交易,并且他们的问卷调查表明他们可能已经转向竞争对手,那么给他们提供特别折扣。”

图 10 还显示了 RIF 标准。RIF 用于表示规则的可执行形式。这种形式使提供商的规则系统能够共享规则,从而让客户不必受限于某个规则提供商。

图 9 中的新预测 PMML 模型的实时注入一样,图 10 也表明您也可以实时地注入新的规则。

图 10. 商业规则部署
商业规则部署图

图 11 显示了如何利用指示板和可视化特性(查看 图 11 的放大版)。要创建这些特性,可以合并被处理的实时信息和储存在传统或 OLAP 数据库中并作为实时警告或指示板出现的历史数据。

图 11. 指示板和可视化
指示板和可视化

结束语

随着收集到的数据和可用数据爆炸性地增长,以及人们希望从这些数据获取新的、更多的深入见解,现在压力转移到高效地处理和利用曾经难以想象的海量数据。要实现这一目标,则需要多个系统和多种技术(包括新技术和旧技术)共同发挥作用。这种技术之间的集成要求提供支持互操作性的标准,以便高效地集成数据、产品和技术,从而实现企业和客户所期待的目标。

参考资料

学习

获得产品和技术

讨论

条评论

developerWorks: 登录

标有星(*)号的字段是必填字段。


需要一个 IBM ID?
忘记 IBM ID?


忘记密码?
更改您的密码

单击提交则表示您同意developerWorks 的条款和条件。 查看条款和条件

 


在您首次登录 developerWorks 时,会为您创建一份个人概要。您的个人概要中的信息(您的姓名、国家/地区,以及公司名称)是公开显示的,而且会随着您发布的任何内容一起显示,除非您选择隐藏您的公司名称。您可以随时更新您的 IBM 帐户。

所有提交的信息确保安全。

选择您的昵称



当您初次登录到 developerWorks 时,将会为您创建一份概要信息,您需要指定一个昵称。您的昵称将和您在 developerWorks 发布的内容显示在一起。

昵称长度在 3 至 31 个字符之间。 您的昵称在 developerWorks 社区中必须是唯一的,并且出于隐私保护的原因,不能是您的电子邮件地址。

标有星(*)号的字段是必填字段。

(昵称长度在 3 至 31 个字符之间)

单击提交则表示您同意developerWorks 的条款和条件。 查看条款和条件.

 


所有提交的信息确保安全。


static.content.url=http://www.ibm.com/developerworks/js/artrating/
SITE_ID=10
Zone=XML
ArticleID=751245
ArticleTitle=数据增长和标准
publish-date=08082011