IBM Accelerator for Machine Data Analytics,第 2 部分: 加快新日志类型的分析

企业中产生的不同来源的机器日志的数量非常庞大。IBM® Accelerator for Machine Data Analytics 简化了需要实现的任务,从而加速了对半结构化、非结构化或结构化文本数据的分析。

Sonali Surange, 软件架构师, IBM

Sonali Surange 是研究 IBM 大数据产品和技术的一名 IBM 软件架构师。他获得了多项专利,在 IBM developerWorks 上发表了超过 15 篇技术论文,还出席过许多技术大会。Sonali 曾经是 IBM Outstanding Technical Achievement Award、Women of Color STEM Technical All Star Award 的获得者,于 2012 年被评为 IBM developerWorks Professional Author。



2013 年 10 月 14 日

开始之前

关于本系列

IBM Accelerator for Machine Data Analytics 的主要优点和长处之一是能够轻松地对工具进行配置和定制。 此 系列 文章和教程面向那些希望初步了解加速器,进一步加快机器数据分析,同时还想获取自定义洞察的读者。

关于本教程

本教程是使用 IBM Accelerator for Machine Data Analytics 来分析一种全新类型的数据的一个具体示例。它为第 3 部分建立了基础,第 3 部分将说明如何在索引和搜索中即插即用 地使用这种新的日志类型。

目标

在本教程中,您将学习如何完成以下任务。

  1. 使用加速器中开箱即用的支持开始分析一个新的数据集。
  2. 识别分析所需的缺失字段。
  3. 定制加速器,为后续分析创建自己的日志类型。

先决条件

您应该熟悉 BigInsights Text Analytics 和 AQL (Annotation Query Language)。熟悉 BigInsights Text Analytics 工具会更好一些,但这不是必需的。阅读本系列的 第 1 部分:加快机器数据分析,获得 IBM Accelerator for Machine Data Analytics 的概述。

系统要求

为了运行本教程中的示例,您需要满足以下条件。

  1. 已安装 BigInsights v2.0。
  2. 已安装 IBM Accelerator for Machine Data Analytics。
  3. 已安装 BigInsights v2.0 eclipse 工具。
  4. 提供一个用于机器数据分析的数据集。下载数据的链接请参阅 下载 部分。

机器数据分析中的多样性

在本系列的 第 1 部分: 加快机器数据分析 中,您学习了如何使用来自一些已知类型的机器数据,比如 Apache Web 访问和 WebSphere,还学习了如何通过一个泛型来使用加速器不太了解的一些类型。

只要数据是基于时间序列的文本数据,无需编写任何新代码就可以使用任何机器数据技术进行分析!

使用泛型,您将能够提取在机器数据中常见的大部分字段。很多时候,许多数据都包含名称值对、XML 叶标记值,而泛型将提取您最感兴趣的信息。

使用这些技术后,如果还存在特定于某数据类型的字段未被提取​​,加速器会提供一种定制现有规则或添加新规则的方式。

在本教程中,您将使用电子邮件数据,并学习如何添加新的日志类型来分析这些数据,本文包括以下内容。

  • 如何使用 Eclipse 工具来定制现有规则或建立新规则。
  • 如何通过为生产定制的应用程序发布定制的规则。

一家虚构的 Sample Outdoors 公司的情况

在本系列的 第 1 部分:加快机器数据分析 中,Sample Outdoors 公司的数据科学家能够使用其整个应用程序栈中的日志,获悉 7 月 14 日周六所报告的问题。他们还能够了解这个问题的潜在根源。

许多客户在 7 月 14 日周六都受到了影响,客户支持中心充斥着来自投诉客户的电子邮件。Sample Outdoors 公司面临着负面宣传的风险,同时还担心失去现有客户和潜在客户。解决这个问题的方法之一是提供优惠券,让这些客户在将来购买产品时能够节省一定的资金。7 月 14 日周六是 Sample Outdoors 最大型的年中促销期间最繁忙的日子之一,非常多的客户都受到了影响。Sample Outdoors 希望将这些优惠券优先提供给通过电子邮件联系支持中心的特定客户。

为此,Sample Outdoors 公司需要获得一个整合的视图,其中包含所有未遂的客户订单,以及受影响的客户。Sample Outdoors 公司已经掌握可供分析的未遂订单信息。他们现在想增加客户的电子邮件,以便能够获得有关客户及其订单的规模和详情的足够信息,从而为他们在优惠券中提供适当的优惠。


加速新日志类型的机器数据分析的十个特性

请阅读下面的 IBM Accelerator for Machine Data Analytics 的特性概述和要点,您可以用这些特性来分析自己的数据类型。

  1. 学习如何准备电子邮件数据进行分析,请参阅 准备新日志类型的数据 部分。
  2. 使用泛型,并学习如何验证结果和识别任何缺失字段,请参考 开箱即用的支持 部分。
  3. 设置 Eclipse 环境,处理 Extraction 应用程序定制,请参考 掌握控制权!准备定制 部分。
  4. 了解 Extraction 应用程序 部分快速了解 Extract 应用程序。
  5. 工具一览 部分快速了解文本分析的 Eclipse 工具。
  6. 使用新规则来提取特定于电子邮件的字段,并对它们进行测试,请参阅 创建自己的电子邮件日志类型 部分。
  7. 理解代码 部分查看了用于电子邮件数据的文本分析规则。
  8. 了解内幕 部分,了解使得这种新日志类型能够在其他应用程序中即插即用的命名约定。
  9. 将定制的应用程序发布到 BigInsights 集群,请参阅 发布定制的应用程序 部分。
  10. 使用定制的 Extraction 应用程序提取电子邮件,并查看结果,请参阅 实践中的新日志类型!部分。

在 Sample Outdoors 公司使用电子邮件

Sample Outdoors 公司的数据科学家希望利用客户支持中心已收到的电子邮件。他们希望获得周六 7 月 14 日停运期间进行投诉的客户的电子邮件。然后,他们使用这些信息获得订单规模的信息、客户忠诚度数据,并通过电子邮件向这些客户发送适当的优惠券。

他们从 customersupport@sampleoutdoors.com 和 websupport@sampleoutdoors.com 收集电子邮件,并使用 IBM Accelerator for Machine Data Analysis 开始分析数据。


准备新日志类型的数据

下载 部分提供了来自 customersupport@Sample Outdoors.com 的一批预先准备好的电子邮件数据。

执行以下步骤。

  1. 下载 部分下载 code_and_data.zip,将它解压缩。
  2. 您会看到一个名为 AQL 的目录。将它放在方便的地方。在本教程中,稍后会用到 email.aql 和 extractor_email.aql。
  3. 您还会看到一个名为 input_batches 的目录。目录 input_batches 包含一个名为 Batch_inbox 的批处理文件。Batch_inbox 包含如清单 1 所示的电子邮件数据。它代表 Sample Outdoors 公司客户支持收件箱中收到的电子邮件。
    清单 1. 电子邮件数据
    Message-ID:<16159836.1075855377439.JavaMail.evans@thyme> Date:Sat,
    14 July 2012 08:36:42 -0800 (PST) From: john.doe@gmail.com To:
    customersupport@sampleoutdoors.com Subject:FW:Cannot purchase
    Mime-Version:1.0 Content-Type: text/plain; charset=us-ascii
    Content-Transfer-Encoding:7bit X-From: john doe X-To: customersupport
    X-cc: X-bcc: X-Folder:\customersupport_July2012\Notes Folders\Inbox
    X-Origin: customersupport X-FileName: customersupport.nsf Hi I am still
    not able to purchase items on Sample Outdoors.I urgently need to get
    these items. Thanks, John -----Original Message----- From: Doe, John
    Sent: Saturday, July 14, 2012 4:06 PM To:
    customersupport@Sampleoutdoors.com Subject:Cannot purchase Hello, I am
    having trouble purchasing items on your website.Is there a known issue,
    any estimate on when it will be fixed? Thanks, John
    Message-ID:<13556517.1075852726971.JavaMail.evans@thyme> Date:Sat,
    14 July 2012 08:59:02 -0700 (PDT) From: mary.jane@yahoo.com To:
    websupport@sampleoutdoors.com Subject:Problem with purchases Cc:
    customersupport@sampleoutdoors.com Mime-Version:1.0 Content-Type:
    text/plain; charset=us-ascii Content-Transfer-Encoding:7bit X-From: mary
    jane X-To: websupport X-cc: customersupport X-bcc:
    X-Folder:\websupport_July2012\Notes Folders\Inbox X-Origin: websupport
    X-FileName: websupport.nsf Hi I am unable to purchase on your
    website.Please help!!! Mary

    Batch_inbox 也包含如清单 2 所示的 metadata.json。
    清单 2. 代表收件箱的批次的 metadata.json
     {preTimestampRegex:"((\\n)|(\\r))+Date:\\s",
    logType:"generic", batchId:"batch_inbox", dateTimeFormat:"EEE, dd MMM
    yyyy H:mm:ss Z", missingDateTimeDefaults:[] }

    请注意,最初使用 logType generic 来识别可从收件箱提取的所有字段。

  4. 将数据上传到 HDFS(Hadoop 文件系统)。图 1 显示了上传数据之后的 HDFS 中的目录结构。您可以使用 BigInsights 控制台创建目录结构,并将文件上传到 HDFS 中。
    图 1. 上传到 HDFS 的电子邮件数据
    图 1 显示了上传到 HDFS 的电子邮件数据。

    注意:如果数据较大或有若干批,请考虑使用随 IBM Accelerator for Machine Data Analytics 提供的 Import 应用程序。


开箱即用的支持

现在将运行 Extraction 应用程序并验证结果。您可以查看本系统 第 1 部分:加快机器数据分析 中的 “开始前的一点准备 - 已知的日志类型” 和 “未知的日志类型” 部分,了解有关各种日志类型的开箱即用支持的更多信息。

执行以下步骤。

  1. 使用如图 2 所示的参数运行 Extraction 应用程序:Source directory 是 /GOMDADemo/input_batches,Output path 是 /GOMDADemo/output/extract_out。
    图 2. 使用通用日志类型对电子邮件数据运行 Extraction 应用程序
    使用通用日志类型对电子邮件数据运行 Extraction 应用程序

    注意:Source directory 应该始终指向包​​含批次的目录,即使是该目录下只有一个批次。这使得应用程序能够在同一时间处理一个或多个批次。

  2. 浏览输出路径的内容。按照图 3 所示的步骤查看工作表形式的 CSV 结果。然后,将工作簿保存为 email_generic
    图 3. 查看工作表形式的 Extraction 输出
    查看工作表形式的 Extraction 输出

    注意:输出目录包含以每个批次的 batchID 命名的目录。以 batchID 命名的 CSV 文件中包含每个批次中提取出的 2000 个结果,这是默认设置。

    您可以在 extract.config 中更改设置,提取所有结果或者不提取任何结果。默认配置被安装在 /accelerators/MDA/extract_config/extract.config,但您可以制作自己的副本,并将该副本保存在其他的首选位置。

  3. 验证提取的结果,包括验证主时间戳和记录边界是否被正确识别。并且验证时间戳规范化是否正确。上述所有操作都以在 metadata.json 中提供的值为基础。

    图 4 显示了 batch_inbox.csv 生成的工作表中的列。

    图 4. 验证 Extraction 的输出
    This figure shows the Validate output of Extraction.

    请注意,charset 列是根据名称值对规则的通用规则提取的。一个记录中可以包含大量名称值对,但只有第一个值被导出到 CSV 文件中。在本系列的下一篇文章中,您将学习如何在搜索用户界面中可视化所有已提取的字段。

    若数据包含 XML 内容,您会看到叶标记对的类似输出。第一对将被导出到 CSV 文件中,但您可以使用搜索界面来查看所有结果。

  4. 如果在验证中存在问题,马上解决它们!若生成的结果与预期不一致,应仔细检查驱动这些结果的关键信息。

    为了修复没有正确识别的记录边界或 LogDateTime 中不正确的值,应仔细检查 metadata.json 中表示为 dateTimeFormat 的主时间戳格式。另外,在适当的情况下,检查时间戳前的正则表达式,它在 metadata.json 中表示为 preTimestampRegex

    为了修复 LogDateTimeNormalized 中不正确的值,除上述检查之外,还应在适当的情况下仔细检查主时间戳中缺少的信息,该信息在 metadata.json 中表示为 missingDateTimeDefaults

    如果在表示结果的 CSV 文件的标题中没有看到预期的字段,应仔细检查所选择的日志类型,该日志类型在 metadata.json 中表示为 logType

    请注意,电子邮件中有一些有趣的字段,如(To, From),没有被提取。此信息对于分析电子邮件至关重要。

    接下来,您将定制 Extraction 应用程序,使电子邮件数据中这些有趣的字段可以被提取。


掌握控制权!准备定制

使用随 BigInsights 项目提供的源代码,让 Extraction 应用程序能够为电子邮件数据提供更丰富的支持。

执行以下步骤。

  1. 打开安装了 BigInsights Eclipse 工具的 Eclipse 实例。如需获得安装 BigInsights Eclipse 工具的更多信息,请打开 BigInsights 控制台并转到 Console 选项卡。然后,在 Quick Links 下面,选中 Enable your Eclipse development environment for BigInsights application development。请按照下面的说明来安装 Eclipse 工具。
  2. 在加速器的安装目录中的 bin 文件夹下找到 Extraction 应用程序的源项目(MDAExtractionApp_eclipse.zip)。
  3. 将 MDAExtractApp_eclipse.zip 作为一个 Eclipse 项目进行导入。首先,打开 BigInsights 透视图。从 Window 菜单中选中 Open Perspective,然后选中 BigInsights。如果它没有出现在列表中,那么它有可能被列在 Other 下面。
  4. 在 Project Explorer 上,右键单击 Import 菜单并选中 Existing Projects into workspace
  5. 在向导中,选中 archive file。然后指向 MDAExtractApp_eclipse.zip
  6. 单击 Finish

现在我们已经导入了 Extraction 应用程序的源代码。接下来,您会看到这个项目的结构的简要介绍。


了解 Extraction 应用程序

有关 Extraction 应用程序的概述,请参阅本系统 第 1 部分:加快机器数据分析 中的 “从文本提取信息” 部分。

执行以下步骤。

  1. Extraction 应用程序提供了适用于一些已知日志类型的一套规则,还提供了适用于一些鲜为人知的日志类型的一套通用规则。展开 AQL 文件夹,查看包含这些规则的文件,以及它们是如何组织的。图 5 显示了如何针对每种日志类型组织 AQL 规则。
    图 5. 窥探 Extract 应用程序
    该图显示了 aql 规则的组织

    注意所使用的命名约定。每种日志类型都有一个相应的 extractor_logtype.aql 文件。在建立电子邮件日志类型时,强制要求提供该文件。

    图 5 还显示了开箱即用的日志类型的 extractor_logtype.aql 文件。extractor_logtype.aql 是一个顶级的模块,它包括相应日志类型的所有规则。通常情况下,日志类型的所有规则都被定义在一个子目录中。

  2. 看一看 common 目录下的 AQL 规则,这代表了通用的规则集。展开 common 目录并查看 AQL 规则,如图 6 所示。
    图 6. 泛型中包括的 AQL 规则
    该图显示了范型中包含的公共目录和 AQL 规则

    类似地,您还可以查看为已知类型所提供的规则。

  3. AQL 规则被称为一个自定义JAQL模块。展开 src/jaql/custom_modules 文件夹,看看包含在 JAQL 模块中的已编译的 AQL 规则。图 7 显示了通过自定义模块暴露的已编译规则。
    图 7. 在自定义模块中暴露的已编译的 AQL 规则
    该图显示了在自定义模块中暴漏的已编译的 AQL 规则
  4. 注意所产生的命名约定。在自定义模块/提取器文件夹中,每种日志类型都有一个相应的 extractor_logtype.tam 文件。这有助于记录何时建立电子邮件日志类型。Extraction 应用程序包含其他几个 JAQL 脚本和 Java UDF,但在建立新的日志类型时,不需要用到它们。

通过更改这些 AQL,始终可以针对现有已知的和泛型的日志类型自定义任何现有规则,或针对现有已知的和泛型的日志类型包括任何新规则。


工具一览

现在,您将快速浏览一下在开始更改代码之前如何使用工具。

让我们从简单的开始。您将在一个电子邮件数据记录上运行通用的规则集,并观察结果。

执行以下步骤。

  1. 在项目下面,创建一个名为 data 的目录。
  2. 添加一个名为 one_email 的文件。您可以从 下载 部分的 code_and_data.zip 文件中获得它。该文件包含一个电子邮件数据记录。
  3. 接下来,您将运行泛型集 (generic set) 的 AQL 规则,如图 8 所示。
    1. 右键单击该项目,并选中 Run As
    2. 单击 Run Configurations
    3. 在向导中单击 Text Analytics
    4. 单击左上角的 Launch New Configuration 图标。
    5. 将配置命名为 email_generic
    6. 在模块下面,选中 extractor_generic
    7. 在 Location of the Input document collection 中选中 MDAExtractApp/data
    8. 单击 Run
    图 8. 通过运行配置在电子邮件数据上测试通用的 AQL 规则
    该图显示了如何通过运行配置在电子邮件数据上测试通用的 AQL 规则
  4. 注意图 9 中所示的结果。
    图 9. 电子邮件数据上通用的 AQL 规则的结果
    该图显示了电子邮件数据上通用的 AQL 规则的结果

注意:用于识别 Date、Time 和 DateTime 的 AQL 规则可以识别在记录中出现的所有时间戳。特别需要注意的是由 LogDateTime 表示的主时间戳,它是在这些规则之外识别的。


创建自己的电子邮件日志类型

遵循顶级文本分析模块的简单命名约定,创建新的电子邮件类型。您已经看到,开箱即用的日志类型使用了相似的命名约定。遵循这个命名约定很重要,因为它使新的电子邮件日志类型能够在 Extraction 应用程序和加速器的其他应用程序中即插即用。

在本系列的下一篇文章中,您会看到这个新的日志类型如何在索引和搜索的过程中实现即插即用。

首先,您需要创建一个名为 email 的日志类型。然后,您需要创建名为 extractor_email 的顶级文本分析模块。

执行以下步骤。

  1. AQL 文件夹下面,创建一个名为 email 的新文件夹。
  2. 下载 email.aql。您可以从 下载 部分的 code_and_data.zip 文件中获得它。这包含了针对 email 日志类型的 AQL 规则。
  3. email.aql 文件导入 email 文件夹。
  4. AQL 文件夹下面,创建一个名为 extractor_email 的新文件夹。
  5. 下载 部分的 code_and_data.zip 文件中下载 extractor_email.aql。这包含了顶级模块,其中包括来自 email.aql 的电子邮件规则。
  6. extractor_email.aql 文件导入 extractor_email 文件夹。现在,新的 AQL 规则已经到位,您可以对电子邮件数据运行这些规则。
  7. 使用 Text Analytics 配置再次运行 MDAExtractApp 项目,这次为模块选中 extractor_email,如图 10 所示。
    图 10. 使用 email 日志类型运行项目
    该图显示了如何使用电子邮件日志类型运行项目
  8. 在 Annotation Explorer 中查看结果。您也可以在 Annotation Explorer 中双击条目,在电子邮件数据的上下文中查看结果。
  9. 您会发现,来自电子邮件数据的 To 和 From 字段已被成功提取,如图 11 所示。
    图 11. 查看运行 email 日志类型的结果
    该图显示了运行 email 日志类型的结果

理解代码

查看 email.aql 和 extractor_email.aql 中的代码,如清单 3 所示。

清单 3. email.aql

点击查看代码清单

清单 3. email.aql

					module email; create view email_base as select R.match from
					Regex(/([A-Za-z.\d;'\-<>]+\@[A-Za-z.\d;'\-<>]+(?=(?=,)\s*[A-Za-z.\@\d';\
					-<>]+|))/, Document.text) R; create view toEmail as select e.match from
					email_base e where MatchesRegex(/To:\s/, LeftContext(e.match, 4)); create view
					To as select D.match as span, GetText(D.match) as text, GetString('To') as
					field_type from toEmail D; export view To; create view fromEmail as select
					e.match from email_base e where MatchesRegex(/From:\s/, LeftContext(e.match,
					6)); create view From as select D.match as span, GetText(D.match) as text,
					GetString('From') as field_type from fromEmail D; export view From;

在代码中观察以下内容。

  • 创建了一个基础视图 email_base
  • 创建了一个视图 fromEmail,以提取代表发件人的电子邮件。
  • 在视图 fromEmail 中创建了一个视图 From。这是要导出的最终视图!
  • 创建了一个类似的视图 toEmail,以提取代表收件人的电子邮件。
  • 在视图 toEmail 中创建了一个名为 To 的视图。这是要导出的最终视图!

注意:被导出的最终视图必须遵循以下的简单命名约定。

  • 视图必须包含一个名为 span 的字段,该字段代表发现值的范围。
  • 视图必须包含一个名为 text 的字段,该字段代表所发现的文本值。
  • 视图必须包含一个名为 field_type 的字段,该字段代表视图。

您很快就会了解如何使用这些命名约定,但首先,您可以发布自定义的应用程序。


了解内幕

遵循导出视图和文本分析模块的命名约定非常重要。

当 Extraction 应用程序在 metadata.json 中看到 logtype 字段的值为 email 时,它会执行以下流程。

  • 它在自定义 JAQL 模块中寻找名为 extractor_email 的已编译文本分析模块。在建立新的 AQL 时,将在这个位置自动生成已编译的模块。如果没有找到该模块,那么默认情况下会使用 extractor_generic
  • 在发布、部署和运行定制的应用程序后,您会看到包含样本结果的 CSV 文件。CSV 文件中的标头值将代表从 extractor_email 模块中导出的每个视图的每个 field_type 字段。

在下一篇文章中,您将看到从 extractor_email 模块中导出的每个视图的每个 field_type 字段也可以用于多面搜索。


发布定制的应用程序

MDAExtractionApp 现在已经为部署到 BigInsights 集群中做好准备

执行以下步骤。

  1. 更改应用程序名称,避免在部署过程中覆盖已安装的 Extraction 应用程序。展开 BIApp 文件夹,然后打开 application.xml。将名称更改为 ExtractionEmail,如图 12 所示。
    图 12. 更改应用程序名称
    该图显示了如何更改应用程序名称

    应用程序现在已经做好发布的准备。接下来,将工具指向 BigInsights 集群。

  2. 在发布之前,必须确保 textAnalytics 工具设置使用了标准的分词器,而不是多语种。
    • 在 Windows File Explorer 中,浏览到您的工作区/MDAExtractApp。
    • 在编辑器中打开文件 .textanalytics
    • 将 langWare.tokenizerChoice 的值从 1 更改为 0,如清单 4 所示。
      清单 4. .textanalytics
      		langWare.tokenizerChoice=0
  3. 在 Eclipse 中,刷新 MDAExtractApp,让步骤 2 中的更改生效。
  4. 在 BigInsights 服务器视图中添加您的 BigInsights 服务器,右键单击 BigInsights servers,选中 New,并在向导中提供相应的信息,如图 13 所示。
    图 13. 添加 BigInsights 服务器
    添加 BigInsights 服务器
  5. 单击 MDAExtractionApp 并选中 BigInsights Application Publish
  6. 在向导中,在前五个页面中均保持默认值,并选中 Next
  7. 在 Zip and publish applications 页面上,单击 Add JAQL module
  8. 选中 src/jaql 中的 custom_modules 文件夹。
  9. 选中 Finish。您会看到一条指示已成功发布应用程序的消息。

实践中的新日志类型!

现在将运行 ExtractionEmail 应用程序。

执行以下步骤。

  1. 首先,将准备好的批次的日志类型更改为电子邮件,而不是泛型。为此,需要更改 metadata.json 文件。在 BigInsights 控制台的 Files 选项卡中,单击 GOMDADemo/input_batches/batch_inbox/metadata.json
  2. 单击 Edit 按钮,将日志类型更改为 email,然后单击 Save。metadata.json 现在看起来应该如清单 5 所示。
    清单 5. metadata.json
    {preTimestampRegex:"((\\n)|(\\r))+Date:\\s", logType:"email",\
    batchId:"batch_inbox", dateTimeFormat:"EEE, dd MMM yyyy H:mm:ss Z", \
    missingDateTimeDefaults:[] }
  3. 接下来,部署新发布的应用程序。在 Applications 选项卡上,单击 Manage,选中 ExtractionEmail 并单击 Deploy,如图 14 所示。
    图 14. 部署 ExtractionEmail 应用程序
    该图显示了如何部署 ExtractionEmail 应用程序。
  4. 执行 ExtractionEmail 应用程序,类似于图 2 中所示的步骤,但这次提供的源目录为 /GOMDADemo/input_batches,输出路径是 /GOMDADemo/output_email/extract_out。
  5. 单击 Run
  6. 要查看结果,从 Application History 转到 Output 列中的图标。系统会将您带到 /GOMDADemo/output_email/extract_out/batch_inbox.csv。您会看到包含 ToFrom 电子邮件的列,如图 15 所示。
    图 15. 查看定制的 ExtractionEmail 应用程序的结果
    该图向您展示了如何查看定制的 ExtractionEmail 应用程序的结果

您已成功定制了 Extraction 应用程序,添加了从电子邮件数据提取信息的能力。


结束语

在本教程中,您创建了一个全新的日志类型来支持电子邮件数据。您还可以在此日志类型中添加任何现有规则,进一步丰富它!

在 Sample Outdoors 公司中,Extraction 配置被更改为将所有记录导出到 CSV 文件,而不是只导出前 2000 个记录。我们还执行了进一步的临时分析,结合客户订单信息与电子邮件信息来识别需要跟进补救的客户。

致谢

感谢 Amit Rai (amitrai4@in.ibm.com) 的技术审查,并感谢机器数据加速器团队的所有成员对此特性的贡献。还要感谢 Thomas Friedrich 和 Robin Noble-Thomas 提供的关于 BigInsights 工具的帮助。


下载

描述名字大小
code_and_data.zip---

参考资料

学习

获得产品和技术

  • 利用可直接从 developerWorks 下载的 IBM 试用版软件 构建您的下一个开发项目。
  • 以最适合您的方式 评估 IBM 产品:下载产品试用版、在线试用产品、在云环境中使用产品,或在 SOA 沙盒 中学习如何高效地实现面向服务的架构。

讨论

  • 加入 My developerWorks 社区。探索由开发人员推动的博客、论坛、组和维基,并与其他 developerWorks 用户进行交流。

条评论

developerWorks: 登录

标有星(*)号的字段是必填字段。


需要一个 IBM ID?
忘记 IBM ID?


忘记密码?
更改您的密码

单击提交则表示您同意developerWorks 的条款和条件。 查看条款和条件

 


这是您第一次登陆到 developerWorks,已经自动为您创建了您的概要文件。 选择您概要文件中可以公开的信息的信息(如姓名、国家/地区,以及公司),这些信息同时也会与您所发布的内容相关联。 您可以随时更新您的 IBM 账号。

所有提交的信息确保安全。

选择您的昵称



当您初次登录到 developerWorks 时,将会为您创建一份概要信息,您需要指定一个昵称。您的昵称将和您在 developerWorks 发布的内容显示在一起。

昵称长度在 3 至 31 个字符之间。 您的昵称在 developerWorks 社区中必须是唯一的,并且出于隐私保护的原因,不能是您的电子邮件地址。

标有星(*)号的字段是必填字段。

(昵称长度在 3 至 31 个字符之间)

单击提交则表示您同意developerWorks 的条款和条件。 查看条款和条件.

 


所有提交的信息确保安全。


static.content.url=http://www.ibm.com/developerworks/js/artrating/
SITE_ID=10
Zone=Information Management
ArticleID=948367
ArticleTitle=IBM Accelerator for Machine Data Analytics,第 2 部分: 加快新日志类型的分析
publish-date=10142013