跳转到主要内容

单击提交则表示您同意developerWorks 的条款和条件。 查看条款和条件.

当您初次登录到 developerWorks 时,将会为您创建一份概要信息。您在 developerWorks 概要信息中选择公开的信息将公开显示给其他人,但您可以随时修改这些信息的显示状态。您的姓名(除非选择隐藏)和昵称将和您在 developerWorks 发布的内容一同显示。

所有提交的信息确保安全。

  • 关闭 [x]

当您初次登录到 developerWorks 时,将会为您创建一份概要信息,您需要指定一个昵称。您的昵称将和您在 developerWorks 发布的内容显示在一起。

昵称长度在 3 至 31 个字符之间。 您的昵称在 developerWorks 社区中必须是唯一的,并且出于隐私保护的原因,不能是您的电子邮件地址。

单击提交则表示您同意developerWorks 的条款和条件。 查看条款和条件.

所有提交的信息确保安全。

  • 关闭 [x]

如何扩展 IBM eDiscovery Analyzer 的案例搜索分析能力

马蕤, 软件工程师, IBM
马蕤的照片
马蕤, IBM 中国软件开发中心的软件工程师,主要从事 eDiscovery Analyzer 的测试和测试自动化工具的开发工作,对邮件搜索和分析有浓厚兴趣。

简介: 本文介绍了 eDA2.2 的基本搜索功能,并介绍如何利用 eDiscovery Analyzer 工具扩展 eDA 基本搜索功能,从而提高 eDA 数据分析能力。

发布日期: 2012 年 1 月 19 日
级别: 中级
访问情况 : 596 次浏览
评论: 


什么是 eDiscovery

eDiscovery- 电子发现,是对可能涉及到诉讼相关的电子证据的归档和再现。

美国民事诉讼联邦规则 (Federal Rules of Civil Procedure)2006 法令增补本发布之后,要求用户保留和提供电子存储信息,为可能面对的法律诉讼案件提供相关证据,如果他们做不到这一点,法官可以判处该公司支付一大笔罚款。民事诉讼联邦规则是美国联邦地方法院针对民事案件制订的法规,而这条法规也是迫使企业用户采用电子发现解决方案的主要原因。

什么是 eDiscovery Analyzer

IBM 的电子发现套件是一组工具与功能,以帮助您提供一个集成在平台内部的方法,积极主动地管理信息,并帮助您处理诉讼的回应。凭借可扩展的企业内容管理 (ECM) 平台,IBM 电子发现套件多种数据源和 Vendor 内容管理库中收集,组织,管理和检索企业电子存储信息 (ESI), 同时为这些信息提供安全和审计能力。这使用户业务借助 IBM 电子发现套件,对诉讼,调查和审计要求,通过获得早期的见解具有更大的灵活性,有效地安排组织和收集信息的优先级。

IBM 的电子发现套件包括以下产品 :

  • IBM ContentCollector(ICC) - 收集来自多种数据源和信息库的企业 ESI
  • IBM FileNet P8 和 CM8 content management repositories 内容管理库 - 管理和归档收集到的信息
  • IBM eDiscovery Manager(EDM) - 搜索,管理,保护,导出和案例相关的 ESI
  • IBM eDiscovery Analyzer(EDA) - 以 eDM 创建的数据集为基础,为 ESI 提供概念搜索,分析,和归类能力

本文的重点是介绍 EDA(V2.2) 的搜索分析能力及扩展。eDA, 作为 IBM Enterprise Content Management (ECM) 产品套件的一部分。它让用户可以在法律案件要求电子发现的情况下快速找到所需信息,对电子归档信息建立全文索引,分析并提取重要线索,帮助用于即使在对海量电子存储信息内容一无所知的前提下,也能借助 eDA 提供的搜索分析功能快速高效的开始电子发现,最短时间内找到所需信息。

EDA 针对已经用 ICC 收集到内容管理库 ( 无论是 P8 或 CM8) 并已经过 eDM 初步归类和处理过的案例相关的 ESI, 为法律专业人士和诉讼支持专家提供迅速细化,分析,安排优先级的能力。

EDA 先进的搜索,导航,识别和报告生成能力可以帮助用户识别,标识,重组文档 / 过滤信息噪音 ; 突出关键线索 ; 为进一步审查做准备。从而增加案件成功的几率,减少公司的成本。

eDA2.2 缺省搜索能力

eDA 在对数据集建立全文索引的同时,会对文档内容进行文本分析和信息提取,识别和抽取一系列基本文本单元。这些文本单元会被加入到索引中并用于实时查询,提供基本的文本搜索能力。

除了基本的搜索功能,eDA 还帮定了一套可扩展的基于开放的非结构化信息管理架构 (UIMA) 平台的全面的内容分析器。自带的缺省分析器包括 : 语言识别,词性标注,规范化,标记化,命名实体提取 ( 例如 : 人的姓名,公司名称和地理位置 ), 短语提取,概念提取,文档属性提取 ( 例如 : 作者,日期,发件人,收件人,文件类型和文件大小 ). 提取的文档属性用于高级搜索,提取的命名实体用作细化类别搜索,在结果集中提供几类关键线索的摘要。提取的数据也用于交互式数据分析,如时间线和 E - mail 图,你可以用它来获得更好的高层次的数据理解,并更容易探索数据模式和信息之间的关联 ,

以 eDA2.2 为例,下图为 eDA 的缺省搜索界面 :


图 1. eDA 搜索界面图
eDA 搜索界面图

(查看图 1 的大图

界面左上部分是基本搜索条,提供关键字搜索,信件收件人 / 发件人 / 主题,按日期搜索等功能。

界面左下部分是按线索 ( 类别 ) 搜索栏,详细信息如下图所示 :


图 2. eDA 线索搜索栏
eDA 线索搜索栏

在用户执行了基本搜索之后,eDA 可以根据当前结果集中的文档内容提取并为用户呈现一些重要信息,比如当前结果集中包含哪些短语,人名,地名,机构名等。用户可以浏览这些线索,并通过每个线索前面的”+”或者”-“将该线索添加为搜索条件或者搜索返回不包含该线索的文档,从而起到进一步细化搜索的目的。

不仅如此,用户还可一在搜索界面对当前结果集进行一些可视化的交互数据分析:

  • 时间线

    图 3. 文档日期分布图
    文档日期分布图

    (查看图 3 的大图

    eDA 会为用户呈现当前结果集中文档日期分布的柱状图,用户可以快速的对结果集的文档分布有了解,并且用户可以在时间分布图面板中通过拖拽面板左右两侧的时间线工具钮选定一个更小的时间范围更新搜索结果,而无须在基本搜索条中手动束缚日期。

  • 电子邮件图

    图 4. 电子邮件图
    电子邮件图

    (查看图 4 的大图

    如果用户的搜索集合包含电子邮件,电子邮件图可以为用户实时呈现当前结果集中电子邮件的收发件人关系。如上图所示,每一个节点代表一个电子邮件地址或者地址域,每一条线代表邮件收发的方向和数目。当用户把鼠标放在该图的任意节点上,则由该邮件地址发出邮件的数目和目的地址或者该邮件地址收到的邮件来源地址和数目就会被着重显示,不仅如此,用户可以通过双击任意节点或者双击任意边快速细化搜索,查看某邮件地址所有发出或者收到的邮件,或者查看特定收发件人之间的所有邮件。

  • 类别线索趋势图

    图 5. 类别线索趋势图
    类别线索趋势图

    (查看图 5 的大图

    用户可以通过类别图了解到在某个时间段内某种类别的线索的分布趋势。如上图所示,用户可以看到在 2008 年 1 月 15 日到 2008 年 1 月 20 日这段时间内,该数据集中包括的 3 种概念信息的分布趋势。可以看出 Confidential Communication, Legal Content, Financial Communication 三种类别的线索在 2008 年 1 月 17 日的文档中出现的最多。通过观察,用户可以拖拽面板左右两侧的时间线工具钮将时间锁定在 2008 年 1 月 17 日,并且可以通过双击不同颜色的分布趋势流查看某一个单独类别的线索。

上述是 eDA 缺省的主要搜索分析功能,EDA 的其它重要功能包括:

  • 先进的搜索语法,包括布尔查询,接近支持和通配符搜索
  • 能够保存,导入和导出搜索查询,以方便共享
  • 可定制的结果显示与动态摘要和结果高亮显示
  • 检测电子邮件会话,便于查看和成一个完整的谈话,让用户可以在一个适当的上下文内,而不是孤立的审查
  • 按照不同类别标记多个文档,或整个结果集
  • 检测重复文档,查看和处理非常类似文件

如何扩展 eDA 的搜索能力

除了缺省的搜索分析能力,用户还可以配合 IBM 的相关电子发现套件,对 eDA 的搜索能力进行扩展从而提高 eDA 的电子探索能力,本章将通过两个用户场景介绍详细步骤。

扩展 1 - 搜索非缺省文档属性

如果用户归档信息除了缺省的属性之外还包含自定义的特殊属性,而用户想利用 eDA 对非缺省的文档属性进行搜索分析,则需要在 ICC,EDA 中进行相应的一系列配置:

  1. 在 Repository 中定义归档文档所需的属性,如下图所示,以 FileNet P8 为例,假设用户要将文档归档为 ICC22FileInstanceEDA 类型存储在 FileNet P8 中,则需在归档之前,为 ICC22FileInstanceEDA 类型添加一个新的用户定义属性。如下图所示:

    图 6. FileNet P8 文档类型 ICC22FileInstanceEDA 的属性
    FileNet P8 文档类型 ICC22FileInstanceEDA 的属性

  2. 在用 ICC 归档文档时需要在 ICC Configure Manager 的 Task Route 的文档属性配置页面选择添加上一步中用户的自定义属性,确保文档在自动归档时,ICC 会为归档文档添加该属性。如下图所示:

    图 7. ICC 归档任务路径配置
    ICC 归档任务路径配置

  3. 在文档归档完毕后,检查归档文档的属性,就可以看到除了缺省的文档属性,用户自定义的属性也被正确归档赋值,如下图所示:

    图 8. FileNet P8 中已归档文档的用户自定义属性
    FileNet P8 中已归档文档的用户自定义属性

  4. 在文档被归档到 repository 后,用户需要用 EDM 为这些文档建立案例集,这是 eDA 建立全文索引的前提条件。
    1. 首先在 EDM 管理页面为包含用户自定义属性的文档类型创建一个新的集合类型 (Collection)。 如下图所示 :

      图 9. 在 eDM 管理页面创建新集合类型
      在 eDM 管理页面创建新集合类型

    2. 然后将用户自定义的属性关联到新创建的集合类型属性列表中。如下图所示:

      图 10. 在 eDM 集合属性列表中添加用户自定义属性
      在 eDM 集合属性列表中添加用户自定义属性

      (查看图 10 的大图

    3. 集合类型定义完成后,为该集合类型创建新的搜索模版。如下图所示:

      图 11. 为新创建的集合类型创建新的搜索模版
      为新创建的集合类型创建新的搜索模版

    4. 完成上述这些后,在 EDM 的案例搜索页面就可以用定义好的搜索模版搜索到那些包含用户自定义属性的文档了,并且用户定义的属性值也会被显示在结果集中。如下图所示:

      图 12. eDM 案例搜索页面
      eDM 案例搜索页面

      (查看图 12 的大图

  5. 在完成了 EDM 的配置并建立好案例 (Case) 后,在用 EDA 建立全文索引前,在 eDA 的管理页面需要配置更改集合属性配置。 然后建立索引,配置搜索页面,将用户自定义的属性添加为搜索域。如下图所示:

    图 13. eDA 的案例管理页面配置
    eDA 的案例管理页面配置

  6. 在 EDA 搜索页面搜索该属性,就会得到所需内容。如下图所示:

    图 14. 在 eDA 搜索页面搜索并显示文档的用户自定义属性
    在 eDA 搜索页面搜索并显示文档的用户自定义属性

    (查看图 14 的大图

扩展 2 - 部署用户自定义 annotator

除了 EDA 提供的缺省线索类别,比如短语,人名,地名,机构名等, 用户可能想要发现一些其他类别的线索,比如发现潜在的货币金额,信用卡或帐户号码等线索,以实现对某些特定行业或领域进行电子发现。

利用 eDA 提供的 addon_installer, addon_packager 工具,用户可以打包和部署用户自定义的注释符 (annotator),从而实现上述需求。本章将介绍如何打包及部署 annotator,但不涉及 annotator 的开发。

目前 EDA 可以支持打包及部署以下五种类型的用户自定义 annotator:

  • PEAR 包 annotator:基于 Java 的 UIMA PEAR 包。 (PEAR 包格式的描述,以及如何建立这样一个包,请参见 http://incubator.apache.org/uima/index.html)。
  • 文件捆绑的 annotator:基于 Java 的 JAR 包和 XML 文件。 ( 说明如何实现基于 Java 的 UIMA annotators,请参见 http://incubator.apache.org/uima/index.html)。
  • Apache 正则表达式 annotator 的扩展。( 详细介绍如何编写这个注释的规则,请参见 http://incubator.apache.org/uima/annotators.html)。
  • LanguageWare 语义字典。 (LanguageWare 系统的描述和如何使用它创建语义词典,请参见 http://www.ibm.com/software/globalization/topics/languageware/index.jsp)。
  • System T annotator。 ( 关于 System T 的说明,请参见 http://www.alphaworks.ibm.com/tech/systemt)。

addon_installer, addon_packager 工具在 EDA 安装路径的 bin 目录中。 EDA 会通过 addon_packager 工具,将支持的用户自定义 annotator 打包成特定的 .edaaddon 类型文件,然后通过 addon_installer 将打包好的用户 Annotator 部署在 EDA 系统中,之后用户对案例建立文本索引后,搜索页面中在线索栏就可以看到案例中满足用户自定义 annotator 规则的线索了。下文将详细介绍这一过程 :

  1. 运行附加在 EDA 安装路径的 bin 目录中的打包向导程序 Addon_packger。在 Windows 上,运行 addon_packager.exe 文件。在 AIX 上,运行 addon_packager.bin 文件。
  2. 在第一个面板,输入要打包的 annotator 的详细信息,如下图所示:
    • eDiscovery Analyzer 安装路径
    • 要转换成 .addon 类型文件的 annotator 路径
    • 指定的 eda 的 .edaaddon 文件的输出目录


    图 15. eDA Add-On Wizard annotator 包详细信息
    eDA Add-On Wizard annotator 包详细信息

  3. 点击下一步
  4. 在第二个输入面板,输入显示选项的详细信息,如下图所示:
    • 指定用户自定义 annotator 的名称,该名称会显示在 eDA 的搜索页面
    • 选择 UIMA 的类型
    • 选择要索引的功能


    图 16. eDA Add-On Wizard facet 配置
    eDA Add-On Wizard facet 配置

  5. 点击下一步,开始打包过程
  6. 等打包完成之后,查看指定的 .edaaddon 文件输出目录,就可以看到打包成 .edaaddon 文件的 annotator 文件。利用这个文件就可以将用户自定义的 annotator 利用 addon_installer 工具部署到 EDA 中,如下图所示:

    图 17. 打包好的 .adaaddon 文件
    打包好的 .adaaddon 文件

  7. 运行 Addon_packger。在 Windows 上,运行 addon_packager.exe 文件,在 AIX 上,运行 addon_packager.bin 文件。
  8. 在第一个面板中输入,如下图所示:
    • EDA 的安装目录
    • 之前生成的 .edaaddon 文件所在目录,点击下一步


    图 18. eDA Add-On Installer 安装信息配置
    eDA Add-On Installer 安装信息配置

  9. 在下一个面板中可以修改要部署在 EDA UI 上用户自定义注释的显示名, 改名的缺省值就是在第 4 步中输入的名字,如下图所示:

    图 19. eDA Add-On Installer Annotator 配置
    eDA Add-On Installer Annotator 配置

  10. 等部署完成后,重新启动 EDA,登陆 EDA 管理窗口,查看系统缺省配置,可以看到用户自定义的注释名会作为搜索线索的一个分类显示在可配置的列表中,如下图所示:

    图 20. eDA 缺省参数管理页面
    eDA 缺省参数管理页面

  11. 在案例管理页面,对一个案例集进行全文索引,如下图所示:

    图 21. eDA 案例索引完成
    eDA 案例索引完成

  12. 等索引完成后,打开搜索页面察看页面左侧的线索栏 (Categories),如果案例集中包含符合用户自定义注释规则的数据,这些数据就会被 EDA 提取并显示在相应的类别中。用户可以通过选择或者排除这些线索进一步的细化分析结果。通过搜索,这些数据会被高亮显示在返回的搜索结果文档中,如下图所示:

    图 22. eDA 搜索页面
    eDA 搜索页面

    (查看图 22 的大图

用户可以通过上述步骤在 EDA 上部署多个用户自定义的注释,当用户不再需要这些用户自定义注释时,可以通过 EDA 提供的用户注释卸载工具轻松将部署的 Addon 卸除。

总结

通过上文介绍的两种扩展 eDiscovery Analyzer 案例搜索分析的方法,用户可以增强 eDA 的搜索分析能力,实现客户化定制,满足不同的应用场景和需求。


参考资料

学习

获得产品和技术

讨论

关于作者

马蕤的照片

马蕤, IBM 中国软件开发中心的软件工程师,主要从事 eDiscovery Analyzer 的测试和测试自动化工具的开发工作,对邮件搜索和分析有浓厚兴趣。

关于报告滥用的帮助

报告滥用

谢谢! 此内容已经标识给管理员注意。


关于报告滥用的帮助

报告滥用

报告滥用提交失败。 请稍后重试。


developerWorks:登录


需要一个 IBM ID?
忘记 IBM ID?


忘记密码?
更改您的密码

单击提交则表示您同意developerWorks 的条款和条件。 使用条款

 


当您初次登录到 developerWorks 时,将会为您创建一份概要信息。您在 developerWorks 概要信息中选择公开的信息将公开显示给其他人,但您可以随时修改这些信息的显示状态。您的姓名(除非选择隐藏)和昵称将和您在 developerWorks 发布的内容一同显示。

请选择您的昵称:

当您初次登录到 developerWorks 时,将会为您创建一份概要信息,您需要指定一个昵称。您的昵称将和您在 developerWorks 发布的内容显示在一起。

昵称长度在 3 至 31 个字符之间。 您的昵称在 developerWorks 社区中必须是唯一的,并且出于隐私保护的原因,不能是您的电子邮件地址。

(长度在 3 至 31 个字符之间)


单击提交则表示您同意developerWorks 的条款和条件。 使用条款.

 


为本文评分

评论

static.content.url=http://www.ibm.com/developerworks/js/artrating/
SITE_ID=10
Zone=Information Management
ArticleID=788451
ArticleTitle=如何扩展 IBM eDiscovery Analyzer 的案例搜索分析能力
publish-date=01192012

标签

Help
使用 搜索 文本框在 My developerWorks 中查找包含该标签的所有内容。

使用 滑动条 调节标签的数量。

热门标签 显示了特定专区最受欢迎的标签(例如 Java technology,Linux,WebSphere)。

我的标签 显示了特定专区您标记的标签(例如 Java technology,Linux,WebSphere)。

使用搜索文本框在 My developerWorks 中查找包含该标签的所有内容。热门标签 显示了特定专区最受欢迎的标签(例如 Java technology,Linux,WebSphere)。我的标签 显示了特定专区您标记的标签(例如 Java technology,Linux,WebSphere)。