使用 Content Analytics 创建定制注释

可使用 IBM Content Analytics Annotation 转换器将定制注释添加到 Watson™ Explorer Engine 索引文档中。

关于此任务

可以从 IBM Web 站点下载定制注释，也可以使用非结构化信息管理体系结构 (UIMA) 框架或 IBM® Watson Explorer Content Analytics Studio 来创建。Content Analytics Studio 是一个可独立安装的组件，与 IBM Watson Explorer Advanced Edition 一起提供。以下过程描述了如何为定制注释添加和配置转换器：

过程

如安装 Annotation Administration Console 中所述，安装并启动 Annotation Administration Console。
如创建集合中所述，在 Annotation Administration Console 中创建集合，并如定制文本处理中所述，使用相应的注释器配置集合。
必须为要应用于内容的每一组注释器创建一个独立的 Annotation Administration Console 集合。
在 Watson Explorer Engine 管理工具中，将 IBM Content Analytics Annotation 转换器添加到您要加上注释的集合的转换器列表中，并配置以下选项：
- 注释分析 URL - 指向 Annotation Administration Console 的 URL。主机名和端口都是必需的。缺省端口为 8393
- 注释集合标识 - Annotation Administration Console 中配置的注释集合的标识
- 注释类型 - 将该选项设置为定制注释
- 用户名 - 用于连接到 Annotation Administration Console 的用户名
- 密码 - 用于连接到 Annotation Administration Console 的密码
- 缺省情况下排除内容 - 启用时，内容列表字段可定义将为哪些 Watson Explorer Engine 输入内容加上注释。禁用时（缺省设置），内容列表字段可定义将不为其加注释的 Watson Explorer Engine 输入内容
- 内容列表 - 将加上注释或不加注释（根据缺省情况下排除内容字段配置）的此 Watson Explorer Engine 内容列表
- 记录配置 - 转换器的 Log4j 配置。缺省配置将启用 OFF 级别记录

此时，必须定义定制转换器，以加上从 Annotation Administration Console 返回的定制注释，并将其解析为可供 Watson Explorer Engine 使用的内容。缺省情况下，Annotation Administration Console 返回的 XML 采用如下格式：


<metadata>
 <facets>
  <facet>
   <path>
    <keyword></keyword>
   </path>
  </facet>
 </facets>
</metadata>

可使用此内容来创建适用于您的集合的任何 <content> 节点。要添加定制转换器，请执行以下操作：

单击集合的配置选项的转换子选项卡中的添加新转换器链接。
从列表中选择定制转换器，然后单击添加
将 Type-In 和 Type-Out 选项设置为 application/vxml-unnormalized，并将 Action 选项设置为 XSL

输入相应的 XSL，以将返回的注释转换为 Watson Explorer Engine 文档内容。

例如，如果要根据使用计算所得 path 值作为内容名称、使用 keyword 节点内容作为内容值的注释创建内容，请使用以下 XSL：

<xsl:template match="/">
  <vce>
    <xsl:for-each select="//document">
      <document>
        <xsl:for-each select="./content">
          <xsl:text disable-output-escaping="yes"><![CDATA[<content name="]]></xsl:text>
          <xsl:value-of select="@name"/>
          <xsl:text disable-output-escaping="yes"><![CDATA[">]]></xsl:text>
          <xsl:value-of select="."/>
          <xsl:text disable-output-escaping="yes"><![CDATA[</content>]]></xsl:text>
        </xsl:for-each>
        <xsl:for-each select="./Metadata/Facets/Facet">
          <!-- combine value of Path nodes to form content name -->
          <xsl:text disable-output-escaping="yes"><![CDATA[<content name="]]></xsl:text>
          <xsl:value-of select="./Path[1]" />/
          <xsl:value-of select="./Path[2]" />/
          <xsl:value-of select="./Path[3]" />
          <xsl:text disable-output-escaping="yes">"></xsl:text>
          <!-- select value of Keyword node as content value -->
          <xsl:value-of select="./Keyword" />
          <xsl:text disable-output-escaping="yes"><![CDATA[</content>]]></xsl:text>
        </xsl:for-each>
      </document>
    </xsl:for-each>
  </vce>
</xsl:template>

在大多数情况下，以上所列的 XSL 对应用程序有效。

单击确定以保存转换器，并将转换器重新排序到 IBM Content Analytics Annotation 转换器（在第 3 步中添加）下方，方法是：单击转换器名称左侧的数字，然后将其拖动到新位置。

配置任何其他相应的搜索集合选项，并开始为集合建立索引。