使用 Content Analytics 创建定制注释

可使用 IBM Content Analytics Annotation 转换器将定制注释添加到 Watson™ Explorer Engine 索引文档中。

关于此任务

可以从 IBM Web 站点下载定制注释,也可以使用非结构化信息管理体系结构 (UIMA) 框架或 IBM® Watson Explorer Content Analytics Studio 来创建。Content Analytics Studio 是一个可独立安装的组件,与 IBM Watson Explorer Advanced Edition 一起提供。以下过程描述了如何为定制注释添加和配置转换器:

过程

  1. 安装 Annotation Administration Console 中所述,安装并启动 Annotation Administration Console
  2. 创建集合中所述,在 Annotation Administration Console 中创建集合,并如定制文本处理中所述,使用相应的注释器配置集合。
    必须为要应用于内容的每一组注释器创建一个独立的 Annotation Administration Console 集合。
  3. Watson Explorer Engine 管理工具中,将 IBM Content Analytics Annotation 转换器添加到您要加上注释的集合的转换器列表中,并配置以下选项:
    • 注释分析 URL - 指向 Annotation Administration Console 的 URL。主机名和端口都是必需的。缺省端口为 8393
    • 注释集合标识 - Annotation Administration Console 中配置的注释集合的标识
    • 注释类型 - 将该选项设置为定制注释
    • 用户名 - 用于连接到 Annotation Administration Console 的用户名
    • 密码 - 用于连接到 Annotation Administration Console 的密码
    • 缺省情况下排除内容 - 启用时,内容列表字段可定义将为哪些 Watson Explorer Engine 输入内容加上注释。禁用时(缺省设置),内容列表字段可定义将不为其加注释的 Watson Explorer Engine 输入内容
    • 内容列表 - 将加上注释或不加注释(根据缺省情况下排除内容字段配置)的此 Watson Explorer Engine 内容列表
    • 记录配置 - 转换器的 Log4j 配置。缺省配置将启用 OFF 级别记录
  4. 此时,必须定义定制转换器,以加上从 Annotation Administration Console 返回的定制注释,并将其解析为可供 Watson Explorer Engine 使用的内容。缺省情况下,Annotation Administration Console 返回的 XML 采用如下格式:
    
    <metadata>
     <facets>
      <facet>
       <path>
        <keyword></keyword>
       </path>
      </facet>
     </facets>
    </metadata>
    

    可使用此内容来创建适用于您的集合的任何 <content> 节点。要添加定制转换器,请执行以下操作:

    1. 单击集合的配置选项的转换子选项卡中的添加新转换器链接。
    2. 从列表中选择定制转换器,然后单击添加
    3. Type-InType-Out 选项设置为 application/vxml-unnormalized,并将 Action 选项设置为 XSL
    4. 输入相应的 XSL,以将返回的注释转换为 Watson Explorer Engine 文档内容。

      例如,如果要根据使用计算所得 path 值作为内容名称、使用 keyword 节点内容作为内容值的注释创建内容,请使用以下 XSL:

      <xsl:template match="/">
        <vce>
          <xsl:for-each select="//document">
            <document>
              <xsl:for-each select="./content">
                <xsl:text disable-output-escaping="yes"><![CDATA[<content name="]]></xsl:text>
                <xsl:value-of select="@name"/>
                <xsl:text disable-output-escaping="yes"><![CDATA[">]]></xsl:text>
                <xsl:value-of select="."/>
                <xsl:text disable-output-escaping="yes"><![CDATA[</content>]]></xsl:text>
              </xsl:for-each>
              <xsl:for-each select="./Metadata/Facets/Facet">
                <!-- combine value of Path nodes to form content name -->
                <xsl:text disable-output-escaping="yes"><![CDATA[<content name="]]></xsl:text>
                <xsl:value-of select="./Path[1]" />/
                <xsl:value-of select="./Path[2]" />/
                <xsl:value-of select="./Path[3]" />
                <xsl:text disable-output-escaping="yes">"></xsl:text>
                <!-- select value of Keyword node as content value -->
                <xsl:value-of select="./Keyword" />
                <xsl:text disable-output-escaping="yes"><![CDATA[</content>]]></xsl:text>
              </xsl:for-each>
            </document>
          </xsl:for-each>
        </vce>
      </xsl:template>
      

      在大多数情况下,以上所列的 XSL 对应用程序有效。

    5. 单击确定以保存转换器,并将转换器重新排序到 IBM Content Analytics Annotation 转换器(在第 3 步中添加)下方,方法是:单击转换器名称左侧的数字,然后将其拖动到新位置。
  5. 配置任何其他相应的搜索集合选项,并开始为集合建立索引。