使用 Content Analytics 创建定制注释
可使用 IBM Content Analytics Annotation 转换器将定制注释添加到 Watson™ Explorer Engine 索引文档中。
关于此任务
可以从 IBM Web 站点下载定制注释,也可以使用非结构化信息管理体系结构 (UIMA) 框架或 IBM® Watson Explorer Content Analytics Studio 来创建。Content Analytics Studio 是一个可独立安装的组件,与 IBM Watson Explorer Advanced Edition 一起提供。以下过程描述了如何为定制注释添加和配置转换器:
过程
- 如安装 Annotation Administration Console 中所述,安装并启动 Annotation Administration Console。
-
如创建集合中所述,在 Annotation Administration Console 中创建集合,并如定制文本处理中所述,使用相应的注释器配置集合。
必须为要应用于内容的每一组注释器创建一个独立的 Annotation Administration Console 集合。
-
在 Watson Explorer Engine 管理工具中,将 IBM Content Analytics Annotation 转换器添加到您要加上注释的集合的转换器列表中,并配置以下选项:
- 注释分析 URL - 指向 Annotation Administration Console 的 URL。主机名和端口都是必需的。缺省端口为 8393
- 注释集合标识 - Annotation Administration Console 中配置的注释集合的标识
- 注释类型 - 将该选项设置为定制注释
- 用户名 - 用于连接到 Annotation Administration Console 的用户名
- 密码 - 用于连接到 Annotation Administration Console 的密码
- 缺省情况下排除内容 - 启用时,内容列表字段可定义将为哪些 Watson Explorer Engine 输入内容加上注释。禁用时(缺省设置),内容列表字段可定义将不为其加注释的 Watson Explorer Engine 输入内容
- 内容列表 - 将加上注释或不加注释(根据缺省情况下排除内容字段配置)的此 Watson Explorer Engine 内容列表
- 记录配置 - 转换器的 Log4j 配置。缺省配置将启用 OFF 级别记录
-
此时,必须定义定制转换器,以加上从 Annotation Administration Console 返回的定制注释,并将其解析为可供 Watson Explorer Engine 使用的内容。缺省情况下,Annotation Administration Console 返回的 XML 采用如下格式:
<metadata> <facets> <facet> <path> <keyword></keyword> </path> </facet> </facets> </metadata>可使用此内容来创建适用于您的集合的任何 <content> 节点。要添加定制转换器,请执行以下操作:
- 单击集合的配置选项的转换子选项卡中的添加新转换器链接。
- 从列表中选择定制转换器,然后单击添加
- 将 Type-In 和 Type-Out 选项设置为 application/vxml-unnormalized,并将 Action 选项设置为 XSL
-
输入相应的 XSL,以将返回的注释转换为 Watson Explorer Engine 文档内容。
例如,如果要根据使用计算所得 path 值作为内容名称、使用 keyword 节点内容作为内容值的注释创建内容,请使用以下 XSL:
<xsl:template match="/"> <vce> <xsl:for-each select="//document"> <document> <xsl:for-each select="./content"> <xsl:text disable-output-escaping="yes"><![CDATA[<content name="]]></xsl:text> <xsl:value-of select="@name"/> <xsl:text disable-output-escaping="yes"><![CDATA[">]]></xsl:text> <xsl:value-of select="."/> <xsl:text disable-output-escaping="yes"><![CDATA[</content>]]></xsl:text> </xsl:for-each> <xsl:for-each select="./Metadata/Facets/Facet"> <!-- combine value of Path nodes to form content name --> <xsl:text disable-output-escaping="yes"><![CDATA[<content name="]]></xsl:text> <xsl:value-of select="./Path[1]" />/ <xsl:value-of select="./Path[2]" />/ <xsl:value-of select="./Path[3]" /> <xsl:text disable-output-escaping="yes">"></xsl:text> <!-- select value of Keyword node as content value --> <xsl:value-of select="./Keyword" /> <xsl:text disable-output-escaping="yes"><![CDATA[</content>]]></xsl:text> </xsl:for-each> </document> </xsl:for-each> </vce> </xsl:template>在大多数情况下,以上所列的 XSL 对应用程序有效。
- 单击确定以保存转换器,并将转换器重新排序到 IBM Content Analytics Annotation 转换器(在第 3 步中添加)下方,方法是:单击转换器名称左侧的数字,然后将其拖动到新位置。
- 配置任何其他相应的搜索集合选项,并开始为集合建立索引。