概念模型:“字段”选项卡
“字段”选项卡定义了新输入数据的文本字段值(如果需要)。
注: 仅当模型块放置在流中时,才会显示此选项卡。 当您在“模型”选用板中访问此输出时,该选项卡不存在。
文本字段。 选择包含要挖掘的文本的字段。 此字段取决于数据源。
文档类型。 文档类型指定文本的结构。 请选择以下类型之一:
- 全文。 用于大多数文档或文本源。 系统会扫描整个文本集以进行抽取。 与其他选项不同,此选项没有其他设置。
- 结构化文本。 用于书目形式、专利以及任何包含可识别并分析的常规结构的文件。 此文档类型用于跳过全部或部分抽取过程。 通过它可定义术语分隔符,分配类型和施加最小频率值。 如果选择此选项,那么必须单击设置按钮,并在结构化文本格式中输入文本分隔符。 “文档设置”对话框的区域。 请参阅主题 "字段的文档设置" 选项卡 以获取更多信息。
输入编码。 仅在指示文本字段表示文档路径名的情况下,此选项才可用。 它指定缺省文本编码。 已从指定编码或已识别编码转换为 ISO-8859-1。 因此,即使指定其他编码,抽取引擎也会在对其进行处理之前将其转换为 ISO-8859-1。 不符合 ISO-8859-1 编码定义的任何字符都将转换为空格。
文本语言。 指示挖掘的文本的语言;这是抽取期间检测到的主要语言。 如果您有兴趣购买当前无权访问的受支持的语言的许可证,请与销售代表联系。