概念模型：“字段”选项卡

“字段”选项卡定义了新输入数据的文本字段值（如果需要）。

注: 仅当模型块放置在流中时，才会显示此选项卡。当您在“模型”选用板中访问此输出时，该选项卡不存在。

文本字段。选择包含要挖掘的文本的字段。此字段取决于数据源。

文档类型。文档类型指定文本的结构。请选择以下类型之一：

全文。用于大多数文档或文本源。系统会扫描整个文本集以进行抽取。与其他选项不同，此选项没有其他设置。
结构化文本。用于书目形式、专利以及任何包含可识别并分析的常规结构的文件。此文档类型用于跳过全部或部分抽取过程。通过它可定义术语分隔符，分配类型和施加最小频率值。如果选择此选项，那么必须单击设置按钮，并在结构化文本格式中输入文本分隔符。 “文档设置”对话框的区域。请参阅主题 "字段的文档设置" 选项卡以获取更多信息。

输入编码。仅在指示文本字段表示文档路径名的情况下，此选项才可用。它指定缺省文本编码。已从指定编码或已识别编码转换为 ISO-8859-1。因此，即使指定其他编码，抽取引擎也会在对其进行处理之前将其转换为 ISO-8859-1。不符合 ISO-8859-1 编码定义的任何字符都将转换为空格。

文本语言。指示挖掘的文本的语言；这是抽取期间检测到的主要语言。如果您有兴趣购买当前无权访问的受支持的语言的许可证，请与销售代表联系。