“文件列表”节点:“设置”选项卡

在该选项卡上,可以定义该节点的目录、文件扩展名和输入。

注: 文本挖掘抽取无法在非Microsoft Windows 平台下处理 Microsoft OfficeAdobe PDF 文件。 但是,始终可处理 XML、HTML 或文本文件。

不支持任何包含机器本地编码中未包含的字符的目录名称和文件名。 尝试执行包含年文件列表节点的流时,任何包含这些字符的文件名或目录名称都将导致流执行失败。 对于外语目录名称或文件名(如法语语言环境中的德语文件名),可能会发生此情况。

目录。 指定包含要列出的文档的根文件夹。

  • 包括子目录。 指定还应同时扫描子文件夹。

要在列表中包含的文件类型:您可以选中或取消选中要使用的文件类型和扩展名。 通过取消选中文件扩展名,将忽略含此扩展名的文件。 您可以按以下扩展名来过滤:

表 1. 按文件扩展名来进行文件类型过滤
  • .rtf, .doc, .docx, .docm
  • .xls, .xlsx, .xlsm
  • .ppt, .pptx, .pptm
  • .txt, .text
  • .htm, .html, .shtml
  • .xml
  • .pdf
  • .$
注: 有关更多信息,请参阅 "文件列表" 节点

如果您具有无扩展名或尾部点扩展名(例如,File01File01.)的文件,请使用无扩展名选项来选择这些文件。

仅输出文档路径名。 如果输出字段将包含文档所在位置的一个或多个路径名,请选择此选项。

输入编码。 如果输出字段将包含确切文本,那么从下表中选择相应的值:
  • 自动(欧洲)
  • UTF-8
  • UTF-16
  • ISO-8859-1
  • ISO-8859-2
  • Windows-1250
  • US ascii

输出显示为 UTF-8 文档文本。