“文件列表”节点:“设置”选项卡
在该选项卡上,可以定义该节点的目录、文件扩展名和输入。
注: 文本挖掘抽取无法在非Microsoft Windows 平台下处理 Microsoft Office 和 Adobe PDF 文件。 但是,始终可处理 XML、HTML 或文本文件。
不支持任何包含机器本地编码中未包含的字符的目录名称和文件名。 尝试执行包含年文件列表节点的流时,任何包含这些字符的文件名或目录名称都将导致流执行失败。 对于外语目录名称或文件名(如法语语言环境中的德语文件名),可能会发生此情况。
目录。 指定包含要列出的文档的根文件夹。
- 包括子目录。 指定还应同时扫描子文件夹。
要在列表中包含的文件类型:您可以选中或取消选中要使用的文件类型和扩展名。 通过取消选中文件扩展名,将忽略含此扩展名的文件。 您可以按以下扩展名来过滤:
|
|
|
|
|
|
|
注: 有关更多信息,请参阅 "文件列表" 节点。
如果您具有无扩展名或尾部点扩展名(例如,File01 或 File01.)的文件,请使用无扩展名选项来选择这些文件。
仅输出文档路径名。 如果输出字段将包含文档所在位置的一个或多个路径名,请选择此选项。
输入编码。 如果输出字段将包含确切文本,那么从下表中选择相应的值:
- 自动(欧洲)
- UTF-8
- UTF-16
- ISO-8859-1
- ISO-8859-2
- Windows-1250
- US ascii
输出显示为 UTF-8 文档文本。