Узел Список файлов: Вкладка Параметры

На этой вкладке определяются каталоги, расширения файлов и входные данные для этого узла.

Прим.: Операция извлечения исследования текстовых данных не может обрабатывать файлы Microsoft Office и Adobe PDF на платформах, иных чем Microsoft Windows. Однако текстовые файлы и файлы в формате XML и HTML можно обрабатывать всегда.

Никакие имена каталогов и файлов, содержащие символы, которые не включены в локальную кодировку компьютера, не поддерживаются. При попытке выполнить поток, содержащий узел Список файлов, любые имена файлов или каталогов, содержащие эти символы, приведут к неудачному завершению выполнения потока. Это может произойти с именами каталогов или файлов на иностранных языках, например, русским именем файлов во французской локали.

Каталог. Задает корневую папку, содержащую документы, список которых вы хотите получить.

  • Включить подкаталоги. Указывает, что следует также просмотреть подкаталоги.

Включаемые в список типы файлов: Можно выбрать или отменить выбор типов файлов и расширений, которые вы хотите использовать. После отмены расширения файлы с этим расширением будут игнорироваться. Возможна фильтрация по следующим расширениям:

Табл. 1. Фильтры типов файлов по расширениям файлов
  • .rtf, .doc, .docx, .docm
  • .xls, .xlsx, .xlsm
  • .ppt, .pptx, .pptm
  • .txt, .text
  • .htm, .html, .shtml
  • .xml
  • .pdf
  • .$
Прим.: Дополнительную информацию смотрите в разделе Узел Список файлов.

Для выбора файлов либо без расширения, либо с расширением в виде концевой точки (например, File01 или File01.), если они есть, используйте опцию Нет расширения, чтобы выбрать их.

Выводит только имена путей документов. Выберите эту опцию, если выходное поле будет содержать одно или несколько имен путей для положений, где располагаются документы.

Кодировка ввода. Если выходное поле будет содержать точный текст, выберите нужное значение в следующем списке:
  • Автоматически (европейский)
  • UTF-8
  • UTF-16
  • ISO-8859-1
  • ISO-8859-2
  • Windows-1250
  • US ASCII

Выходные данные вводятся в виде текста документа в кодировке UTF-8.