Действия Zip
Преобразование ZIP преобразует файлы, содержащиеся в файлах формата ZIP.
Обзор Zip
Преобразование ZIP преобразует файлы, содержащиеся в файлах формата ZIP. Затем эти файлы будут доступны для их собственной обработки.
Ограничения преобразования
При использовании действий преобразования максимальное число начальных входных файлов в одном пакете, где используется паттерн имен файлов по умолчанию Alpha-decimal - 1296. Затем число этих файлов можно расширить в пакете, создав в конечном итоге пакет с общим числом документов, гораздо большим, чем 1296.
Например, входной пакет документа Word, содержащего 6 страниц, приведет к созданию пакета из 7 файлов: начального файла DOC и последующих 6 файлов TIFF, сгенерированных из его страниц. Для каждого файла, который следует преобразовать в пакете, будет существовать максимум 1296 выходных страниц. Например, для документа Word, состоящего из 2000 страниц, в TIFF будут преобразованы только первые 1296 страниц. Аналогично, в одном файле ZIP будет максимум 1296 файлов, а в файле msg - 1296 вложений. 1296 - это предел для каждого входного файла, а не общий предел для всех файлов.
При использовании действий преобразования для встраиваемых файлов существует ограничение до 3 уровней. Например, файл MSG может содержать файл ZIP, в котором может быть файл PDF. В конце преобразования все файлы будут извлечены, а все страницы в формате PDF - преобразованы в TIFF. Недопустимый пример - это файл MSG, содержащий файл ZIP, который содержит другой файл ZIP, содержащий файл PDF, поскольку в нем 4-уровневая иерархия, которая не разрешена.
Чтобы отсканировать в один пакет более 1296 файлов, требуется использовать действие SetNamePattern с параметром '2', выбирающим альтернативный паттерн именования файлов TMxxxxxx. В этом случае все файлам, отсканированным или расширенным из исходного отсканированного файла, будет назначен следующий доступный паттерн TMxxxxxx, где xxxxxx - это диапазон от 1 до 999999, разрешающий в общей сложности 999999 файлов в одном пакете после расширения все отсканированных файлов.
Правила
Благодаря гибкости правил существует несколько способов, которыми прикладные программы могут использовать действия преобразования электронных документов. Ниже приведен один из рекомендуемых способов использования действий в прикладной программе.
Выполнив виртуальное сканирование электронных документов в своем профиле задачи, создайте пакет входных документов для обработки. Примените действия преобразования электронных документов в вашем профиле задачи.
В одном наборе правил можно выполнить все действия преобразования электронных документов в файлы TIF перед распознаванием. Создайте функцию для каждого типа электронного документа, который вы предполагаете преобразовать при помощи действий преобразования электронных документов. Например, одну функцию создайте для работы с файлами ZIP, другую - для работы с файлами Word и так далее, для всех различных типов, которые вам потребуются. Если значений по умолчанию недостаточно, примените действия, чтобы сконфигурировать выходной формат, затем - действие. чтобы преобразовать документ в файл TIF для каждой страницы в документе. Если у страницы будет не ожидаемый тип, это действие возвратит значение false и перейдет к следующему типу, и повторит попытку преобразования. Эта операция будет продолжаться, пока не будут преобразованы все нужные типы. Типы, которые не ожидаются, будут игнорироваться этим процессом. Вы можете настроить дополнительные правила для их обработки, если это потребуется вашей прикладной программе.
Пример набора правил
Ниже приведен конкретный пример набора правил и функций, сконфигурированных для обработки документов PDF, Word и Excel при помощи действий преобразования. Можно добавить дополнительные функции для обработки других поддерживаемых преобразованием форматов файлов, например, для разбиения файлов tiff, zip и так далее.
Запускается выполнение каждой из функций, пока функция не будет успешно завершена. Сначала проверяется состояние страницы, а затем предпринимается попытка ее преобразования. Если страница преобразована успешно, для ее состояния задается значение 75, означающее, что она удаляется. Функция завершается и никакой дальнейшей обработки для набора правил не выполняется. Если документ невозможно преобразовать из-за несоответствия его типа, управление передается следующей функции,и снова предпринимается попытка преобразовать страницу.
Ruleset Convert Files - Набор правил преобразования файлов
- Функция обработки PDF
- - ChkDCOStatus("49")
- - PDFDocumentToImage()
- - SetDCOStatus("75")
- Функция обработки Word
- - ChkDCOStatus("49")
- - WordDocumentToImage()
- - SetDCOStatus("75")
- Функция обработки Excel
- - ChkDCOStatus("49")
- - ExcelWorkbookToImage()
- - SetDCOStatus("75")
Задание для страницы удаленного состояния позволяет пропустить эту страницу при последующей обработке. Например, если вы создаете при помощи виртуального сканирования пакет, содержащий документ PDF, а затем преобразуете этот PDF при помощи действий преобразования в ряд файлов изображений, никакой дальнейшей обработки входного файла PDF, скорее всего, больше не потребуется. Приложение может пропустить обработку этих страниц, вызвав вначале ChkDCOStatus("49"); дальнейшие действия в функции будут выполняться только на страницах в этом состоянии.
Обычно последующие обработка и распознавание выполняются для файлов TIFF, созданных во время выполнения (например, файл TIFF, созданный из файла DOC, а не из родительского файла DOC). Имейте в виду, что задание удаления страницы не удаляет ссылку на страницу из DCO не удаляет файл из каталога пакета. Поскольку исходный файл все еще существует, во время экспорта исходный документ можно включить в случае экспорта во внешний репозиторий.
Переменные, создаваемые во время преобразования
Действия преобразования будут сохранять данные в переменных, которые могут оказаться полезны. Создаваемые DOCX переменные: "IMAGEFILE": Имя файла TIF, связываемого с преобразуемой страницей. Обычно это значение выглядит так: "01010000.tif". Эта переменная находится на уровне страницы.
"ParentImage": Имя документа, использованного для создания этой страницы. Если TIF был создан посредством преобразования файла WORD, это значение обычно будет выглядеть примерно так: "02000000.doc". Эта переменная находится на уровне страницы. Если у страницы несколько родительских элементов, например, если она была извлечена из файла ZIP, находившегося в файле ZIP, родительские элементы будут разделены двоеточием. Например, TM000001.zip:01020000.zip.