Word アクション

Word 変換は、電子 DOC 文書および DOCX 文書を TIF ファイルに変換します。

Word の概要

Word 変換は、電子 DOC 文書および DOCX 文書を TIF ファイルに変換します。 TIF の考えられる使用法の 1 つは、それらに対して認識と後続のルールを実行することです。 有効な Word 変換アクションを使用して希望どおりに変換を設定し、入力された画像を WordDocumentToImage を使用してバッチに変換します。

認識を実行できるように TIF 画像に変換する場合は、出力 TIF フォーマットを、1 ビットのモノクロの FAX グループ 4 圧縮画像にすることをお勧めします。 この仕様の画像は認識に最も適しています。

変換の制限

変換アクションを使用する場合、デフォルトの Alphadecimal ファイル名パターンを使用する単一バッチ内の初期入力ファイルの最大数は 1296 です。 これらのファイルは、バッチ内でさらに多くのファイルに拡張することができ、最終的に、含まれる合計文書数が 1296 をはるかに超えるバッチを作成できます。

例えば、6 ページが含まれる Word 文書の入力バッチは、7 ファイルのバッチ (初期 DOC ファイルおよびページから生成された 6 つの TIFF) になります。 バッチ内で変換されるファイルごとに、最大 1296 ページが出力されます。 例えば、2000 ページからなる Word 文書は、最初の 1296 ページのみが TIFF に変換されます。 同様に、1 つの ZIP ファイルには最大 1296 ファイルが含まれ、msg ファイルには最大 1296 個の添付があります。 入力ファイルごとに 1296 の制限があります。 これはすべてのファイルをまとめた合計の制限ではありません。

変換アクションを使用する場合、組み込みファイルには 3 つのレベルの制限があります。 例えば、MSG ファイルには、PDF ファイルを含むことができる ZIP ファイルを入れることができます。 変換の終わりに、すべてのファイルが解凍され、PDF 内のすべてのページが TIFF に変換されます。 許可されない例としては、PDF を含む別の ZIP ファイルを含む ZIP ファイルが含まれる MSG ファイルがあります。 これには 4 つのレベルの階層があり、これは許可されていません。

1296 を超えるファイルをスキャンして 1 つのバッチに入れるには、代替ファイル命名パターン TMxxxxxx を選択するパラメーター「2」を指定した SetNamePattern アクションを使用する必要があります。 このユース・ケースでは、スキャンされた、または元のスキャンされたファイルから拡張されたすべてのファイルが、次に使用可能な TMxxxxxx パターンを割り当てられます。 xxxxxx の範囲は 1 から 999999 です。 スキャンされたすべてのファイルの拡張後、1 つのバッチには最大 999999 ファイルが含まれます。

ルール

ルールには柔軟性があるため、アプリケーションは複数の方法で電子文書変換アクションを使用できます。 以下は、アプリケーション内でアクションを使用する場合にお勧めする方法の 1 つです。

電子仮想スキャンを専用のタスク・プロファイルで実行し、処理する入力文書のバッチを作成します。 電子文書変換アクションを専用のタスク・プロファイルで使用します。

1 つのルール・セットで、認識の前に電子文書を TIF ファイルに変換するすべてのアクションを実行できます。 電子文書変換アクションで変換したい電子文書のタイプごとに、機能を作成します。 例えば、ZIP ファイルの操作用に 1 つの機能を、Word ファイルの操作用に別の機能を作成するなど、さまざまなタイプの機能を必要な数だけ作成できます。 デフォルト値が適切でない場合は、出力形式を構成するアクションを使用し、次に文書内のページごとに文書を TIF ファイルに変換するアクションを使用します。 ページが予期されたタイプでない場合、アクションは false を返し、次のタイプに進み、変換を再試行します。 必要なタイプがすべて変換されるまで、この操作が続けられます。 予期されないタイプは、このプロセスでは無視されます。 ご使用のアプリケーションで必要な場合は、それらを扱う別のルールをセットアップできます。

ルール・セットの例

変換アクションを使用して PDF、Word、および Excel の文書を処理するように、ルール・セットと機能を構成する例を以下に示します。 tiff ファイルや zip ファイルの分割など、変換でサポートされる他のファイル・フォーマットを処理するために、さらに機能を追加できます。

実行は、各機能が正常に完了するまで、通しで行われます。 まずページ状況が検査され、次にページの変換が試行されます。 ページが正常に変換されると、ページ状況が 75 に設定され、これは削除済みであることを意味します。 機能は完了し、ルール・セットで実行される処理はこれ以上ありません。 タイプが一致しないために文書を変換できない場合は、制御が次の機能に渡され、再度ページの変換が試行されます。

Ruleset Convert Files
- Function Process PDF
- - ChkDCOStatus("49")
- - PDFDocumentToImage()
- - SetDCOStatus("75")
- Function Process Word
- - ChkDCOStatus("49")
- - WordDocumentToImage()
- - SetDCOStatus("75")
- Function Process Excel
- - ChkDCOStatus("49")
- - ExcelWorkbookToImage()
- - SetDCOStatus("75")

削除済み状況にページを設定すると、そのページは後続の処理でスキップできます。 例えば、仮想スキャンを使用して PDF 文書を含むバッチを作成し、次に変換アクションを使用して PDF を一連の画像ファイルに変換する場合、入力 PDF に対してこれ以上の処理を実行する必要はなくなります。 アプリケーションは必要に応じて、最初に ChkDCOStatus("49") を呼び出し、機能の後続のアクションがその状況を持つページでのみ実行されるようにすることで、これらのページの処理をスキップできます。

一般的に、後続の処理と認識は、実行時に作成された TIFF ファイル (親 DOC ファイルではなく DOC ファイルから作成された TIFF など) に対して実行されます。 ページを削除済みに設定しても、ページ参照は DCO から削除されず、ファイルはバッチ・ディレクトリーから削除されないことに注意してください。 元のファイルはまだ存在しているため、外部リポジトリーへのエクスポート時に元の文書を組み込むことはできません。

変換中に作成される変数

変換アクションは、有用と思われるデータを変数に保管します。 以下が作成される変数です。 「IMAGEFILE」: 変換済みページに関連付けられた TIF ファイルの名前。 値は通常、「01010000.tif」のようなものになります。 この変数はページ・レベルです。

「ParentImage」: このページを作成するために使用された文書の名前。 TIF が Word ファイルの変換によって作成された場合、値は通常、「02000000.doc」のようなものになります。 この変数はページ・レベルです。 ページに複数の親がある (ZIP ファイル内部にあった ZIP ファイルから解凍された場合など) 場合、それらの親はコロンで区切られます。 例えば、TM000001.zip:01020000.zip のようになります。