Actions Word

La conversion de Word convertit les documents électroniques DOC et DOCX en fichiers TIF.

Word

La conversion de Word convertit les documents électroniques DOC et DOCX en fichiers TIF. L'une des utilisations possibles des fichiers TIF résultants est de les soumettre à la reconnaissance et à d'autres traitements par des règles. Utilisez les actions de conversion de documents Word disponibles pour configurer la conversion à votre gré, puis l'action WordDocumentToImage pour convertir les images qui ont été entrées dans le lot.

Si vous convertissez en images TIF pour ensuite soumettre les images résultantes à la reconnaissance, le format TIF de sortie suggéré est une image compressée 1 bit noir et blanc, FAX Groupe 4. Les images présentant ces caractéristiques sont celles qui donnent les meilleurs résultats de reconnaissance.

Limites de la conversion

Avec les actions de conversion, lorsque le modèle de nommage alphadécimal par défaut est utilisé pour les fichiers, le nombre de fichiers d'entrée pouvant être placés dans un même lot est limité à 1296. Ces fichiers peuvent donner lieu à la création d'autres fichiers au sein du lot. Au bout du compte, le lot peut contenir un nombre total de fichiers bien supérieur à 1296.

Par exemple, dans le cas d'un document Word contenant 6 pages, le lot résultant comprendra 7 fichiers : le fichier DOC d'origine et les 6 images TIFF qui ont été générées à partir des pages. Pour chaque fichier à convertir dans le lot, il y a un maximum de 1296 pages en sortie. Par exemple, dans le cas d'un document Word composé de 2000 pages, seules les 1296 premières pages seront converties en fichiers TIFF. De la même façon, un même fichier ZIP ne pourra contenir que 1296 fichiers, et un fichier msg sera limité à 1296 pièces jointes. La limite des 1296 fichiers s'applique donc à chaque fichier d'entrée, et non au nombre total de fichiers.

Avec les actions de conversion, le nombre de niveaux de fichiers incorporés est limité à 3. Par exemple, un fichier MSG peut contenir un fichier ZIP qui lui-même peut contenir un fichier PDF. A la fin de la conversion, tous les fichiers seront extraits et toutes les pages du PDF seront converties en images TIFF. Exemple de ce qui n'est pas autorisé : un fichier MSG contenant un fichier ZIP qui contient un autre fichier ZIP qui contient un PDF. Cette hiérarchie est en effet à 4 niveaux, ce qui est interdit.

Pour scanner plus de 1296 fichiers en un seul lot, vous devez utiliser l'action SetNamePattern avec le paramètre '2' afin de sélectionner le motif de nommage TMxxxxxx. Dans ce cas de figure, tous les fichiers scannés ou étendus à partir d'un fichier scanné original se verront affecter le premier motif TMxxxxxx disponible, où xxxxxx est un numéro compris entre 1 et 999999, ce qui autorise jusqu'à 999999 fichiers au total dans un même lot une fois que tous les fichiers scannés ont été étendus.

Les règles

Grâce à la souplesses des règles, vos applications peuvent utiliser les actions de conversion de documents électroniques de différentes manières. En voici une que nous recommandons.

Effectuez la numérisation virtuelle des documents électroniques dans un profil de tâche à part afin de créer le lot de documents d'entrée à traiter. Utilisez les actions de conversion de documents électroniques dans leur propre profil de tâche.

Dans un jeu de règles donné, vous pouvez placer toutes les actions visant à convertir les documents électroniques en fichiers TIF avant leur reconnaissance. Créez une fonction par type de document électronique que vous prévoyez de convertir avec ces actions. Par exemple, une fonction pour agir sur les fichiers ZIP, une autre pour agir sur les fichiers Word, etc. Au besoin, si les valeurs par défaut ne conviennent pas, configurez le format de sortie à l'aide des actions prévues à cet effet, puis utilisez l'action de conversion pour convertir le document en un fichier TIF par page. Si la page n'est pas du type attendu, l'action retournera false et passera au type suivant, puis elle tentera une nouvelle conversion. Cette opération se poursuivra jusqu'à ce que tous les types souhaités aient été convertis. Les types non prévus seront ignorés par ce processus. Vous pouvez configurer des règles additionnelles pour les prendre en charge, si votre application l'exige.

Exemple de jeu de règles

L'exemple ci-dessous illustre un cas d'utilisation d'un jeu de règles et de fonctions configurées pour traiter des documents PDF, Word et Excel en utilisant les actions de conversion. Vous pouvez ajouter d'autres fonctions pour traiter d'autres formats de fichier pris en charge par les actions de conversion. Par exemple, scinder les fichiers tiff, les fichiers zip, etc.

L'exécution parcourt chacune des fonctions jusqu'à ce que l'une d'elles aboutisse. L'état de la page est d'abord vérifié, puis on tente de convertir cette page. Si la page est convertie correctement, son état est fixé à 75, ce qui signifie qu'elle est supprimée. La fonction se termine et aucun autre traitement n'est effectué dans le jeu de règles. Si le document ne peut pas être converti parce que son type ne correspond pas à celui de la fonction, le contrôle passe à la fonction suivante, qui tente à son tour de convertir la page.

Ruleset Convert Files
- Function Process PDF
- - ChkDCOStatus("49")
- - PDFDocumentToImage()
- - SetDCOStatus("75")
- Function Process Word
- - ChkDCOStatus("49")
- - WordDocumentToImage()
- - SetDCOStatus("75")
- Function Process Excel
- - ChkDCOStatus("49")
- - ExcelWorkbookToImage()
- - SetDCOStatus("75")

L'attribution de l'état "supprimé" à la page permet à celle-ci d'être ignorée par le traitement subséquent. Par exemple, si vous utilisez la numérisation virtuelle pour créer un lot contenant un document PDF, puis que vous convertissez le PDF en une série de fichiers image à l'aide des actions de conversion, il est probable qu'après ça, vous n'aurez plus besoin de traiter le fichier PDF d'entrée. En appelant d'abord ChkDCOStatus("49"), une application pourrait sauter le traitement de ces pages selon nécessité. Les actions suivantes de la fonction seraient alors exécutées seulement sur les pages qui ont cet état.

En règle générale, les traitements subséquents, notamment la reconnaissance, portent sur les nouveaux fichiers TIFF qui ont été créés à l'exécution, tels que ceux qui ont été créés à partir du fichier DOC, et non le fichier DOC parent. Notez que le fait d'attribuer l'état "supprimé" à la page ne supprime pas sa référence du DCO ni ne supprime le fichier du répertoire du lot. Comme le fichier original existe encore, il sera possible de l'inclure dans le lot de fichiers exportés, lors d'une exportation vers un référentiel externe.

Variables créées durant la conversion

Les actions de conversion stockent les données dans des variables qui peuvent être utiles. Les variables créées sont les suivantes : "IMAGEFILE" : nom du fichier TIF associé à la page convertie. Exemple de valeur type : "01010000.tif". Cette variable s'applique au niveau de la page.

"ParentImage" : nom du document ayant servi à créer cette page. Si le TIF a été créé par la conversion d'un fichier Word, cette variable aura une valeur telle que "02000000.doc". Cette variable s'applique au niveau de la page. Si la page a plusieurs parents, par exemple si elle a été extraite d'un fichier ZIP qui était lui-même dans un fichier ZIP, ils seront séparés par un signe deux-points. Par exemple, TM000001.zip:01020000.zip.