目次


Datacap Taskmaster V8.1 概説

Comments

アーキテクチャー

図1は Datacap Taskmaster のアーキテクチャーを示しています。Datacap Taskmaster の主要なコンポーネントは図の中心に位置する Taskmaster サーバーです。Taskmaster サーバーは Taskmaster アプリケーションの制御を行います。

Taskmaster アプリケーションは、読み込むデータ、抽出するフィールド、検証方法、エクスポート方法および処理の流れなどを定義したもので、お客様の開発担当者が作成します。Datacap Taskmaster を導入するとサンプル・アプリケーション TravelDocs が導入されるので、これを使用して流れを理解することができます。

アプリケーションを作成すると、ファイルシステム上にアプリケーション用のディレクトリーが作成され、その下に定義ファイル、環境構成ファイルなどが作成されます。処理の単位をバッチとよびますが、バッチごとに中間ファイル、ログファイルなども作成されます。

ユーザー情報や処理の流れに関する情報は管理データベースに、バッチやキューの状態に関する情報はエンジン・データベースに保管されます。Fingerprint とよばれる登録されたイメージに関する情報は Fingerprint データベースに保管されます。アプリケーションはこれらのデータベースにアクセスして処理を行います。データベース管理システムとして、サンプル・アプリケーションは Microsoft Access を使用しています。Microsoft Access の代わりに、Microsoft SQL Server、Oracle Database を使用することも可能です。

図 1. アーキテクチャー

各コンポーネントの概略

次に Datacap を構成するコンポーネントの概略について説明します。

Taskmaster Server
Taskmaster システムの中核の機能を提供します。Taskmaster サーバー・マネージャーで開始、停止を行うことができます。
Taskmaster Client
Taskmaster アプリケーションにアクセスするためのクライアントです。文書の入力などを行う DotScan クライアント、認識したデータの検証を行う DotEdit クライアントがあります。
FastDoc
Taskmaster アプリケーションを開発することなく、文書から文字抽出を行う汎用アプリケーションです。
Datacap Studio
Taskmaster アプリケーションの開発環境を提供します。多くのアクションが提供されているので、アクションを組み合わせることにより、柔軟なアプリケーションを構築することができます。FileNet への保管などもアクションが提供されているので、プログラミングをする必要がありません。
Rulerunner Service
各タスクを連続して、自動的に処理する機能を提供します。
Taskmaster Web Service  (TMWeb)
Web ブラウザー上で稼動する Taskmaster クライアントです。認識データの検証機能のほか、ジョブのモニターや処理の流れの管理を行う機能もあります。
NENU Manager
バッチのステータスをモニターし、通知する機能を提供します。

処理の流れ

基本的なアプリケーションは以下のタスクから構成されます。通常、文書の取り込みからフィールドの認識までは自動で行い、データの検証は人手で行います。検証後のデータは自動的にエクスポートします。

図 2. 処理の流れ

FastDoc

Datacap の機能を簡単に使ってみるには、FastDoc が便利です。FastDoc は TIFF ファイルを読み込み、指定したフィールドを抽出し、エクスポートを行う汎用アプリケーションです。Taskmaster アプリケーションを開発する必要はありません。

TIFF ファイルを読み込むと、以下のように右ペインにイメージが表示されます。左ペインでページ名を入力し、抽出したいフィールドの追加を行います。各フィールドのイメージ上の場所 (ゾーン) を指定すると、データが読み取られ、文字認識されます。認識されたデータはフィールド値として左ペインに表示されます。Taskmaster 内部では、このイメージが Fingerprint として登録されます。

図 3. FastDoc 画面1

フィールドの位置が一定ではない場合、ゾーンではなくキーワード検索を使用することもできます。たとえば以下の例では、 Claim Total の値の位置は項目数によって変わります。このような場合には Claim Total をキーワードとして指定して、キーワードの右にある文字列をフィールドの値として取得することもできます。

図 4. FastDoc 画面 2

抽出したフィールド値は、ファイルなどにエクスポートします。ここでは、XML 形式のファイルにエクスポートするように指定しています。CSV または XML 形式のファイルにエクスポートするほか、FileNet や Microsoft SharePoint にエクスポートすることもできます。

図 5. FastDoc 画面 3

同じ形式の文書を読み込むと、前回作成された Fingerprint が使用されフィールド値が自動認識されます。ユーザーは認識されたデータ正しいかを検証して、エクスポート処理に進むことができます。なお、FastDoc は Datacap V8.1 FP1 では日本語の認識はできません。

図 6. FastDoc 画面 4

Datacap Studio

Datacap のさまざまな機能を使用するには、Datacap Studio を使用して Taskmaster アプリケーションを作成する必要があります。Taskmaster アプリケーションを作成すると、データ認識の方法やエリアを細かく指定したり、任意の形式にエクスポートをすることなどが可能になります。PDF、Microsoft Word および Excel などから TIFF へ変換するアクションが用意されているので、TIFF 以外のデータを読み込むこともできます。日本語の OCR 認識もサポートされています。

Taskmaster アプリケーションはアプリケーション・ウィザードを使用するか、既存のアプリケーションをコピーして作成します。アプリケーションを編集するときは、Datacap Studio 上でアプリケーションを開き、Rulemanager タブを表示します。デフォルトでは、左に Document hierarchy、中央に Rulesets、右に Task profiles と Action library が表示されます。

Document hierarchy には、このアプリケーションで取り扱うページ、フィールドの構造を定義します。

Rulesets には、実行するルールを定義します。

Task profiles には、各タスクで実行する Ruleset を定義します。

Action Library は、ルールを構成するアクションのライブラリーです。

Action Library にはさまざまな Action が登録されているので、ユーザーは Action をドラッグアンドドロップで Ruleset に配置することで Taskmaster アプリケーションを作成することができます。

図 7. Datacap Studio: Rulemanager

Zones タブでは、サンプルデータを Fingerprint として登録することができます。罫線などを取り除き、傾きの補正を行う Image Enhancement 処理を行った後に、各フィールドの位置 (ゾーン) を指定します。ここで定義されたゾーンがフィールド値として抽出され、文字認識されます。

異なる形式で、同一のフィールドを持つ文書をある場合は、複数の Fingerprint を登録します。Datacap はページ認識のタスクで Fingerprint のマッチングを行い、文書を識別します。

図 8. Datacap Studio: Zones

Test タブでは、アプリケーションを実行しデバッグを行うことができます。

図 9. Datacap Studio: Test

Rulerunner

アプリケーションを自動で実行させるには、アプリケーションを Rulerunner manager に登録し、Rulerunner を起動します。右ペインのスレッドに割り当てられたタスクは自動的に実行されます。以下の例では、Verify タスク以外のタスクが自動化されています。

図 10. Rulerunner

検証用のクライアント

検証用のクライアントとして、DotEdit が提供されています。DotEdit クライアントには、Verify タスクに進んだ文書が順に表示されます。デフォルトでは、左ペインに文書イメージ、中央に認識した文字が表示されます。認識の確度が低いものは黄色く、検証のルールでエラーになったものは赤く表示されるので、オペレーターはイメージを見ながらデータを修正することができます。お客様の要件にあわせて、検証画面をカスタマイズすることも可能です。

図 11. DotEdit

後述する Web 上のクライアントからも、検証を行うことが可能です。

図 12. TMWeb

検証された文書はエクスポートされます。XML にエクスポートする場合は、次の例のような出力が得られます。

図 13. XMlへのエクスポート

Taskmaster Web Service (TMWeb)

Datacap は Web ベースのクライアントである、Taskmaster Web Service (TMWeb) を提供しています。この TMWeb を使用すると、リモートからスキャンや検証を行うことができます。Active X コントロールを導入するほかは、クライアントマシンにソフトウェアの導入をする必要はありません。ブラウザーは Internet Explorer V8 以降をご利用ください。TMWeb はジョブのモニターや管理機能も提供しています。モニタータブを開くと、現在のジョブの状況が表示されます。

図 14. ジョブモニター

NENU Manager

NENU (New Enhanced Notification Utility) は、バッチのステータスをモニターしたり、通知したりするコンポーネントです。完了したバッチを削除する機能も提供します。Datacap Taskmaster は処理の中間ファイルを大量に出力するので、NENU による削除が有効です。NENU の機能を使用するには、以下の手順で行います。

  1. Datacap Studio による NENU アプリケーションの作成
  2. NENU Manager への登録
  3. タスクスケジューラーへの NENU アプリケーションの登録

日本語認識のための設定

Datacap Taskmaster V8.1 FP1 では日本語がサポートされました。Datacap Taskmaster は複数の OCR エンジンをサポートしていますが、日本語認識を行うエンジンは現在のところ OCR/S という OCR エンジンです。Taskmaster アプリケーションでは OCR/S ライブラリーにある Action を使用してください。日本語が入るフィールドには、Document hierarchy 上で s_lg パラメーターを追加し、「119」をセットする必要があります。

図 15. 日本語設定パラメーター

または、認識を行うアクション (例えば RecognizePageOCR_S) の前に rrSet アクションを追加して、s_lg パラメーターに「119」をセットします。

図 16. 日本語設定アクション

認識率、パフォーマンスを向上させるためのヒント

最後に、迅速に正確に認識処理を行うためのヒントをご紹介します。

  • イメージの解像度は 200 または 300DPI にします。200DPI の方がパフォーマンスは良くなりますが、認識率が低下するので、データに応じて使い分けてください。
  • フルページ OCR (RecognizePageOCR_S) はフィールドレベル OCR (RecognizePageFieldOCR_S) に比べて、時間がかかります。フルページ OCR を使用する場合も、ページの検索エリアを上部 30%のように限定することも可能です。データに応じて設定してください。なお、キーワード検索を行う場合には、フルページ OCR が必要になります。
  • Fingerprint を作成するには、フルページ OCR と Analyze Image のふたつの方法があります。フルページ OCR (RecognizePageOCR_S) はページ上のテキストを抽出して Fingerprint を作成するのに対して、Analyze Image はビットパターンの Fingerprint を作成します。Analyze Image の方がパフォーマンスは良いですが、キーワード検索はできません。
  • データはカラーやグレーではなく、白黒二値の方が、より正しく認識されます。Datacap には二値に変換するアクションも用意されているので、これを使用することもできます。
  • 背景のノイズ、イメージは認識率の低下の原因となります。表のカラムに色がついていたり、網掛けがされているのも望ましくありません。イメージの認識には特に時間がかかるので、できるだけ認識の対象から外すようにしてください。
  • 非常に大きいフォントは認識率が低くなります。Image Enhancement 処理で罫線の削除を行う時に、大きなフォントの直線部分が罫線として認識され、削除されてしまう場合があるので適切なパラメーターを設定してください。

まとめ

Datacap は OCR 認識の機能だけではなく、文書の読み込みから、ページ認識、必要なデータの抽出、次工程へのエクスポートまでのトータルな機能を提供しています。現在、人手でこれらの作業をしている場合は、Datacap により一連の作業を自動化することができます。作業の自動化は、コスト削減だけでなく、作業の迅速化、正確化が期待できます。また、大量のデータを保管されているお客様は、Datacap によるデータの抽出、索引付けをご検討ください。データ分析が可能になり、既存のデータを効果的に活用することができます。

Datacap は 20 年以上の歴史がある製品で、世界で 200 以上のお客様に使われています。Task Master アプリケーションのサンプルをはじめ、さまざまなノウハウも蓄積されています。作業の効率化やデータの有効活用が可能となる Datacap を是非、ご検討いただきたいと思います。


ダウンロード可能なリソース


関連トピック


コメント

コメントを登録するにはサインインあるいは登録してください。

static.content.url=http://www.ibm.com/developerworks/js/artrating/
SITE_ID=60
Zone=Information Management
ArticleID=957513
ArticleTitle=Datacap Taskmaster V8.1 概説
publish-date=12192013