目次


IBM InfoSphere Content Collector 詳説

Comments

IBM InfoSphere Content Collectorは電子メール、ファイル・システム、コンテンツなどさまざまな形式に対応するアーカイブ・ソリューションです。Lotus DominoサーバーやMicrosoft Exchange Server内の電子メール、Windowsファイル・システム上のファイルを自動的、または対話的にアーカイブ、プレビュー、復元、検索できます。2009年10月に発表された最新版のバージョン2.1.1からは一般のLotus NotesデータベースやMicrosoft SharePointからのアーカイブもサポートします。

またIBM InfoSphere Content CollectorはIBMの提唱する「スマート・アーカイブ」において中心的な役割を果たします。他製品との組み合わせにより、高度な自動分類やeDiscoveryソリューションを実現します。

IBM InfoSphere Content Collectorの概要

IBM InfoSphere Content Collector(以下、Content Collector)はLotus DominoサーバーやMicrosoft Exchange Server内の電子メール、Windowsファイル・システム上のファイル、Lotus Notesデータベース等を、DB2 Content Manager (以下、DB2 CM)またはFileNet P8リポジトリーにアーカイブ(保管)します。Content CollectorはこれまでにIBMから提供されてきた4つのアーカイブ製品「CommonStore for Lotus Domino, MS Exchange」、「FileNet Email Manager」、「FileNet Records Crawler」、「FileNet Connector for SharePoint 」の良い部分を組み合わせて設計された製品であり、これらの後継製品です。2009年10月には最新版であるバージョン2.1.1がリリースされ、以下の製品が発表されました。

  • IBM InfoSphere Content Collector V2.1.1 for Email
  • IBM InfoSphere Content Collector V2.1.1 for File Systems
  • IBM InfoSphere Content Collector V2.1.1 for Microsoft SharePoint

Content Collectorの主な特長は次の通りです。

様々なデータソース、様々なリポジトリー製品に対応

すでに述べたとおりLotus DominoサーバーやMicrosoft Exchange Server内の電子メール、Windowsファイル・システム上のファイル、Lotus Notesデータベース内の文書をアーカイブできます。またMicrosoft SharePointやMicrosoft Exchangeのパブリック・フォルダ内の文書にも対応します。

モジュラー形式で拡張可能

様々なデータソースやリポジトリー製品のサポートにあたって内部デザインにはモジュール・アーキテクチャが採用されました。この結果、拡張や管理のしやすい製品になっただけでなく、他製品との連携や部品の共通化も促しました。たとえばContent Collectorはそれ単体でもアーカイブする文書をファイル・サイズや経過時間によりフィルタリングできますが、別製品のIBM InfoSphere Classification Moduleと組み合わせることでより高度な分類を実現します。

アーカイブ時における機能の充実

アーカイブには自動アーカイブと対話式アーカイブ(電子メールのみ)があります。自動アーカイブでは管理者が事前にアーカイブ・スケジュールを設定し、アーカイブ対象となるサーバーやメール・データベース、ディレクトリを指定します。このときすべてのファイルをアーカイブ対象にするか、またはメールのサイズや文書の経過時間などのルールに従ってアーカイブするかを指定します。一方、対話式アーカイブでは、Lotus NotesおよびOutlookのクライアント・ユーザーが各自のメールボックスからアーカイブする文書を選択できます。アーカイブ後にユーザーは、リポジトリー内にアーカイブされた文書を検索し、必要に応じて復元することができます。

Content Collectorではまた、アーカイブ時に保存先を動的に決定したり、ファイル・アーカイブ時に元のフォルダー構造を維持したり、あるいはIBM FileNet P8のProcess EngineやIBM InfoSphere Enterprise Recordsと連携してビジネス・プロセス管理、レコード管理と有機的に統合することができます。アーカイブされたコンテンツに対する検索では、アーカイブ時に使用したコンテンツの属性に基づいた条件に加え、本文に対する全文検索も可能です。

Content Collector 2.1のアーキテクチャーを図 1に示します。

図 1. Content Collector V2.1コンポーネント、電子メール・クライアント、電子メール・サーバー、リポジトリー・サーバー間の関連
fig01
fig01

Content Collectorは複数のコンポーネントから構成され、リポジトリーやメール・サーバーなどの外部リソースとは「コネクター」や「アクセス層」経由で対話します。ここで「メール・コネクター」は電子メール・サーバーとContent Collector間の通信を行う API 層です。アーカイブのためContent Collector に送付される文書はこの層を通過後に、リポジトリーで処理および格納されます。「リポジトリー・アクセス層 (RAL)」はサポートされるリポジトリー内文書のビューや復元処理に使用されるソフトウェア・アクセス層です。RALはIBM InfoSphere eDiscovery Manager、IBM InfoSphere eDiscovery Analyzerでも共通に利用されます。

Content Collector の利用例

Notes/Domino環境におけるContent Collector を利用した例を二つ紹介します。

Notes DB容量削減ソリューション

Notesで作成された固定資産管理用アプリケーションを考えます。このアプリケーションでは1つの固定資産当たり1つのNotes文書が作成され、画像、資産購入時の見積書、毎年の棚卸しのログ等、複数の添付文書が貼り付けられています。Notes DBの容量が大きくなった場合、ある時期以前のデータを都度、別のNotes DBに移動する方法が考えられますが、全固定資産を対象にした検索や更新時の利便性に欠けますし、アプリケーションの改修も必要です。

Content Collectorでは設定された条件に応じてNotes文書内の添付文書だけをアーカイブできます。アーカイブされた文書があった位置には、リンク・テキストが書かれます。ユーザーは固定資産全体を見渡しながら検索を行い、必要に応じてリンク・テキストをクリックして、元の添付文書を参照できます。

Notesメール監査ソリューション

米国においては、eDiscovery(電子証拠開示)に関する法案があり、企業は裁判所や政府の要求に応じて関係する電子メールの保存、提出が義務付けられています。電子メール全体のバックアップを長期にわたって大量に、安全に保管し、かつ、訴訟の際には必要なメールだけを短時間で抽出、開示する必要があります。

Content Collectorでは自動的に選択された電子メール、あるいはすべての電子メールを効率よく安全に保存できます。全文検索用の索引を作成することでメール本文内の検索も可能です。またIBM InfoSphere eDiscovery Managerと組み合わせることで必要十分な電子メールのみの抽出処理や、証拠保全のための削除保留などを実行できます。

Content Collectorのインストールと構成

Content Collectorは短時間でのインストールと構成、業務の開始が可能です。インストール直後に起動される「初期構成ツール」や「ICC Configuration Manager(構成マネージャー)」が作業の効率化を手助けします。

初期構成ツール

「初期構成ツール」はContent Collectorの情報を格納するデータベース「ICCDB」を作成し、アーカイブの対象に応じた「項目タイプ」(DB2 CMの場合。表 1参照)や「文書クラス」(FileNet P8の場合)、Content Collectorへのインターフェースが追加された「メール・テンプレート」を作成します。

表 1. DB2 CMのContent Collector 用項目タイプ
項目タイプ名用途
ICCEmailCmpLDLotus Dominoメールを保管
ICCEmailCmpExExchangeメールを保管
ICCAttachments添付ファイルを保管
ICCFilesystemファイル・アーカイブでアーカイブされたファイルを保管

ここでアーカイブ対象が電子メールの場合、Content Collectorでは電子メール本文の保管用と、添付ファイルの保管用それぞれに対応する「項目タイプ」または「文書クラス」を作成します。つまりメール本体と添付ファイルを別々に保管されます。複数のメールに同じファイルが添付されていた場合は重複アーカイブを避け、スペースを効率よく使用します。なおContent Collector V2.1.1では内部で使用するデータ・モデルが変更されました。新たに採用されたデータ・モデルは「複合データ・モデル」、従来のモデルは「バンドル・データ・モデル」と呼ばれます。製品によっては特に断りなくこの言葉が使用される場合があるので注意してください。

Content CollectorではNotesユーザーに対して、メールのアーカイブや、アーカイブしたメールの検索と復元などに対話式メニューが提供されます。これらのメニューはメール・テンプレートの変更によって実現されています。「初期構成ツール」では、対象となるリモート・サーバー上、またはローカルのメール・テンプレートを指定して更新できます。既存のメールDBを更新されたメール・テンプレートで置換すると、NotesクライアントにContent Collector用のメニューが追加されます(図 2)。

図 2. Notesクライアントに追加されるContent Collector用のメニュー
fig02
fig02

構成マネージャー

「ICC Configuration Manager(構成マネージャー)」はContent Collector を構成するグラフィカル・ユーザー・インターフェースです(図 3)。

図 3. Content Collector 構成マネージャー。「タスク経路」が中央に表示されている。
fig03
fig03

Content Collectorの情報を格納するデータ・ストア、接続するリポジトリー、ファイル・システム、電子メール・サーバーへのコネクター情報、メタデータ、その他の一般設定などを指定します。Content Collectorの処理手順を定義する「タスク経路」も作成します。

タスク経路は一連の処理の流れをグラフィカルに表現したもので、タスクの順番を入れ替え、分岐、結合して処理の流れを決定します。個々のタスクは、選択して右側のペインでパラメータを設定できます。

タスク経路は画面左のツールボックスからドラッグ・アンド・ドロップして配置しますが、代表的なタスク経路はテンプレート集の中に用意されています。たとえば図 3は特定のメール・データベースを自動アーカイブするタスク経路ですが、テンプレート集から「アーカイブ」タスク経路を選択することで自動的に作成されます(図 4)。

図 4. タスク経路の作成でテンプレート集からメールのアーカイブを選択
fig04
fig04

以後は個別のデータソースのアーカイブについて説明します。

電子メールのアーカイブ

自動式アーカイブの場合、アーカイブの対象となるメール・サーバーやパス、アーカイブのスケジュールや頻度、フィルターなどを設定し、保存します(図 5)。

図 5. アーカイブ対象のパラメータ設定
fig05

タスクが実行されると、スケジュールやフィルターに従ってメールは自動的にアーカイブされ、スタブが作成されます(図 6)。

図 6. アーカイブされたメール(左)と、プレビュー画面(右)
fig06
fig06

対話式の場合、ユーザーがNotesのメニューから「IBM Content Collector」->「アーカイブの対象としてマーク」を選択すると、選択されたメールは「トリガー・メールボックス」と呼ばれる専用のメールボックスに保管され、これを監視するデーモン・プロセスがアーカイブを行います。

構成ではあらかじめトリガー・メール・ボックスを用意した上で、次の手順に従います。

  1. 「一般設定」->「クライアント構成」をクリックし、「トリガー・メールボックス」に「CN=iccjob1/O=YSL」のような形式で指定します。
  2. タスク経路のテンプレート集から「デフォルト・アーカイブ(対話式)」を選択します。
  3. ECの「対話式要求に基づいてEメールを収集」タスクを選択し、「一般」タブの「ジョブ・コレクションのソース」で「ジョブ・メールボックスから収集する」を選択します。
  4. 「コレクションのソース」タブの「ジョブ・メールボックスの定義」で、トリガー・メールボックスに「mail\iccjob1.nsf」のような形式で指定します。

電子メールのライフサイクル

電子メールの本体や添付ファイルを経過時間で段階的にアーカイブすることもできます。これをライフサイクル管理と呼びます。たとえば、図7のタスク経路はアーカイブの三ヶ月後に添付ファイルを除去し、一年後に電子メール全体を削除します。

図 7. 電子メールのライフサイクルを定義するタスク経路
fig07
fig07

検索のための設定

DB2 CMをリポジトリーとして使用しているシステムで、Content Collectorの検索機能を使用するには、以下の構成が必要です。

  1. DB2 CMの導入されているサーバーに、Content Collector Indexer for text search を導入します。
  2. 項目タイプをテキスト検索用に構成します。初期構成ツールを使用して項目タイプを作成するとテキスト検索用の設定が行われます。
  3. afuConfigツールを使用して、項目タイプごとにindexer 構成ファイル(項目タイプ名.ini )を作成します。
  4. afuIndexerを使用して、索引作成を行います。

クライアントのメニューから「検索」を選択すると、Webブラウザが起動され検索用のダイアログが表示されます(図 8)。検索語はハイライト表示されます。

図 8. アーカイブの検索
fig08
fig08

ファイルのアーカイブ

Windowsファイル・システム上のファイルをアーカイブする場合は、タスク経路の作成で、たとえばタスク経路のテンプレート集から「FSからCMへのアーカイブ{ショートカット}・完了」を選択して、タスク経路を作成します(図 9)。

図 9. ファイル・アーカイブのタスク経路
fig09
fig09

アーカイブの対象となるディレクトリの指定やスケジュール、フィルタリング等は電子メールのアーカイブと同様です。ここでは、後処理としてファイルをショートカットで置き換えています。アーカイブが実行されると、以下のようなリポジトリー内コンテンツへのショートカットが作成されます。

.[InternetShortcut]
URL=https://ICCServer/AFUWeb/RetrieveDocument.do?r=0%2BT3TgnMlm%2B1t1xTSweAL%2FJX2d68whqA
ZEbgp6uQpj244U5MrwffGH16xQMJjs56FATilTX4dBtcGz%2Fh516ogtMd2gyHAP9Mbk%2FTduy9Lci2yE2MTinxb
58FOja%2FSfxPgyYVtb%2FCyY%3D&sum=UNUoiUbbYYJJ2QDT64mvQG1ssQk

追加情報を入力した外部ファイルを作成し、アーカイブ時にメタデータとして保管することもできます。

Notesデータベースのアーカイブ

Content Collectorの最新版バージョン2.1.1では、Notesデータベースのアーカイブがサポートされました。アーカイブ方式は「自動アーカイブ」のみで「対話式アーカイブ」のサポートはありません。ただし対話式の復元や、添付ファイルの削除、プレビューはサポートされます。Notesデータベースのアーカイブ手順は次の通りです。

  1. (リポジトリーがDB2 CMの場合)CM項目タイプの作成
    「CMリポジトリー構成」を選択し、CM項目タイプを作成します。必要に応じて属性を追加します。
  2. Lotus Dominoテンプレートの作成とDBの置き換え
    「Lotus Dominoテンプレートの有効化」を選択し、アプリケーション・タイプで「その他」を選択後、Notesデータベースを選択します。作成後は、設計を置換します。Content Collector用のメニューが追加されます(図 10)。
    図 10. Content Collector用のメニューが追加されたNotesデータベース
    fig10
    fig10
  3. ユーザー定義メタデータの定義
    構成マネージャーを起動し、必要に応じてメタデータを定義します。Notes文書のプロパティをメタデータとしてリポジトリーに保管することができます。
  4. タスク経路の作成
    タスク経路のテンプレート集から「アプリケーション・アーカイブ」を選択して、タスク経路を作成します。設定は電子メールの場合と同様です。
  5. アーカイブの実行

スマートなアーカイブ

2009年10月に米国ラスベガスで行われたカンファレンス「Information On Demand 2009」では「スマート・アーカイブ」が発表されContent Collectorはその中心製品として位置づけられました。「スマート・アーカイブ」とは従来の「すべてのコンテンツを、永遠に保管し続ける」という方式から、よりスマートな、より賢いアーカイブを提案しています。これはコンテンツの種類やサイズなどの表面的な属性情報だけでなく、コンテンツ自身や複数のコンテンツ群の中を分析することで発見された事実に基づく保管を意味します。保管時における操作や、保管期間を過ぎた場合の細かな処理、保管先データベースの圧縮なども考慮されています。

Content Collectorはこうした「スマート・アーカイブ」の要件に製品単体、あるいは他のIBMソフトウェア製品と連携して応えていきます。

まとめ

IBM InfoSphere Content Collectorは「スマート・アーカイブ」を実現するソリューション・コア製品です。電子メール、ファイル・システム、コンテンツなどさまざまな形式に対応し、柔軟で豊富な機能を使いやすい形で提供します。また導入や構成の容易性と、拡張性に富んだモジュール・アーキテクチャに基づく他製品との連携により、コンプライアンス、レコード管理、eDiscovery等のソリューションを迅速に実現します。


ダウンロード可能なリソース


関連トピック


コメント

コメントを登録するにはサインインあるいは登録してください。

static.content.url=http://www.ibm.com/developerworks/js/artrating/
SITE_ID=60
Zone=Information Management
ArticleID=446682
ArticleTitle=IBM InfoSphere Content Collector 詳説
publish-date=11202009