サポートされる文書フォーマット

テキスト列データには、プレーン・テキスト、HTML 文書、XML 文書、または検索エンジンによって認識される任意の文書を使用できます。

テキスト検索サーバーは、文書を構文解析して関連パーツを抽出し、それらのパーツを検索可能にします。 例えば、HTML 文書内のタグとメタデータは索引付けされません。 以下の文書フォーマットの構文解析がサポートされています。

  • TEXT: フラット・テキスト
  • HTML: ハイパーテキスト・マークアップ言語
  • XML: Extensible Markup Language
  • INSO: 検索エンジンは、フィルターを使用してテキスト文書のフォーマットを検出します。 次の表は、サポートされるファイル・タイプをリストしています。
表 1. サポートされる文書タイプ
文書タイプ 標準的なファイル拡張子
Lotus 1-2-3 Lotus 1-2-3 SmartSuite® 123
Microsoft Word 97 以降 DOC
ハイパーテキスト・マークアップ言語 HTML
JustSystems 一太郎 JTD、JTT、JFW、JVW
Lotus Word Pro® LWP
Microsoft Project MPP
PDF PDF
Microsoft PowerPoint PPT
Lotus Freelance PRZ
Quattro Pro QPW
マイクロソフトリッチテキストフォーマット RTF
StarOffice Calc および OpenOffice Calc SXC
StarOffice Impress および OpenOffice Impress SXI
StarOffice Writer および OpenOffice Writer SXW
マイクロソフト WordPad (ファイルの種類は異なる場合があります。) TXT
Microsoft Visio VSD
マイクロソフト ライティング WRI
WordStar および WordStar 2000 WS
Microsoft Excel XLS

索引付きテキスト列内のすべての文書は、同じフォーマット (TEXT、HTML、XML、または INSO) でなければなりません。

XML データ

XML データ内の XML 構造は、XML パーサーを使用してデータを構文解析した後に、テキスト検索サーバーで索引付けされます。 その後、サポートされている XPath 照会構文を使用して結果を取得することができます。