コンテンツ分析のためのカスタム・ルールを構成することができます。 そのルールは、自然言語処理において適用され、作成されたアノテーションは索引の一部となります。 ユーザーは、コンテンツ分析マイナーでファセットを選択して、ルールの効果を調べることができます。
コレクションのカスタム・ルールを定義して変更を保存すると、システムはルールをアノテーションの処理に必要な形式に変換します。
テキスト分析ルールに対して追加または変更を加えた場合は、変更を新しい文書に適用できるようにテキスト分析リソースを再配置する必要があります。既に索引内にある文書に新しいルールを適用するには、索引を再作成する必要があります。
人間同士のコミュニケーションでは、概念を表現するのに、通常は語を組み合わせる必要があります。 この組み合わせは単に、個々に検索可能なワードが連続したものというわけでは ありません。多くの場合、概念とは、複雑な文法上の関係によりつながった一連の語となります。
President Lincoln visited Gettysburg yesterday.
基本的なテキスト分析では、以下の情報が提供されます。<?xml version="1.0" encoding="UTF-8"?>
<pattern-list lang="en">
<mi category="$.myword" value="${0.lex} ${1.lex}">
<w id="0" pos="verb" lex="visit" />
<w id="1" pos="noun" />
</mi>
</pattern-list>
<w id="0"
<w id="1"
<w id="2"
最初または最後の / 演算子がないと、この制約は正規表現として解釈されません。 代わりに、この制約はストリングのパターン・マッチングとして解釈されます。
<w id="0" pos="/^((adjective)|(verb))$/"/>
<w id="1" str="/^((excessively)|(poorly)|(badly)|(hardly))$/"/>
designed poorly、working hardly、perform badly、または smoking excessively などのストリングを含む文書で一致したという結果が返されます。<w id="0" str="/^((excessively)|(poorly)|(badly)|(hardly))$/"/>
<w id="1" pos="/^((adjective)|(verb))$/"/>
^ 演算子と $ 演算子を含めることで、Java regex インタープリターが呼び出され、語 excessively、poorly、badly、hardly の変化形が抽出されないようにします。 括弧内のいずれかの語のみを含む式が、一致とみなされます。
語の変化形を抽出できるようにするには、ストリング制約でなく、レックス制約として語を定義できます。 ストリング制約では、見出し語化は適用されません。 レックス制約では、見出し語化によって、それぞれのワードの基本形と、同じ品詞を共有する語形変化形について見出し語が判別されます。 例えば、見出し語 go には、go、goes、went、gone および going が含まれます。
<w id="0" lex="/^((hard)|(difficult))$/"/>
<w id="1" lex="to"/>
<w id="2" pos="verb"/>
この例では、データベースから従業員のファーストネームとラストネームを抽出します。 ファーストネームとラストネームの値を保持する 2 つのファセットを作成し、ファセット・パスを first_name と last_name として定義しています。 また、従業員名のエントリーを含むカスタム・ユーザー辞書を作成し、従業員名をファセットにマップしています。 以下のルールは、カテゴリー制約を使用して、ファセットの値 (従業員名) の一致を検索します。
<w id="0" category="$.first_name"/>
<w id="1" category="$.last_name"/>