知識ベースの評価シーケンス

Watson™ Explorer Engine システムには、クラスター化されるテキストを入力し、クラスタリングに使用される機能を出力する複雑な手順が組み込まれています。知識ベースはこの手順の中央に位置し、ドキュメント内のステム、句読点記号、およびタグのすべてを表す記号のリストで動作します。言い換えルールはこの記号のリストを変更し、呼び出しルールはそれに追加します。

言い換えルールと呼び出しルールは、記号のリストに繰り返し適用されます。決して終了しないルールが作成されないようにするために、いくつかの制約事項が設定されています。次に例を示します。

<rephrase this="x" as="x x">; and
<evoke new="x" when="x"/>

このようなルールは許可されないようにする必要あります。そうしないと、知識ベースは文書に無数の X を作成しようとします。このような理由から、言い換えルールには以下の制約事項があります。

  1. 言い換えルールは、2 度目に適用されるには、入力内で後に出現する記号と一致する必要があります。

    「x」から「x x」への言い換えの場合、テキスト内に「x」が見つかると、ルールが一度適用されますが、新しい x はいずれも入力内で後に出現しないため、それらの x に 2 度目にルールが適用されることはありません。

  2. 呼び出しルールにも同じ制約事項があり、同じルールで生成された項目に呼び出しルールを適用することはできません。「x」が「x」を呼び出すケースでは、テキスト内に「x」が見つかるとルールが一度適用されますが、呼び出された「x」は、ルール自体で作成されているため、2 度目にルールが適用されることはありません。

知識ベースのルールを適用するために、ルールが適用できなくなるまで、以下の手順が繰り返されます。

  1. 1 つ以上のルールを適用できる最初の位置を見つけます (上記の 2 つの制限事項を考慮します)。
  2. 適用されるすべてのルールの中から、非ワイルドカード記号が最も多く含まれたルールを選択します。
    • 複数のルールに同じ数の非ワイルドカード記号が含まれている場合、記号が最も多く含まれたルールを選択します。
    • 複数のルールに同じ数の記号が含まれている場合、ワイルドカードから開始されていないルールを選択します。
    • すべてが等しい場合は、知識ベースで最初に現れるルールを選択します。