コンテンツ分析コレクションのカスタム・ユーザー辞書

ユーザー辞書には、ファセットを付けてワードおよび等価語を登録します。文書が分析されるとき、自然言語処理によって非構造化データからワードおよび等価語が抽出され、コレクションのコンテンツについてのより深い洞察を与える統計索引が作成されます。

ファセットとは、分析に使用できるコレクション内のデータのことです。一部のファセットは、データ・ソース・フィールドやメタデータ・フィールドなどの構造化されたデータを表したものであり、そのほかのファセットには、非構造化テキストから抽出される品詞 (名詞、動詞、および依存関係) など、システムで定義されたものもあります。そのほか、ユーザー辞書を作成してワードと等価語をファセットにマップするときに定義するファセットもあります。これらユーザー定義のファセットの値は、データ・ソースの非構造化テキストからも抽出されます。

ワードがコンテキストで抽出されるようにするため、すべてのワードはファセット付きで登録する必要があります。例えば、同じワードと等価語が、意味が異なる別のファセットに属している場合があります。 Component ファセットのワード AC は、自動車の空調コンポーネントのことです。 Power® Specification ファセットの同じワード AC は、交流のことです。ユーザー辞書を使用することで、正しい意味のワードをテキストから抽出できるように、特定のファセットを指定してワードを登録する柔軟性が得られます。

コレクションのカスタム辞書を作成するには、管理コンソールで「テキスト分析」ページを編集します。この辞書は、以下の 2 とおりの方法で操作できます。

候補ビューには、データ・ソースから抽出されたワードや等価語がリストされます。これらのワードは、ファセット値になる候補ですが、自然言語プロセッサーによる文書の分析時には適用されません。
ファセット・ツリー・ビューでは、ファセットを付けて登録して、テキスト分析に使用するワードの追加と編集ができます。抽出して統計的に分析できるワードと等価語は、適用語と見なされます。ワードと等価語は、対話式に辞書に追加することができます。また、候補語のリストのワードを適用語のリストへ移動することや、この新しいワードに等価語を定義すること、さらにワードにファセットを付けて登録することも可能です。

ユーザー辞書への追加または変更を行う場合は、管理コンソールで「テキスト分析」ページを監視して、変更を新しい文書に適用できるようにテキスト分析リソースを再配置する必要があります。既に索引内にある文書に辞書の更新を適用するには、索引を再作成する必要があります。