カテゴリー化の方法

IBM® SPSS® Modeler Text Analytics でカテゴリーモデルを作成する場合、いくつかの手法から選択して、カテゴリーを作成できます。すべてのデータセットが一意であるため、手法の数やそれらを適用する順序は、変わる場合があります。結果の解釈が、他の人とは異なる場合があるため、テキスト・データにとってどの手法が最良の結果を生み出すか、それぞれの手法を検証する必要があります。IBM SPSS Modeler Text Analytics では、カテゴリーをさらに検証し、調整できるワークベンチ・セッションでカテゴリー・モデルを作成できます。

このガイドの場合、カテゴリーの作成は、カテゴリー定義の生成および、1 つまたは複数のビルトインの手法を使用した分類を指し、またカテゴリー化は、スコアリング、またはラベル付け、一意の識別子 (名前/ID/値) を各レコードまたはドキュメントのカテゴリー定義に割り当てるプロセスのことを指します。

カテゴリー作成時、抽出されたコンセプトおよびタイプはカテゴリーの構築ブロックとして使用されます。カテゴリーを作成すると、カテゴリー定義の要素に一致するテキストが含まれる場合、レコードおよびドキュメントが自動的にカテゴリーに割り当てられます。

IBM SPSS Modeler Text Analytics には、自動カテゴリー作成手法がいくつか用意されており、ドキュメントまたはレコードを迅速にカテゴリー化することができます。

グループ化手法

使用できるそれぞれの手法は、特定の種類のデータおよび状況に適していますが、同じ分析で手法を組み合わせて、全範囲のドキュメントまたはレコードをキャプチャーすると役に立つ場合があります。 複数のカテゴリーのコンセプトを表示したり、重複するカテゴリーを見つけることができます。

派生関係のコンセプトの語幹: コンセプト・コンポーネントが形態的に関連するか、または語幹を共有するかどうかを分析するとき、コンセプトを取得し、そのコンセプトに関連するその他のコンセプトを検索することによって、カテゴリーを作成します。 この手法は、生成された各カテゴリーのコンセプトが類義語または意味の上で密接に関連しているため、類義語の複合語コンセプトを特定するのに非常に役立ちます。 長さの異なるデータを処理し、コンパクトなカテゴリーをより少なく生成します。 例えば、コンセプト opportunities to advance は、コンセプト opportunity for advancement および advancement opportunity とグループ化されます。 詳しくは、派生関係のコンセプトの語幹のトピックを参照してください。

セマンティック・ネットワーク: 各コンセプトの考えられる意味を、単語の関係の拡張インデックスから特定することによって開始し、関連するコンセプトをグループ化することによってカテゴリーを作成します。 この手法は、コンセプトがセマンティック・ネットワークに認識され、あまり曖昧でない場合に最も適しています。 テキストに、ネットワークが認識していない特殊な用語または専門用語が含まれている場合はあまり役に立ちません。 例えば、コンセプト granny smith apple は、granny smith と横の関係があるため、gala apple および winesap apple とグループ化されます。 また別の例では、コンセプト animal は、その下位語である cat および kangaroo とグループ化されます。 このリリースでは、英語テキストにのみ使用できます。 詳しくは、セマンティック・ネットワークのトピックを参照してください。

内包関係のコンセプト: この手法では、一方の共通の文字列である単語を含むかどうかに基づき、マルチタームのコンセプト (複合語) をグループ化することによってカテゴリーを作成します。 例えば、コンセプト seat (シート) は、コンセプト safety seat (セーフティ シート)seat belt (シート・ベルト)、および seat belt buckle (シート・ベルトのバックル) とグループ化されます。 詳しくは、内包関係のコンセプトのトピックを参照してください。

共起: この手法では、テキスト内の共起関係のコンセプトからカテゴリーを作成します。 ドキュメントおよびレコードでコンセプトまたはコンセプト・パターンがいっしょに出現することが多いとき、共起関係のコンセプトはおそらくカテゴリー定義の値のものである基底となる関連を反映します。 単語が頻繁に共起する場合、共起規則が作成され、新しいサブカテゴリーのカテゴリーの記述子として使用できます。 例えば、多くのレコードに単語 price (価格) および availability (有効性) が含まれている場合 (ただし、一方を含み、もう一方を含まないレコードはほとんどない)、これらのコンセプトを共起規則 (price & available) にグループ化し、例えばカテゴリー price のサブカテゴリーに割り当てることができます。詳しくは、共起規則のトピックを参照してください。

最小 ドキュメント。 ドキュメント数: 共起関係のコンセプトの重要性を判断できるようにするため、カテゴリーの記述子として使用されるよう、指定の共起関係のコンセプトを含む必要のあるドキュメントまたは レコードの最小数を定義します。