抽出の方法
回答の主要キーワードの抽出時、 IBM® SPSS® Modeler Text Analytics は言語学に基づくテキスト分析に依存します。このアプローチを用いると統計に基づくシステムがもたらすようなスピードと費用対効果が得られます。また人の手を介することがほとんどないので、極めて高い精度が得られます。言語学に基づくテキスト分析は、自然言語処理、あるいは計量言語学と呼ばれる研究分野に基づいています。
抽出プロセスがどのように機能するのかを理解しておくと、言語リソース (ライブラリー、タイプ、類義語など) を微調整する際に主要な決定を下すのに役立ちます。抽出プロセスのステップには以下のものがあります。
- ソース・データの標準フォーマットへの変換
- 候補となる用語の特定
- 類義語の等価クラスおよび統合の特定
- タイプの割り当て
- インデックスの付与
- パターンおよびイベント抽出のマッチング
手順 1: ソース・データの標準フォーマットへの変換
最初のステップでは、後続の分析に利用できるように、インポートしたデータを決まった形式に変換します。この変換は内部的に実行され、元のデータは変更されません。
手順 2: 候補となる用語の特定
言語学的抽出において、候補となるキーワードを特定する際の言語リソースの役割を理解しておくのは大切なことです。言語リソースは、抽出が実行されるごとに使用されます。言語リソースは、テンプレート、ライブラリー、およびコンパイル済みリソースの形式で保存されています。ライブラリーには、語のリスト、関係性、また抽出の特定や調整に使用されるその他の情報が含まれています。基幹辞書は表示・編集ができません。ただし、残りのリソース (テンプレート) を テンプレート・エディター で、またはインタラクティブ・ワークベンチ・セッションの場合は リソース・エディター で編集できます。
コンパイル済み辞書は、IBM SPSS Modeler Text Analytics の抽出エンジンの主要な、内部コンポーネントです。これらのリソースには、品詞コード (名詞、動詞、形容詞、副詞、分詞、限定詞、接続詞、前置詞) を含む基本形のリストを収めた一般辞書が含まれています。また、リソースには、<地名>、<組織名>、または<人名> のタイプに多くの抽出されたキーワードを割り当てるために使用する、予約済みのビルトインのタイプも含まれています。 詳しくは、ビルトインのタイプのトピックを参照してください。
これらコンパイル済み辞書のほか、製品にはいくつかのライブラリーが付属し、それらを使用して、コンパイル済み辞書のタイプ定義およびコンセプト定義を補い、またその他のタイプや類義語を提供することができます。これらのライブラリー、および作成したユーザー指定のライブラリーは、いくつかの辞書で構成されています。これらには、キーワード辞書、類義語辞書 (類義語およびオプションの要素)、および不要語辞書が含まれています。 詳しくは、ライブラリーの使用のトピックを参照してください。
データがインポートおよび変換されると、抽出エンジンは抽出の候補のキーワードの特定を開始します。候補となるキーワードとは、テキスト内の概念を特定するのに使用される語や、語の集まりのことです。テキストの処理中、コンパイル済み辞書にない単語 (ユニターム) は、抽出の候補のキーワードとして見なされます。候補の複合語 (マルチターム) は、品詞パターン抽出を使用して特定されます。例えば、品詞パターンが「形容詞、名詞」のマルチタームsports car (スポーツ カー)は、2 つの部分に分けられます。品詞パターンが「形容詞、形容詞、名詞」のマルチタームfast sports car (高速スポーツ カー)は、3 つの部分に分けられます。
最後に、特殊なアルゴリズムを使用して、役職などの大文字の文字列を処理し、これらの特殊なパターンを抽出できるようにします。
手順 3: 類義語の等価クラスおよび統合の特定
候補のユニタームおよびマルチタームが特定された後、一連のアルゴリズムを使用して、ユニタームやマルチタームを比較し、等価クラスを特定します。等価クラスは、ある語句の基本形、すなわち同じ語句の2つの表現を1つの形で表わしたものです。句を等価クラスに割り当てる目的は、例えば、president of the company (会社の社長) および company president (会社社長) を別のコンセプトとして扱わないようにすることです。等価クラスのどのコンセプトを使用するか、つまり、president of the
company (会社の社長) または company president (会社社長) のどちらを主要キーワードとして使用するかを判断するために、抽出エンジンは、次の規則を順に適用します。
- ライブラリーのユーザー指定の形式。
- テキスト全体で最も出現頻度の高い形式。
- テキスト全体で最も短い形式 (通常、基本型に該当)。
手順 4: タイプの割り当て
次に、抽出されたコンセプトにタイプを割り当てます。タイプは、コンセプトの意味上のグループ化です。基幹辞書ならびにライブラリーの両方がこのステップで使用されます。タイプには、上位レベルのコンセプト、肯定的な単語および否定的な単語、人名、地名、組織名などが含まれます。ユーザーがタイプを定義して追加することもできます。 詳しくは、キーワード辞書のトピックを参照してください。
手順 5: インデックスの付与
レコードまたはドキュメントのセット全体に、テキストの位置と各等価クラスの代表キーワードの間にポインタを確定してインデックスを付けます。候補のコンセプトの活用形インスタンスはすべて、候補の基本型としてインデックスが付けられます。基本形ごとに全体の出現頻度が計算されます。
手順 6: パターンおよびイベント抽出のマッチング
IBM SPSS Modeler Text Analytics は、タイプやコンセプトだけでなく、それらの関係性も見つけることができます。この製品ではいくつかのアルゴリズムおよびライブラリーを使用でき、またタイプおよびコンセプトの間の関係性パターンを抽出する機能が用意されてます。製品に対する反応などの特定の意見、または政治的グループやゲノムのリンクなど、人々またはオブジェクトの間の関係性リンクを探す場合に特に役立ちます。