セマンティック・ネットワーク
このリリースでは、セマンティック・ネットワーク手法は、英語テキストにのみ使用できます。
この手法では、単語の関係の組み込みネットワークを使用してカテゴリーを作成します。このため、キーワードが具体的で、あまりあいまいでなければ、この手法を使用すると、非常に良い結果を生成することができます。ただし、この手法が非常に技術的/専門的なコンセプト間に多くのつながりを見つけることを期待することができません。こうしたコンセプトを処理する場合、内包関係のコンセプトおよび派生関係のコンセプトの語幹による手法がより有用な場合があります。
セマンティック・ネットワークの機能
セマンティック・ネットワーク手法は、既知の単語の関係を利用して、類義語または下位語のカテゴリーを作成します。下位語は、1 つのコンセプトがある種の 2 番目のコンセプトである場合、階層の関係性があり、ISA リレーションシップとも呼ばれます。例えば、animal がコンセプトである場合、動物の種類である cat、kangaroo は animal の下位語となります。
類義語および下位語の関係性のほか、セマンティック・ネットワークの手法では、<Location> タイプからコンセプト間の部分的なリンクおよび全体のリンクを検証します。例えば、この手法ではコンセプト normandy、provence、および france を、ノルマンディおよびプロバンスは、フランスの一部であるため、1 つのカテゴリーにグループ化します。
セマンティック・ネットワークは、セマンティック・ネットワークの各コンセプトの考えられる意味を特定することから始めます。コンセプトが類義語または下位語として特定されると、1 つのカテゴリーにグループ化されます。例えば、この手法を使うと、次の 3 つのコンセプトからなる 1 つのカテゴリーを作成されます。生食用リンゴ、デザートのリンゴ、およびグラニー・スミス。なぜならば、セマンティック・ネットワークには次のような情報が含まれるからです。1) デザートのリンゴは生食用リンゴの類義語であり、 2) グラニー・スミスは生食用リンゴ の一種である (生食用リンゴの下位語という意味で)。
個別にみると、多くのコンセプト、特にユニタームがあいまいです。例えば、コンセプト buffet は食事の種類、あるいは家具を表す場合があります。一連のコンセプトに meal、furniture、および buffet がある場合、アルゴリズムは meal または furniture のいずれかによる buffet のグループ化を選択するよう強制します。アルゴリズムによる選択は、レコードまたはドキュメントのコンテキストにおいては適切でない場合があります。
セマンティック・ネットワーク手法は、特定の種類のデータによる内包関係のコンセプトにおいて優れています。セマンティック・ネットワークと内包関係のコンセプトでは、apple pie が pie の一種であることを認識しますが、tart も pie の一種であることを認識できるのはセマンティック・ネットワークだけです。
セマンティック・ネットワークは、他の手法を組み合わせて機能します。例えば、セマンティック・ネットワーク手法と内包関係のコンセプトの手法を選択し、セマンティック・ネットワークによりコンセプト teacher をコンセプト tutor とグループ化した (tutor は teacher の一種であるため) とします。内包アルゴリズムはコンセプトを graduate tutor と tutor にグループ分けし、結果として、2つのアルゴリズムが共同してアウトプット カテゴリーを作成します。アウトプットカテゴリーには、tutor, graduate tutor, and teacherが含まれます。
セマンティック・ネットワークのオプション
この手法では、さまざまな追加設定が重要である場合があります。
- 「最大検索距離」を変更します。カテゴリー作成前に手法による検索の距離を選択します。 検索範囲を拡大すると、それぞれの共起の最低相似値が下がります。結果として、複数の共起規則が作成される場合がありますが、相似値の低いものは多くの場合さほど重要ではありません。
例えば、距離に応じて、Danish pastry から coffee roll (上位) まで、そして bun (祖父母) および bread まで上方に検索します。
作成されるカテゴリーが大きすぎる、あるいはあまりに多くのものがグループ化されていると感じられる場合は、検索距離を短縮すれば、より小さなカテゴリーを作成でき、作業がしやすくなります。
重要: 誤ったグループ化と行うと結果に大きな悪影響をおよぼす場合があるため、この手法を手法する場合は、オプション 語幹文字数が次の最小値以上のときにスペルを調整する (「抽出」ダイアログ・ボックスまたはノードの「エキスパート」タブで定義) を適用せず、Fuzzy Grouping を行うことをお勧めします。