カテゴリーの拡張

拡張は、記述子を自動的に追加または拡張して、既存のカテゴリーを「拡大」するプロセスです。その目的は、本来カテゴリーに割り当てられていなかった関連レコードまたはドキュメントをキャプチャーするより良いカテゴリーを作成することです。

選択した自動グループ化手法では、既存のカテゴリー記述子に関連するコンセプト、TLA パターン、およびカテゴリー規則を特定しようとします。これらの新しいコンセプト、パターン、カテゴリー規則が新しい記述子として追加されるか、既存の記述子に追加されます。拡張のためのグループ化手法には、「派生関係のコンセプトの語幹」、 「内包関係のコンセプト」「セマンティック・ネットワーク」 (英語のみ)、および「共起規則」が含まれます。 「カテゴリ名から生成された記述子を使用して空白のカテゴリを拡張する」 の手法を使用すると、カテゴリー名の単語を使用して記述子を生成します。そのため、カテゴリー名が記述的であるほど、結果が良いものとなります。

注: カテゴリーを拡張する場合、出現頻度に基づく手法は使用できません。

拡張は、カテゴリーをインタラクティブに改善する重要な方法です。次に、カテゴリーを拡張する場合の例をいくつか示します。

  • カテゴリー・ペインでコンセプト・パターンをドラッグ/ドロップしてカテゴリーを作成した後
  • 手動でカテゴリーを作成し、簡単なカテゴリー規則および記述子を追加した後
  • 非常に記述的な名前を持つ 事前定義済みカテゴリー・ファイル をインポートした後
  • 選択した TAP に由来するカテゴリーを修正した後

カテゴリーを複数回使用できます。例えば、非常に記述的な名前を持つ事前定義済みカテゴリー・ファイルをインポートした場合、「カテゴリ名から生成された記述子を使用して空白のカテゴリを拡張する」 オプションを使用して拡張子、記述子の最初のセットを取得して、これらのカテゴリーを再度拡張します。ただし、複数回拡張すると、記述子が拡張されて幅広くなると、あまりに一般的なカテゴリーが生成される場合があります。作成グループ化手法および拡張グループ化手法では類似した基底のアルゴリズムを使用するため、カテゴリーの作成後に直接拡張すると、より関心の高い結果の作成は期待できません。

ヒント:
  • 拡張を試みるが結果の使用は望まない場合、拡張を行った直後に操作をいつでも取り消す (「編集」>「取り消し」) ことができます。
  • プロセス中、規則は個別に作成されるため、ドキュメントの同じセットに正確に一致するカテゴリーのカテゴリー規則を 2 つ以上作成します。必要に応じて、カテゴリーを確認し、カテゴリー記述子を手動で編集して重複を削除できます。 詳しくは、カテゴリー記述子の編集のトピックを参照してください。

カテゴリーを展開するには

  1. カテゴリー・ペインで、展開するカテゴリーを選択します。
  2. メニューの「カテゴリー」>「カテゴリーを展開」を選択します。プロンプトが表示されないようオプションを選択している場合、メッセージ・ボックスが表示されます。
  3. 今すぐ作成するか、左記に設定を編集するかを選択します。
  • 「今すぐ拡張」 をクリックすると、現在の設定でカテゴリーの拡張が開始されます。プロセスが開始し、進捗状況のダイアログが表示されます。
  • 「編集」 をクリックして、設定を確認し、変更します。

拡張しようとした後、新しい記述子が見つかったカテゴリーには、カテゴリー・ペインで 「展開」 という単語のフラグが立てられ、すばやくカテゴリーを特定できます。「展開」というテキストは、再度展開するか、別の方法で編集、またはコンテキスト・メニューを使用してこれらを解除するまで残ったままです。

注: 表示できる最大カテゴリー数は 10,000 です。この数に到達したか超過した場合は警告が表示されます。 その場合は、「カテゴリーの作成」オプションまたは「カテゴリーの拡張」オプションを変更して作成カテゴリーの数を少なくする必要があります。

カテゴリーの作成時または拡張時に使用できるそれぞれの手法は、特定の種類のデータおよび状況に適していますが、同じ分析で手法を組み合わせて、全範囲のドキュメントまたはレコードをキャプチャーすると役に立つ場合があります。インタラクティブ・ワークベンチで、 カテゴリーにグループ化されたコンセプトおよびタイプは、次にカテゴリーを作成する場合も使用できます。 つまり、複数のカテゴリーのコンセプトを表示したり、重複するカテゴリーを見つけることができます。

以下は、「カテゴリーの作成: 設定」ダイアログ・ボックスにある領域とフィールドです。

次による拡張。 カテゴリーの展開に使用する入力を選択します。

  • 未使用の抽出結果:既存のカテゴリーで使用されていない抽出結果からカテゴリーを作成できます。レコードが、複数のカテゴリーと合致する傾向が最も小さくなり、作成されるカテゴリーの数が制限されます。
  • すべての抽出結果:抽出結果のいずれを使用してもカテゴリーを作成できます。カテゴリーがないまたは少ない場合に最も役立ちます。

グループ化手法

これらの手法の簡単な説明は、「言語学的手法の詳細設定」を参照してください。これらの手法には、次のものが含まれています。

  • 派生関係のコンセプトの語幹
  • セマンティック ネットワーク (英語テキストのみで、「一般化のみ」オプションが選択されている場合は使用されません。)
  • 内包関係のコンセプト
  • 共起および最小ドキュメント数のサブオプション

これらのタイプは関連する結果を作成しないため、多くのタイプがセマンティック・ネットワークから永続的に除外します。それらのタイプには、<Positive><Negative><IP>、その他の非言語的タイプなどがあります。

最大検索距離: カテゴリー作成前に手法による検索の距離を選択します。ただし、これらの結果はノイズが少なく、またリンクや関連性が大きくなります。値が大きいほど、取得する結果は多くなります。ただし、これらの結果の信頼性または関連性が弱くなります。このオプションはすべての手法にグローバルに適用されますが、共起とセマンティック・ネットワークに対する効果は最も大きくなります。

特定のコンセプトがグループ化されないようにする: 出力の 2 つのコンセプトがグループ化またはペアとならないように処理を停止します。コンセプト・ペアを作成または管理するには、「ペアを管理」 をクリックします。詳しくは、例外ペアのリンクの管理のトピックを参照してください。

可能な場合、 単純に拡張するか、ワイルドカードを使用して記述子を一般化するか、またはその両方を選択します。

  • 拡張および一般化: このオプションは、選択したカテゴリーを拡張し、 記述子を一般化します。一般化を選択した場合、アスタリスク (*) のワイルドカードを使用して、製品が一般的なカテゴリー規則をカテゴリーに作成することができるようになります。例えば、[アップル タルト + .][アップル ソース + .] などの複数の記述子を作成する代わりに、[アップル * + .] のようにワイルドカードを使用します。ワイルドカードを使用して一般化すると、以前と同じように、ちょうど同じ数のレコードまたはドキュメントを取得する場合が多くなります。ただし、このオプションには、数の縮小やカテゴリーの記述子の簡略化という利点があります。また、このオプションを使用すると、新しいテキスト・データ (例: 長期的/周期的研究) にこれらのカテゴリーを使用してより多くのレコードまたはドキュメントをカテゴリー化する機能を拡大します。
  • 拡張のみ:一般化せずにカテゴリーを展開します。手動で作成したカテゴリーには 「拡張のみ」 オプションを選択し、「拡張および一般化」 オプションを使用して同じカテゴリーをもう一度展開すると便利です。
  • 一般化のみ: 別の方法でカテゴリーを展開せずに、記述子を一般化します。
    注: このオプションを選択すると、「セマンティック・ネットワーク」オプションが無効になります。これは、「セマンティック・ネットワーク」オプションは説明が拡張されるときのみ有効になるためです。

カテゴリーを拡張するその他のオプション

適用するグループ化手法を選択するほか、次のように、その他のオプションを編集することができます。

記述子を拡張する場合の最大項目数: 項目 (コンセプト、タイプおよびその他の式) で記述子を拡張する場合、単一の記述子に追加できる項目の最大数を定義します。この制限値を 10 に設定すると、最大 10 件の追加項目を既存の記述子に追加できます。10 件を超える項目を追加しようとする場合、10 番目の項目が追加されると、新しい項目の追加を停止します。そうすることにより、記述子のリストが短くなりますが、最も関心の高い項目が最初に使用されたことを保障するものではありません。「可能な場合ワイルドカードを使用して一般化」 オプションを使用して、品質を落とすことなく拡張のサイズを縮小することが必要な場合があります。このオプションは、ブール値 & (AND) または ! (NOT) を含む記述子にのみ適用されます。

サブカテゴリーも展開: 選択したカテゴリー下のサブカテゴリーも展開します。

カテゴリ名から生成された記述子を使用して空白のカテゴリを拡張する:記述子が 0 件の、空のカテゴリーにのみ適用されます。カテゴリーにすでに記述子が含まれている場合、この方法では拡張されません。このオプションを選択すると、カテゴリー名を構成する単語に基づいて、各カテゴリーの記述子を自動的に作成しようとします。カテゴリー名をスキャンして、名前の単語が抽出されたコンセプトに一致するかどうかを確認します。コンセプトが認識されると、そのコンセプトを使用して、合致するコンセプト・パターンを検索し、コンセプトとパターンを使用してカテゴリーの記述子を形成します。このオプションを選択すると、カテゴリー名が長く記述的である場合に、最良の結果を作成します。迅速にカテゴリーの記述子を生成し、またカテゴリーはこれらの記述子を含むレコードをキャプチャーすることができます。別の場所からカテゴリーをインポートしたり、長く記述的な名前を使用して手動でカテゴリーを作成する場合に最も役立つオプションです。

記述子を次の形式で生成: このオプションは、先行のオプションがオンの場合のみ適用されます。

  • コンセプト: 入力テキストから抽出されているかどうかに関係なく、記述子をコンセプトの形式で作成します。
  • パターン: パターンが抽出されているかどうかに関係なく、記述子をパターンの形式で作成します。