テキスト・マイニング・ノード:「エキスパート」タブ

「エキスパート」タブには、テキストの抽出方法および処理方法に影響を与える高度なパラメーターがあります。このダイアログ・ボックスのパラメーターは、抽出プロセスの基本的な操作、そしていくつかの高度な操作を制御します。ただし、使用できるオプションの部分のみを示します。また、抽出結果に影響を与える言語リソースやオプションも数多くあり、「モデル」タブで選択するリソース・テンプレートによって制御します。 詳しくは、テキスト・マイニング・ノード:「モデル」タブのトピックを参照してください。

注: 「モデル」タブで保存されたインタラクティブ ワークベンチ情報に基づいて、「インタラクティブに作成」モードを選択した場合、このタブ全体が無効になります。この場合、抽出設定は、最近保存されたワークベンチ セッションから取得されます。

抽出時には、以下のパラメーターを設定できます。

グローバル頻度が次の値以上のコンセプトに抽出を制限: 抽出するために、単語または句が出現する必要がある最低限の回数を指定します。値に 5 を指定すると、抽出するこれらの単語または句が、レコードまたはドキュメントのセット全体で少なくとも 5 回出現するよう、制限します。

この制約を変更すると、抽出結果、つまり作成されるカテゴリーに大きな違いが生じる場合があります。あるレストランのデータを処理し、このオプションの制約に1より大きい値を設定しないものとします。この場合、抽出結果がピザ (1), 薄いピザ (2), ほうれん草のピザ (2)、および好きなピザ (2) となります。ただし、抽出のグローバル出現頻度を 5 以上に設定して抽出すると、これらのコンセプトのうち 3 つが取得されなくなります。代わりに、ピザが最も簡単な形で、この単語は考えられる候補として既に存在するため、ピザ (7) が取得されます。また、残りのテキストにピザという単語を含む他の句があるかどうかによって、7より大きい出現頻度がある場合があります。また、ほうれん草のピザがカテゴリーの記述子である場合、すべてのレコードをキャプチャーする代わりに、記述子としてピザの追加が必要な場合があります。このため、カテゴリーが既に作成されている場合は、注意してこの制約を変更してください。

これは抽出のみの機能であることに注意してください。 つまり、テンプレートに用語が含まれる場合 (通常そのようになります) でテンプレートの用語がテキスト内で見つかった場合、その用語は頻度に関わらずインデックス付けされます。

例えば、コア・ライブラリーの <Location> タイプに「ロサンゼルス」が含まれている基本リソース・テンプレートを使用するとします。この場合、ドキュメント内での「ロサンゼルス」の出現回数が 1 回だけでも、ロサンゼルスがコンセプト・リストに含まれることになります。これを回避するには、「グローバル頻度が次の値以上のコンセプトに抽出を制限」フィールドに入力された値以上の出現回数を持つコンセプトだけを表示するように、フィルターを設定する必要があります。

句読点エラーを調整: 抽出時に句読点エラー (不適切な使用方法など) を含むテキストを一時的に正規化し、コンセプトの抽出可能性を向上させます。自由記述式アンケートの回答、電子メール、CRM データなど、テキストが短く品質が悪い場合、またはテキストに略語が多く含まれている場合に特に役立ちます。

文字数が次の最小値以上のときにスペルを調整する: Fuzzy Grouping の手法を適用し、共通してミススペルのある単語またはスペルの近い単語を 1 つのコンセプトにグループ化できるようにします。Fuzzy Grouping アルゴリズムでは、最初の母音を除くすべての母音を一時的に抜き取った後抽出した単語から 2 つ/3 つの子音を抜き取り、それらを比較して、それらが同じで modelingmodelling が同じグループに分けられるかどうかを確認します。ただし、各キーワードが <Unknown> タイプを除いて、別のタイプに割り当てられた場合、Fuzzy Grouping 手法は適用されません。

Fuzzy Grouping を使用する前に必要な、語幹文字数の制限を定義することもできます。キーワード内の語幹文字数は、すべての文字を合計し、活用語尾、複合語キーワードの場合は区切り文字および前置詞を形成する文字を差し引いて計算します。例えば、キーワード exercises の語幹文字数は「exercise」という形式で 8 文字と数えられます。語末の s は活用語尾 (複数形) であるためです。同様に、apple sauce の語幹文字は 10 文字 (「apple sauce」)、そして manufacturing of cars の語幹文字は 16 文字 (「manufacturing car」) となります。この算出方法は、Fuzzy Grouping を適用するべきかどうかを確認するためにのみ使用されますが、単語がどのように一致するかについては影響を与えません。

注: 特定の単語が後で不適切にグループ化されていることが分かった場合、「拡張リソース」タブの Fuzzy Grouping: 例外 セクションで 明示的に宣言することによって、単語のペアをこの手法から除外できます。詳しくは、Fuzzy Groupingのトピックを参照してください。

ユニタームを抽出 単語が複合語の一部でない限り、または名詞、またはスピーチ内の認識できない品詞である場合、このオプションは単一の単語 (ユニターム) を抽出します。

固有表現を抽出 電話番号、セキュリティー番号、時間、日付、通貨、数字、パーセント、電子メールアドレス、HTTP アドレスなどの固有表現を抽出します。「拡張リソース」タブの 「固有表現: 設定」 セクションで、特定の種類の固有表現を追加したり除外したりできます。不要な固有表現を無効にすることにより、抽出エンジンは処理時間を節約できます。詳しくは、構成のトピックを参照してください。

大文字アルゴリズム キーワードの最初の文字が大文字である場合、組み込み辞書にない単純キーワードおよび複合キーワードを抽出します。このオプションには、最も適切な名詞を抽出するのに優れた方法があります。

可能な場合は、個人名の一部または全部をグループ化 テキスト内で別々の形式で同時に出現する名前をグループ化します。名前はテキストの始めでは完全な形式で、後は短い形式でのみ参照されるため、この機能が役立ちます。このオプションでは、タイプが <Unknown> のユニタームが、タイプ <Person> の複合キーワードの最後の単語に一致するようにします。例えば、doe があり、最初タイプが <Unknown> である場合、抽出エンジンは、<Person> タイプの複合キーワードに最後の単語として doe が含まれているかどうか (例: john doe) を確認します。ほとんどがユニタームとして抽出されることがないため、人の名前に適用されることはありません。

機能語による倒置を次の値を最大値として考慮する 倒置手法を適用する場合に指定されている場合がある非機能的単語の最大数を指定します。この倒置手法では、活用語尾に関係なく、含まれる非機能的単語 (of や the など) によってお互いに異なる類似した句をグループ化します。例えば、この値を最大 2 単語に設定し、company officials および officials of the company が抽出されたとします。この場合、両方の抽出キーワードは、of the が無視されると同じであるとみなされるため、最終コンセプト・リストに共にグループ化されます。

マルチタームをグループ化するときに派生関係を使用: ビッグデータを処理するときにこのオプションを選択すると、派生規則を使用してマルチタームがグループ化されます。

注: テキスト リンク分析結果の抽出を有効にするには、「テキスト リンク分析 (TLA) 結果を探索」オプションでセッションを開始する必要があります。また、TLA 定義を含むリソースを選択する必要があります。「抽出設定」ダイアログで、インタラクティブ・ワークベンチ・セッション中に後から TLA 結果を抽出できます。 詳しくは、データの抽出のトピックを参照してください。