データの抽出
抽出が必要な場合、抽出結果ペインが黄色で表示され、メッセージ「抽出ボタンをクリックしてキーワードを抽出してください」 というメッセージが、このウィドウ枠のツールバーの下に表示されます。
抽出結果がない場合、言語リソースに変更を行い抽出結果を更新する必要がない場合、または抽出結果を保存していない セッションを開く場合は、抽出が必要な場合があります ()。
抽出実行中には進行状況が表示されます。抽出している間、抽出エンジンはテキスト・データをすべて読み込み、関連キーワードおよびパターンを特定し、それらを抽出して、タイプに割り当てます。そして、エンジンは、1 つの主要なキーワード、コンセプトに類義語のキーワードをグループ化します。プロセスが完了すると、生成されたコンセプト、タイプ、パターンが抽出結果ペインに表示されます。
抽出プロセスにより、一連のコンセプト、タイプ、そして有効な場合はテキスト リンク分析 (TLA) パターンが作成されます。カテゴリーとコンセプト・ビューの抽出結果ペインでこれらのコンセプトおよびタイプを表示および処理できます。TLA パターンを抽出した場合、これらはテキスト リンク分析ビューにされます。
データを抽出するには
- メニューのを選択します。または、「抽出」 ツールバー・ボタンをクリックします。
- 「抽出設定」ダイアログの表示を選択すると必ず、ダイアログが表示され、変更を行うことができます。各設定の記述子については、このトピックの後半を参照してください。
- 「抽出」 をクリックして、抽出プロセスを開始します。抽出が始まると、進捗状況のダイアログ・ボックスが表示されます。抽出後、結果が「抽出結果」ウィンドウに表示されます。デフォルトでは、ドキュメント数 (「ドキュメント」列) に従って、降順で並べられます。
ツールバー・オプションを使用して結果を確認し、結果を並べ替える、結果を絞り込む、または異なるビュー (コンセプト、またはタイプ) に切り替えることができます。言語リソースを処理して、抽出結果を調整することもできます。 詳しくは、抽出結果の調整のトピックを参照してください。
抽出時に発生する可能性がある問題
複数のインタラクティブ ワークベンチ セッションを使用すると、動作が遅くなる可能性があります。SPSS® Modeler Text Analytics および SPSS Modeler は、インタラクティブ ワークベンチ セッションを起動するときに共通の Java ランタイム エンジンを共有します。SPSS Modeler セッション中に起動するインタラクティブ ワークベンチ セッションの数によっては、同じセッションを開いた後に閉じる場合であっても、システム メモリーのためにアプリケーションの動作が遅くなることがあります。大量のデータを処理する場合や、推奨 RAM 設定 (4 GB) に満たないマシンを使用する場合は、この影響が特に顕著になることがあります。マシンの応答が遅いと感じる場合は、すべての作業を保存して SPSS Modeler をシャットダウンし、アプリケーションを再起動することをお勧めします。推奨メモリー未満のマシンで SPSS Modeler Text Analytics を実行すると、特に大規模なデータ・セットを処理する場合や長時間にわたって作業する場合に、Java のメモリーが不足してシャットダウンしてしまうことがあります。大量のデータを処理する場合は、推奨メモリー設定以上にアップグレードする (または SPSS Modeler Text Analytics Server を使用する) ことを強くお勧めします。
オランダ語、英語、フランス語、ドイツ語、イタリア語、ポルトガル語、スペイン語のテキストの場合
「抽出設定」ダイアログ・ボックスには、基本的な抽出オプションがいくつか表示されます。
テキスト リンク分析のパターン抽出を有効にする: テキスト・データから TLA パターンを抽出するよう指定します。また、リソース・エディターのいずれかのライブラリーに TLA パターン規則があることも想定します。このオプションを指定すると、抽出時間が大幅に長くなります。 詳しくは、テキスト リンク分析の検証のトピックを参照してください。
句読点エラーを調整: 抽出時に句読点エラー (不適切な使用方法など) を含むテキストを一時的に正規化し、コンセプトの抽出可能性を向上させます。自由記述式アンケートの回答、電子メール、CRM データなど、テキストが短く品質が悪い場合、またはテキストに略語が多く含まれている場合に特に役立ちます。
文字数が次の最小値以上のときにスペルを調整する: Fuzzy Grouping の手法を適用し、共通してミススペルのある単語またはスペルの近い単語を 1 つのコンセプトにグループ化できるようにします。Fuzzy Grouping アルゴリズムでは、最初の母音を除くすべての母音を一時的に抜き取った後抽出した単語から 2 つ/3 つの子音を抜き取り、それらを比較して、それらが同じで modeling と modelling が同じグループに分けられるかどうかを確認します。ただし、各キーワードが <Unknown> タイプを除いて、別のタイプに割り当てられた場合、Fuzzy Grouping 手法は適用されません。
Fuzzy Grouping を使用する前に必要な、語幹文字数の制限を定義することもできます。キーワード内の語幹文字数は、すべての文字を合計し、活用語尾、複合語キーワードの場合は区切り文字および前置詞を形成する文字を差し引いて計算します。例えば、キーワード exercises の語幹文字数は「exercise」という形式で 8 文字と数えられます。語末の s は活用語尾 (複数形) であるためです。同様に、apple sauce の語幹文字は 10 文字 (「apple sauce」)、そして manufacturing of cars の語幹文字は 16 文字 (「manufacturing car」) となります。この算出方法は、Fuzzy Grouping を適用するべきかどうかを確認するためにのみ使用されますが、単語がどのように一致するかについては影響を与えません。
ユニタームを抽出 単語が複合語の一部でない限り、または名詞、またはスピーチ内の認識できない品詞である場合、このオプションは単一の単語 (ユニターム) を抽出します。
固有表現を抽出 電話番号、セキュリティー番号、時間、日付、通貨、数字、パーセント、電子メールアドレス、HTTP アドレスなどの固有表現を抽出します。「拡張リソース」タブの 「固有表現: 設定」 セクションで、特定の種類の固有表現を追加したり除外したりできます。不要な固有表現を無効にすることにより、抽出エンジンは処理時間を節約できます。詳しくは、構成のトピックを参照してください。
大文字アルゴリズム キーワードの最初の文字が大文字である場合、組み込み辞書にない単純キーワードおよび複合キーワードを抽出します。このオプションには、最も適切な名詞を抽出するのに優れた方法があります。
可能な場合は、個人名の一部または全部をグループ化 テキスト内で別々の形式で同時に出現する名前をグループ化します。名前はテキストの始めでは完全な形式で、後は短い形式でのみ参照されるため、この機能が役立ちます。このオプションでは、タイプが <Unknown> のユニタームが、タイプ <Person> の複合キーワードの最後の単語に一致するようにします。例えば、doe があり、最初タイプが <Unknown> である場合、抽出エンジンは、<Person> タイプの複合キーワードに最後の単語として doe が含まれているかどうか (例: john doe) を確認します。ほとんどがユニタームとして抽出されることがないため、人の名前に適用されることはありません。
機能語による倒置を次の値を最大値として考慮する 倒置手法を適用する場合に指定されている場合がある非機能的単語の最大数を指定します。この倒置手法では、活用語尾に関係なく、含まれる非機能的単語 (of や the など) によってお互いに異なる類似した句をグループ化します。例えば、この値を最大 2 単語に設定し、company officials および officials of the company が抽出されたとします。この場合、両方の抽出キーワードは、of the が無視されると同じであるとみなされるため、最終コンセプト・リストに共にグループ化されます。
マルチタームをグループ化するときに派生関係を使用: ビッグデータを処理するときにこのオプションを選択すると、派生規則を使用してマルチタームがグループ化されます。
コンセプト・マップのインデックス・オプション コンセプト・マップを後ですぐに描画できるよう、抽出時間にマップの指標を作成することを指定します。インデックスの設定を編集するには、「設定」 をクリックします。 詳しくは、コンセプト・マップ・インデックスの作成のトピックを参照してください。
抽出前に常にこのダイアログ・ボックスを表示する:「ツール」メニューを選択しない限り表示したくない場合、抽出ごとに「抽出設定」ダイアログを表示するかどうか、または抽出設定を編集する場合、抽出ごとに表示するかどうかを尋ねるかどうかを指定します。