ソース・テキストの読み取り
テキスト マイニングのデータは、データベースや、データを行と列で表現する他の「長方形」の形式などの IBM® SPSS® Modeler で使用される標準的な形式、またはこの構造に準拠しない Microsoft Word、Adobe PDF、HTML などのドキュメント形式です。
- Microsoft Word、Microsoft Excel、Microsoft PowerPoint のほか、Adobe PDF、XML、HTML など、標準のデータ構造に従っていないドキュメントのテキストを読み取るために、ファイル・リスト・ノードを使用して、ドキュメントまたはフォルダーのリストをテキスト・マイニングへの入力として生成できます。詳しくは、ファイル・リスト・ノードを参照してください。
- RSS または HTML 形式のブログまたはニュース・フィードなど、Web フィードからテキストを読み取るために、Web フィード・ノードを使用して Web フィード・データをテキスト・マイニング・プロセスの入力用に書式設定できます。詳しくは、Web フィード・ノードを参照してください。
- 顧客のコメント用の 1 つ以上のテキスト フィールドを含むデータベースなど、SPSS Modeler で使用する標準データ形式のテキストを読み取るために、任意の SPSS Modeler 入力ノードを使用できます。詳しくは、SPSS Modeler ノードの資料を参照してください。
- 大量のデータを処理するときに、テキストに複数の言語が存在する可能性がある場合は、言語ノードを使用して、特定のフィールドで使用されている言語を識別してください。詳しくは、言語ノードを参照してください。