使用文本分析包
文本分析包(也称为 TAP)用作文本响应分类的模板,使用 TAP 可轻松对文本数据进行分类,同时最大程度减少干预,这是因为 TAP 包含快速、自动对大量记录进行编码所需的预构建类别集和语言资源。使用语言资源,文本数据可得以分析和挖掘,从而抽取关键概念。根据文本中发现的关键概念和模式,可以将记录分类到在 TAP 中所选的类别集。您可以创建自己的 TAP 或更新 TAP。
TAP 包含以下元素:
- 类别集。类别集基本上包含预定义类别、类别代码、每个类别的描述符以及整个类别集的名称。描述符为语言元素(概念、类型、模式和规则),例如,术语 cheap 或模式 good price。描述符用于定义类别,以便在文本匹配任何类别描述符时,将文档或记录放入类别中。
- 语言资源。语言资源是一组库和高级资源,这些库和高级资源经过调整以抽取关键概念和模式。而这些抽取概念和模式用作将记录放入类别集中类别的描述符。
可使用文本分析包执行以下任务。
- 创建文本分析包。请参阅生成文本分析包以获取更多信息。
- 装入文本分析包。或者,您可装入 SPSS® Text Analytics for Surveys 项目 (.tas),此项目将转换为文本分析包。请参阅装入文本分析包以获取更多信息。
- 更新文本分析包。请参阅更新文本分析包以获取更多信息。
选择 TAP 并选择类别集后, SPSS Modeler Text Analytics 可抽取和分类记录。
注: 可创建 TAP 并可在 SPSS Text Analytics for Surveys 和 SPSS Modeler Text Analytics 之间交换使用。但是,请注意,SPSS Modeler Text Analytics 中的评分规则可能有所不同,具体取决于是否直接从 SPSS Modeler Text Analytics 装入文本分析包 (TAP),或者从 IBM® SPSS Text Analytics for Surveys 装入 TAP。我们建议您使用 SPSS Modeler Text Analytics 中制作的 TAP;这是因为 IBM SPSS Text Analytics for Surveys 中制作的 TAP 可能是使用不同版本的语言资源创建的。