挖掘概念和类别
“文本挖掘”建模节点用于生成以下两种文本挖掘模型块之一:
- 概念模型块:显示屏抽取来自结构化和非结构化文本数据的重要概念。
- 类别模型块:对文档和记录进行评分并将其分配到由抽取的概念(和模式)组成的类别中。
抽取的概念和类别可与现有结构化数据(例如人口统计学)进行组合,并且可用于借助 IBM® SPSS® Modeler 的一整套数据挖掘工具来进行建模,以此实现更好更集中的决策。例如,如果客户频繁将登录问题列为完成联机帐户管理任务的主要障碍,那么您可能会希望将“登录问题”合并到模型。
此外,文本挖掘建模节点在 IBM SPSS Modeler 中完全集成,以便您可通过 IBM SPSS Modeler Solution Publisher 部署文本挖掘流,从而实现对应用程序(例如,PredictiveCallCenter)中非结构化数据进行实时评分。 能够部署这些流可确保成功对文本挖掘实现进行闭合循环。例如,您的组织现在可通过应用预测模型分析入站或出站调用者的便签式注释,来实时增强市场营销消息的准确性。使用文本挖掘模型使流实现改善预测数据模型的准确性。
要将 IBM SPSS Modeler Text Analytics 与 IBM SPSS Modeler Solution Publisher 一起运行,请将目录 <install_directory>/ext/bin/spss.TMWBServer 添加到 $LD_LIBRARY_PATH 环境变量。
在 IBM SPSS Modeler Text Analytics 中,我们经常参考抽取的概念和类别。理解概念和类别的意义很重要,因为它们可帮助您在进行说明性工作和构建模型时作出更明智的决策。
概念和概念模型块
抽取过程期间,会扫描和分析文本数据以识别感兴趣或相关单个字(例如 election 或 peace)和短语(例如,presidential election、election of the president 或 peace treaties)。这些字和短语统一称为术语。使用语言资源,抽取相关术语,且会将相似术语分组在称为概念的前导术语下。
通过此方式,根据文本和您正使用的一组语言资源,概念可表示多个底层术语。例如,假设具有一份员工满意度调查,且抽取了概念 salary。假设您在查看了与 salary 关联的记录时,注意到 salary 未始终显示在文本中,而是显示了包含某些相似内容的记录,例如,术语 wage、wages 和 salaries。这些术语分组在 salary 下,因为抽取引擎根据处理规则或语言资源将其视为相似或确定其为同义词。在此情况下,包含任何这些术语的任何文档或记录将被视为其包含了单词 salary。
如果您希望了解哪些术语分组在概念下,那么可浏览交互式工作台中的概念,或查看概念模型中显示了哪些同义词。请参阅概念模型中的底层术语主题以获取更多信息。
概念模型块包含一组可用于识别也包含了概念(包括其任何同义词或分组的术语)的记录或文档的概念。可以通过两种方式使用概念模型。第一种方式是浏览和分析在原始源文本中发现的概念,或快速识别相关文档。 第二种方式是将此模型应用到新的文本记录或文档,以快速识别新文档/记录中的相同关键概念,例如,实时从呼叫中心发现便签式数据中的关键概念。
请参阅文本挖掘块:概念模型主题以获取更多信息。
类别和类别模型块
您可以创建类别,这些类别实质上表示用于捕获以文本表示的关键构想、知识和看法的较高级别概念或主题。类别由一组描述符(例如,概念、类型和规则)组成。这些描述符一起用于识别记录或文档是否属于给定类别。可以扫描文档或记录以查看其任何文本是否匹配描述符。如果找到匹配项,那么会向此类别分配文档/记录。该过程称为分类。
可以使用产品的一组成熟自动化技术自动构建类别,或手动使用您可能具有的有关数据的其他了解来构建类别,或同时使用这两种方式。您还可以通过此节点的“模型”选项卡从文本分析软件包装入一组预构建类别。仅可通过交互式工作台手动创建类别或优化类别。请参阅“文本挖掘”节点:“模型”选项卡主题以获取更多信息。
类别模型块包含一组类别及其描述符。可使用模型来基于每个文档/记录中的文本分类一组文档或记录。将读取每个文档或记录,然后将其分配到找到了描述符匹配的每个类别。 通过此方式,可以将文档或记录分配给多个类别。例如,您可使用类别模型块来查看开放式调查响应或一组博客条目中的关键构想。
请参阅文本挖掘块:类别模型主题以获取更多信息。