挖掘概念和类别

“文本挖掘”节点使用语言和频率技术来从文本中抽取关键概念,并使用这些概念和其他数据创建类别。 使用此节点来浏览文本数据内容或生成概念模型块或类别模型块。

文本挖掘节点
运行此建模节点时,内部语言抽取引擎使用自然语言处理方法来抽取和组织概念、模式和/或类别。 文本挖掘节点的属性中提供了两种构建模式:
  • 当您运行节点时, 直接生成(概念模型核心 )模式会自动生成概念模型或类别模型核心。
  • 或者,您可以使用交互式构建(类别模型核心)模式 ,这是一种更注重实践和探索的方法,您不仅可以提取概念、创建类别并完善您的语言资源,还可以执行文本链接分析和探索集群。 这种构建模式会启动文本分析工作台。

需求。 文本挖掘建模节点接受来自导入节点的文本数据。

使用“文本挖掘”节点生成两个文本挖掘模型块之一:

  • 概念模型块:显示并抽取来自结构化和非结构化文本数据的重要概念。
  • 类别模型块:对文档和记录进行评分并将其分配到由抽取的概念(和模式)组成的类别中。

这些从模型块抽取的概念、模式和类别都可与现有结构化数据(例如,人口统计信息)组合使用,以做出更好、更侧重于重点的决策。 例如,如果客户经常将登录问题列为完成在线帐户管理任务的主要障碍,那么您可能希望将“登录问题”并入您的模型中。

在“文本分析”中,我们经常会引用抽取的概念和类别。 理解概念和类别的意义很重要,因为它们可帮助您在进行研究性工作和构建模型时作出更明智的决策。

概念和概念模型块

在抽取过程中,将扫描和分析文本数据以识别感兴趣或相关的单个词(例如,electionpeace)以及词组(例如,presidential electionelection of the presidentpeace treaties)。 这些单词和短语通称为术语。 使用语言资源,抽取相关术语,且会将相似术语分组在称为概念的前导术语下。

通过此方式,根据文本和您正使用的一组语言资源,概念可表示多个底层术语。 例如,假设我们开展员工满意度调查,并且已抽取概念 salary。 假设您在查看了与 salary 关联的记录时,注意到 salary 未始终显示在文本中,而是显示了包含某些相似内容的记录,例如,术语 wagewagessalaries。 这些术语分组在 salary 下,因为抽取引擎根据处理规则或语言资源将其视为相似或确定其为同义词。 在此情况下,包含任何这些术语的文档或记录都将被视为包含单词 salary

如果您想查看某个概念下有哪些术语,可以在文本分析工作台(Text Analytics Workbench)中探索该概念,或者查看概念模型中显示了哪些同义词。

概念模型块包含一组概念,可用于识别也包含该概念的记录或文档(包括其任何同义词或分组术语)。 可以通过两种方式使用概念模型。 第一种方式是浏览和分析在原始源文本中发现的概念,或快速识别相关文档。 第二种方式是将此模型应用到新的文本记录或文档,以快速识别新文档/记录中的相同关键概念,例如,实时从呼叫中心发现便签式数据中的关键概念。

类别和类别模型块

您可以创建类别,这些类别实质上表示用于捕获以文本表示的关键构想、知识和看法的较高级别概念或主题。 类别由一组描述符组成,例如,概念类型规则。 这些描述符一起用于识别记录或文档是否属于给定类别。 可以扫描文档或记录以查看其任何文本是否匹配描述符。 如果找到匹配项,那么会将文档/记录分配给此类别。 该过程称为分类

类别可以使用 SPSS Modeler 强大的自动化技术自动生成,也可以根据您对数据的额外见解手动生成,或者两者结合。 还可以通过此节点的“模型”设置从文本分析包装入一组预构建的类别。 只能通过文本分析工作台手动创建或细化类别。

类别模型块包含一组类别及其描述符。 可使用模型来基于每个文档/记录中的文本分类一组文档或记录。 将读取每个文档或记录,然后将其分配到找到了描述符匹配的每个类别。 通过此方式,可以将文档或记录分配给多个类别。 例如,您可使用类别模型块来查看开放式调研回复或一组博客条目中的关键构想。