关于文本挖掘

目前,越来越多的信息以非结构化和半结构化格式进行保存,例如,客户电子邮件、呼叫中心通知、开放式调查响应、新闻订阅源和 Web 表单等。产生的此类大量信息为很多组织带来问题:可如何收集、研究和利用此信息?

文本挖掘是一个分析文本材料集合的过程,用于捕获关键概念和主题,以及发现隐藏的关系和趋势,而无需知道作者用于表示这些概念的精确单词或术语。尽管存在很大差别,但有时也会将文本挖掘与信息检索混淆。虽然精确检索和存储信息具有很大挑战,但抽取和管理信息中包含的质量内容、术语和关系至关重要。

文本挖掘和数据挖掘

针对每篇包含文本的文章,基于语言的文本挖掘会返回概念索引以及有关这些概念的信息。可以将此提取的结构化信息与其他数据源组合使用来解决以下问题:

  • 哪些概念会一起出现?
  • 这些概念还链接到哪些对象?
  • 可以从抽取的信息建立哪些更高级别的类别?
  • 概念或类别预测哪些事项?
  • 概念或类别如何预测行为?

将文本挖掘与数据挖掘组合比单独使用结构化或非结构化数据提供更深入的洞察力。通常,此过程包含以下步骤:

  1. 识别要挖掘的文本。 准备要挖掘的文本。如果文本存在于多个文件中,请将文件保存到单个位置。针对数据库,确定包含文本的字段。
  2. 挖掘文本并抽取结构化数据。 将文本挖掘算法应用于源文本。
  3. 构建概念和类别模型。 识别关键概念和/或创建类别。通常,将从非结构化数据返回大量概念。识别要评分的基本概念和类别。
  4. 分析结构化数据。 利用传统数据挖掘方法(例如,集群、分类和预测建模)发现概念之间的关系。将抽取的概念与其他结构化数据进行合并,以根据概念预测将来行为。

文本分析和分类

文本分析是一种量性分析,用于从文本抽取有用信息,以将此文本中包含的关键构想或概念分组到相应数目的类别。 可以针对所有类型和长度的文本执行文本分析,但分析的方法在某种程度上会有所不同。

较短的记录或文档最容易进行分类,因为它们不那么复杂,通常包含的意思模糊的单词或响应较少。例如,针对较短的开放式调查问题,如果我们要相关人员列出其三个偏好的假期活动,可能会希望看到很多较短的答案,例如,海滩度假国家公园度假不进行什么活动。 另一方面,较长的开放式响应可能很复杂和冗长,尤其是在响应者受过良好教育,主动且具有足够时间来完成调查表时。如果我们要相关人员在调查中告知其政治信仰或具有有关政治的博客订阅源,那么可能希望获得一些较长的有关所有种类问题和立场的注释。

使用 IBM® SPSS® Modeler Text Analytics 的一个关键优势是,可以在较短的时间段内从这些较长的文本源抽取关键概念和创建有洞察力的类别。 通过使用自动化语言和统计方法的组合,以针对每个文本分析过程阶段获取最可靠的结果,从而利用此优势。

语言处理和 NLP

管理所有此类非结构化文本数据的主要问题在于,没有针对编写文本提供计算机可进行理解的标准规则。针对每个文档和每个文本部分,语言以及随之而来的含义都有所不同。唯一正确检索和识别此类非结构化数据的方法是,分析语言从而了解其含义。提供了多种不同自动化方法来从非结构化信息抽取概念。这些方法可划分为两种类型:语言和非语言。

一些组织已尝试根据统计和神经网络利用自动化非语言解决方案。相比人工阅读,使用计算机技术时,这些解决方案可更快速地扫描和分类关键概念。但是,此类解决方案将没那么精确。多数基于统计信息的系统仅需计算单词的出现次数以及计算其与相关概念的统计近似值。这将生成很多不相关的结果或过于杂乱,且会丢失应该找到的结果(这称为静默)。

为了补偿其在精确度方面的缺陷,一些解决方案利用可帮助区分相关结果和不相关结果的复杂非语言规则。这称为基于规则的文本挖掘

另一方面,基于语言的文本挖掘将自然语言处理 (NLP)(对人类语言的计算机辅助分析)的原则应用于单词、短语、语法或文本结构的分析。利用 NLP 的系统可智能抽取概念(包括复合短语)。 而且,对基础语言的了解可实现通过使用含义和上下文,将概念分类为相关组(例如,产品、组织或人员)。

基于语言的文本挖掘可模拟相关人员行为,通过将不同单词形式识别为具有相似含义以及分析句子结构来提供理解文本的框架,从而了解文本中具有的含义。针对基于统计信息的系统,此方法加快了速度,提高了成本效益,同时提供了更高的准确度,需要的人工干预也少很多。

要说明抽取过程期间基于统计信息和基于语言的方法之间的差异,请考虑每种方法响应有关 reproduction of documents 的查询的方式。基于统计信息的解决方案和基于语言的解决方案将必须扩展单词 reproduction 以包含同义词,例如,copyduplication。否则,将忽略相关信息。但是,如果基于统计信息的解决方案尝试执行此类同义词操作(即,搜索具有相同含义的其他术语),那么还可能会包含术语 birth,同时生成很多不相关的结果。对于语言的理解可降低文本模糊性,通过定义使基于语言的文本挖掘方法更加可靠。

理解抽取过程如何工作可帮助您在微调语言资源(库、类型和同义词等)时作出关键决策。抽取过程中会执行以下步骤:

  • 将源数据转换为标准格式
  • 识别候选术语
  • 识别等效类和同义词整合
  • 分配类型
  • 建立索引,在请求时,使用辅助分析器执行模式匹配

步骤 1. 将源数据转换为标准格式

在此第一个步骤中,导入的数据将转换为可用于将来分析的统一格式。此转换在内部执行,不会更改原始数据。

步骤 2. 识别候选术语

理解语言资源的角色对于在语言抽取期间识别候选术语很重要。 每次执行抽取时,都会使用语言资源。这些资源以模板、库和编译资源的形式存在。 库包含单词、关系和其他用于指定或调整抽取的信息的列表。无法查看或编辑编译资源。但是,其余资源可模板编辑器中编辑,或者如果您在互动式工作台会话中也可以编辑这些资源资源编辑器中编辑。

编译资源为 IBM SPSS Modeler Text Analytics 中抽取引擎的核心内部组件。 这些资源包括一个常规字典,其中包含具有词类代码(名词、动词和形容词等)的基本形式的列表。

除了这些编译资源,本产品还提供了多个库,可用于补充编译资源中的类型和概念定义以及提供同义词。这些库以及任何您创建的定制库由多个字典组成。这些字典包括类型字典、同义词字典和排除字典。

导入和转换数据后,抽取引擎将开始识别要抽取的候选术语。候选术语是用于识别文本中概念的单词或一组单词。处理文本期间,将使用词类模式抽取器识别单个单词(单术语)和复合单词(多术语)。之后,会使用感知文本链接分析识别候选感知关键字。

注: 先前提及的常规编译字典中的术语表示可能无用地或在语言上模糊为单术语的所有单词列表。 识别单术语时会从抽取排除这些单词。但是,确定词类或查看较长的候选复合词(多术语)时,会对其进行重新评估。

步骤 3. 识别等效类和同义词整合

识别候选单术语和多术语后,软件会使用标准化字典来识别等效类。等效类是短语的基本形式或相同短语的两个变体的单一形式。将短语分配给等效类是为了确保不会将诸如 side effect副作用的词视为单独概念。 要确定哪个概念用于等效类(即,将 side effect 还是副作用视为引导术语),抽取引擎会按列出的顺序应用以下规则:

  • 库中用户指定的形式。
  • 预编译资源所定义的最常见形式。

步骤 4. 分配类型

接下来,会将类型分配给抽取的概念。类型为概念的语义分组。将在此步骤中同时使用编译资源和库。类型为更高级别的概念、肯定词和否定词、名字、位置和组织等。请参阅主题类型字典,以获取更多信息。

语言系统具有知识敏感性,其字典中包含的信息越多,结果质量也就越高。修改字典内容(例如,同义词定义)可简化生成的信息。这通常是一个执行精确概念检索时所需的迭代式过程。 NLP 是 IBM SPSS Modeler Text Analytics 的核心元素。