抽取数据

无论何时需要执行抽取,“抽取结果”窗格都会变为黄色,且会在此窗格中工具栏下方显示消息按“抽取”按钮以抽取概念

在以下情况下可能会需要抽取:尚不具有任何抽取结果,已更改语言资源,需要更新抽取结果或已打开会话 (在其中未保存抽取结果(工具 > 选项)。

注: 如果在使用使用会话工作... 选项高速缓存抽取结果后更改流的源代码,那么要获取更新的抽取结果,将需要在启动交互式工作台会话后运行新抽取。

运行抽取时,会显示一个进度指示符,以提供抽取状态的反馈。此时间段期间,抽取引擎会读取所有文本数据,并识别和抽取相关术语和模式,将这些术语和模式分配给类型。然后,引擎会尝试在一个称为概念的引导术语下分组同义词术语。完成此过程时,会在“抽取结果”窗格中显示生成的概念、类型和模式。

提取过程生成一组概念和类型,以及文本链接分析 (TLA) 模式(如果启用)。 您可以在“类别和概念”视图的“抽取结果”窗格中查看和使用这些概念和类型。如果已抽取 TLA 模式,那么可在“文本链接分析”视图中看到这些模式。

注: 数据集大小与完成提取过程所用时间有关。您始终可以考虑插入样本节点上游或优化您机器的配置。

抽取数据

  1. 从菜单中选择工具 > 抽取。或者单击抽取工具栏按钮。
  2. 如果选择始终显示“抽取设置”对话框,那么会显示此对话框以便您可进行任何更改。请参阅此主题中更多信息以了解每个设置的描述符。
  3. 单击抽取以启动抽取过程。在提取开始时,进度对话框将打开。抽取后,会在“抽取结果”窗格中显示结果。缺省情况下,概念显示为小写,并根据文档计数(文档列)按降序排序。

您可以使用工具栏选项查看结果,以通过不同方式对结果进行排序、过滤结果或切换到其他视图(概念或类型)。您还可通过使用语言资源优化抽取结果。请参阅主题优化抽取结果,以获取更多信息。

潜在抽取问题

多个交互式工作台会话可导致缓慢行为。启动交互式工作台会话时,SPSS® Modeler Text AnalyticsSPSS Modeler 共享公共 Java 运行时引擎。 根据您在 SPSS Modeler 会话期间调用的交互式工作台会话数量,系统内存可能导致应用程序变得缓慢(即使打开和关闭同一会话)。如果您正在处理大量数据或使用的机器低于建议的 RAM 设置 4 GB,那么此效果可能会特别明显。 如果您注意到您的机器响应缓慢,那么建议保存所有工作,关闭 SPSS Modeler,并重新启动应用程序。在低于建议的内存的机器上运行 SPSS Modeler Text Analytics,尤其是处理大量数据集或持续很久的时间时,可能导致 Java 耗尽内存并关闭。处理大量数据时,强烈建议您升级到建议的内存设置或更大内存(或使用 SPSS Modeler Text Analytics 服务器)。

针对荷兰语、英语、法语、德语、意大利语、葡萄牙语和西班牙语文本

“抽取设置”对话框包含一些基本抽取选项。

启用“文本链接分析”模式抽取。 指定希望从文本数据抽取 TLA 模式。它还假定您在资源编辑器中其中一个库中具有 TLA 模式规则。此选项可极大地缩短抽取时间。请参阅主题探索文本链接分析,以获取更多信息。

调整标点错误。 此选项可在抽取期间临时标准化包含标点错误的文本(例如,不正确使用),以改善概念的可抽取性。当文本很短且质量不佳(例如,在开放式调查响应、电子邮件和 CRM 数据中)时,或文本包含很多缩略词时,此选项非常有用。

调整最小单词字符长度为 [n] 的拼写此选项适用于模糊分组方法,此方法可帮助将普遍拼写有误的单词或拼写接近的单词分组到一个概念下。模糊分组算法临时删除抽取单词中的所有元音(除了第一个元音)和出现的二重/三重辅音,然后进行比较,以查看它们是否相同,以便 modelingmodelling 分组到一起。但是,如果每个术语分配给不同类型(除了 <Unknown> 类型),那么不会应用模糊分组方法。

您还可先优化最少数目的所需字符,再使用模糊分组。术语中根字符数通过对所有字符相加减去形成屈折变化后缀的任何字符数以及(使用复合单词术语的情况下)限定词和介词数计算得出。例如,术语 exercises 将计算为 8 个根字符(形式为“exercise”),因为字母单词末尾的 s 是屈折变化形式(复数形式)。相似地,apple sauce 将计算为 10 个根字符(“apple sauce”,manufacturing of cars 将计算为 16 个根字符(“manufacturing car”)此计数方法仅用于检查是否应该应用模糊分组,但不会影响匹配单词的方式。

注: 如果发现某些单词之后分组不正确,那么可通过在“高级资源”选项卡中的模糊分组:异常中显式进行声明来从此方法排除单词对。请参阅主题模糊分组,以获取更多信息。

抽取单术语此选项用于抽取单个单词(单术语),前提是此单词不属于复合单词的一部分,且其为名词或语音的不可识别部分。

抽取非语言实体此选项用于抽取非语言实体,例如,电话号码、社保号、时间、日期、货币、数字、百分比、电子邮件地址和 HTTP 地址。您可以在“高级资源”选项卡中的非语言实体:配置部分中包含或排除某些类型的非语言实体。通过禁用任何不需要的实体,抽取引擎不会浪费处理时间。请参阅主题配置,以获取更多信息。

大写算法此选项用于抽取内置字典中不存在的简单和复合术语,前提是术语的第一个字母为大写。此选项提供了一种很好的方式来抽取大部分正确的名词。

尽可能将部分和完整人员姓名分组在一起此选项用于将在文本中显示不同的姓名分组在一起。由于通常在文本开头部分通过全名指代姓名,而之后通过较短的版本指代姓名,因此,此功能会很有帮助。此选项尝试将类型为 <Unknown> 的任何单术语与类型为 <Person> 的任何复合术语的最后一个单词匹配。例如,如果发现了 doe 且其最初类型为 <Unknown>,那么抽取引擎会检查以了解 <Person> 类型中的任何复合术语是否将 doe 作为最后一个单词包含,例如,john doe。此选项不适用于名字,因为大多数名字永不会抽取为单术语。

最大非功能单词排列此选项指定应用排列方法时可显示的非功能单词的最大数目。此排列方法将仅包含的非功能单词(例如,of 和 the)不同(不考虑屈折变化)的相似短语分组在一起。例如,假设将此值设置为最多两个单词,且抽取了 company officialsofficials of the company。 在此情况下,这两个抽取的术语将在最终概念列表中分组在一起,因为在忽略 of the 时,这两个术语视为相同。

分组多个术语时使用派生处理大数据时,选择此选项以使用派生规则来分组多个术语。

概念地图的索引选项:指定希望在抽取时构建地图索引,以便稍后可以快速绘制概念地图。要编辑索引设置,请单击设置。 请参阅主题构建概念映射索引,以获取更多信息。

在开始抽取之前始终显示此对话框指定是否要在每次抽取时看到“抽取设置”对话框,如果您不想看到“抽取设置”对话框,除非您转到“工具”菜单,或指定是否要在每次提取时询问是否要编辑任何抽取设置。