语言资源

SPSS Modeler 采用一种依赖语言资源的提取过程。 这些语言资源构成了处理文本数据、提取信息以获取概念、类型及某些模式的基础。

语言资源可分为不同类型:

类别集
类别是通过评分过程将文本数据分配到的一组密切相关的概念和模式。
库用作 TAP 和模板的构建块。 每个词库由多个词典组成,这些词典用于定义和管理术语、同义词以及排除列表。 在还单独交付库时,库将与模板和 TAP 预先打包在一起。
模板
模板由一组库以及一些高级语言和非语言资源构成。 这些资源构成一个专业化的集合,适用于特定领域或语境,例如产品评论。
文本分析软件包(TAP)
文本分析包是一种预定义模板,其中包含一个或多个类别集。 TAPs 将这些资源打包,使得用于生成它们的类别和资源得以共同存储并可重复利用。 随后,您可以重复使用一个TAP,将相同的类别和资源应用于其他数据流。
注: 在提取过程中,也会使用一些编译后的内部语言资源。 这些汇编资源包含许多定义,它们与核心库中的类型相辅相成。 这些已编译的资源不可编辑。

定制语言资源

SPSS Modeler 具有一组默认的专用语言资源。 您可以利用这些语言资源,从针对特定语言和特定应用的研究与优化中获益。 然而,这些语言资源可能并不适合您的具体情境或数据。 您可以编辑并保存对这些语言资源的修改,以优化流程的提取过程。

您还可以创建并导入定制语言资源,这些资源经过独特优化,专为贵组织的特定数据量身定制。 您可以使用本地文件在用户和项目之间共享这些语言资源。 您可以从本地文件中添加模板、库或TAP作为项目资源。