提取模式

在从文档提取信息时,提取引擎将一组词性提取模式应用于上下文中字的“堆栈”,以识别提取的候选术语(字和短语)。 您可以添加或修改提取模式。

词性包括语法元素,例如,名词、形容词、过去分词、限定词、介词、连词、名、缩写和虚词。这一系列元素构成词性提取模式。在 IBM® Corp. 文本挖掘产品中,每个词性都由单个字符表示,从而更易于定义您的模式。例如,小写字母 a 表示形容词。缺省情况下,支持的代码集在每个缺省提取模式部分的顶部显示,并随附一组模式和每个模式的示例,以帮助您了解使用的每个代码。

格式化提取模式的规则

  • 每行一个模式。
  • 在行的开头使用 # 来禁用模式。

列出的提取模式的顺序非常重要,因为提取引擎仅读取指定的字序列一次,并指定给引擎找到匹配的第一个提取模式。

支持的词性代码

以下是英文编译字典中定义的所有支持的词性代码的表格。

特定模板中使用的所有词性代码将在高级资源 > 提取模式的顶部列出。

基本资源模板和意见模板之间的主要差别在于,在基本资源模板中使用最小限定词(“d”)和介词(“c”)时,将在意见模板中使用其扩展的等效词(“e”和“r”)。“0”和“1”在所有意见模板中使用有限。请参阅高级资源 > 语言处理(英语) > 强制的定义和提取模式

其他英语模板可能会使用字典中未列出的部分词性(例如,“市场情报”模板中的“w”和“W”)。 但在此情况下,这些词性将分配到高级资源 > 强制的定义下面的特定单词。

表 1. 支持的词性代码
代码 含义 示例
a 形容词 腹部的,蓝色...
A 未使用的 未使用的
b 副词 频繁地,经常,非常,...
B 未使用的 未使用的
c 介词 “...的”
C 拼错的单词的内部代码  
d 限定词 “这”
D 未使用的 未使用的
e 扩展的限定词 这, 一,我的,您的...
E 未使用的 未使用的
f 约翰,玛丽...
F 未使用的 未使用的
g 未使用的 未使用的
G 国籍的形容词 法国,美国...
h 未使用的 未使用的
H 未使用的 未使用的
i 初始所有单个字母都后跟“.” “a.”、“w.”和某些单个字母,例如“w”(用于提取个人名称,例如,John W. Doe)
I 未使用的 未使用的
j 未使用的 未使用的
J 未使用的 未使用的
k 未使用的 未使用的
K 未使用的 未使用的
l 未使用的 未使用的
L 未使用的 未使用的
m 名词或未知 狗,IBM
M 未使用的 未使用的
n 名词
N 一些专有名词 ibm
o 并列词 “和”,“&”
O 未使用的 未使用的
p 过去分词 已放弃的,已补充的...
P 未使用的 未使用的
q 未使用的 未使用的
Q 限定词 昂贵的,小的,好的,...
r 扩展的介词 ...的,在...之间,针对,从...
R 未使用的 未使用的
s 停用词 我们不想抽取的任何单词
S 未使用的 未使用的
t 头衔 夫人,太太,队长,准将,...
T 未使用的 未使用的
u 未知定义,不在字典中  
U 未使用的 未使用的
v 动词 eat,eats,ate,eating,...
V 不定式动词 eat,...
w 未使用的 未使用的
W 未使用的 未使用的
x 助动词 be
X 未使用的 未使用的
y 小品词 冯,迪,德,... (用于提取个人名称:约翰·冯·多伊)
Y 未使用的 未使用的
z 未使用的 未使用的
Z 未使用的 未使用的
0 意见副词 仅在意见中使用。请参阅高级资源 > 语言处理(英语) > 强制的定义
1 意见中的“to” 请参阅高级资源 > 语言处理(英语) > 强制的定义
2 未使用的 未使用的
3 未使用的 未使用的
4 未使用的 未使用的
5 未使用的 未使用的
6 未使用的 未使用的
7 未使用的 未使用的
8 未使用的 未使用的
9 未使用的 未使用的