提取模式

在从文档提取信息时，提取引擎将一组词性提取模式应用于上下文中字的“堆栈”，以识别提取的候选术语（字和短语）。您可以添加或修改提取模式。

词性包括语法元素，例如，名词、形容词、过去分词、限定词、介词、连词、名、缩写和虚词。这一系列元素构成词性提取模式。在 IBM® Corp. 文本挖掘产品中，每个词性都由单个字符表示，从而更易于定义您的模式。例如，小写字母 a 表示形容词。缺省情况下，支持的代码集在每个缺省提取模式部分的顶部显示，并随附一组模式和每个模式的示例，以帮助您了解使用的每个代码。

格式化提取模式的规则

每行一个模式。
在行的开头使用 # 来禁用模式。

列出的提取模式的顺序非常重要，因为提取引擎仅读取指定的字序列一次，并指定给引擎找到匹配的第一个提取模式。

支持的词性代码

以下是英文编译字典中定义的所有支持的词性代码的表格。

特定模板中使用的所有词性代码将在高级资源 > 提取模式的顶部列出。

基本资源模板和意见模板之间的主要差别在于，在基本资源模板中使用最小限定词（“d”）和介词（“c”）时，将在意见模板中使用其扩展的等效词（“e”和“r”）。“0”和“1”在所有意见模板中使用有限。请参阅高级资源 > 语言处理（英语） > 强制的定义和提取模式。

其他英语模板可能会使用字典中未列出的部分词性（例如，“市场情报”模板中的“w”和“W”）。但在此情况下，这些词性将分配到高级资源 > 强制的定义下面的特定单词。

表 1. 支持的词性代码
代码	含义	示例
a	形容词	腹部的，蓝色...
A	未使用的	未使用的
b	副词	频繁地，经常，非常，...
B	未使用的	未使用的
c	介词	“...的”
C	拼错的单词的内部代码
d	限定词	“这”
D	未使用的	未使用的
e	扩展的限定词	这，一，我的，您的...
E	未使用的	未使用的
f	名	约翰，玛丽...
F	未使用的	未使用的
g	未使用的	未使用的
G	国籍的形容词	法国，美国...
h	未使用的	未使用的
H	未使用的	未使用的
i	初始所有单个字母都后跟“.”	“a.”、“w.”和某些单个字母，例如“w”（用于提取个人名称，例如，John W. Doe）
I	未使用的	未使用的
j	未使用的	未使用的
J	未使用的	未使用的
k	未使用的	未使用的
K	未使用的	未使用的
l	未使用的	未使用的
L	未使用的	未使用的
m	名词或未知	狗，IBM
M	未使用的	未使用的
n	名词	狗
N	一些专有名词	ibm
o	并列词	“和”，“&”
O	未使用的	未使用的
p	过去分词	已放弃的，已补充的...
P	未使用的	未使用的
q	未使用的	未使用的
Q	限定词	昂贵的，小的，好的，...
r	扩展的介词	...的，在...之间，针对，从...
R	未使用的	未使用的
s	停用词	我们不想抽取的任何单词
S	未使用的	未使用的
t	头衔	夫人，太太，队长，准将，...
T	未使用的	未使用的
u	未知定义，不在字典中
U	未使用的	未使用的
v	动词	eat，eats，ate，eating，...
V	不定式动词	eat，...
w	未使用的	未使用的
W	未使用的	未使用的
x	助动词	be
X	未使用的	未使用的
y	小品词	冯，迪，德，... （用于提取个人名称：约翰·冯·多伊）
Y	未使用的	未使用的
z	未使用的	未使用的
Z	未使用的	未使用的
0	意见副词	仅在意见中使用。请参阅高级资源 > 语言处理（英语） > 强制的定义。
1	意见中的“to”	请参阅高级资源 > 语言处理（英语） > 强制的定义
2	未使用的	未使用的
3	未使用的	未使用的
4	未使用的	未使用的
5	未使用的	未使用的
6	未使用的	未使用的
7	未使用的	未使用的
8	未使用的	未使用的
9	未使用的	未使用的