提取模式
在从文档提取信息时,提取引擎将一组词性提取模式应用于上下文中字的“堆栈”,以识别提取的候选术语(字和短语)。 您可以添加或修改提取模式。
词性包括语法元素,例如,名词、形容词、过去分词、限定词、介词、连词、名、缩写和虚词。这一系列元素构成词性提取模式。在 IBM® Corp. 文本挖掘产品中,每个词性都由单个字符表示,从而更易于定义您的模式。例如,小写字母 a 表示形容词。缺省情况下,支持的代码集在每个缺省提取模式部分的顶部显示,并随附一组模式和每个模式的示例,以帮助您了解使用的每个代码。
格式化提取模式的规则
- 每行一个模式。
- 在行的开头使用
#来禁用模式。
列出的提取模式的顺序非常重要,因为提取引擎仅读取指定的字序列一次,并指定给引擎找到匹配的第一个提取模式。
支持的词性代码
以下是英文编译字典中定义的所有支持的词性代码的表格。
特定模板中使用的所有词性代码将在的顶部列出。
基本资源模板和意见模板之间的主要差别在于,在基本资源模板中使用最小限定词(“d”)和介词(“c”)时,将在意见模板中使用其扩展的等效词(“e”和“r”)。“0”和“1”在所有意见模板中使用有限。请参阅。
其他英语模板可能会使用字典中未列出的部分词性(例如,“市场情报”模板中的“w”和“W”)。 但在此情况下,这些词性将分配到下面的特定单词。
| 代码 | 含义 | 示例 |
|---|---|---|
| a | 形容词 | 腹部的,蓝色... |
| A | 未使用的 | 未使用的 |
| b | 副词 | 频繁地,经常,非常,... |
| B | 未使用的 | 未使用的 |
| c | 介词 | “...的” |
| C | 拼错的单词的内部代码 | |
| d | 限定词 | “这” |
| D | 未使用的 | 未使用的 |
| e | 扩展的限定词 | 这, 一,我的,您的... |
| E | 未使用的 | 未使用的 |
| f | 名 | 约翰,玛丽... |
| F | 未使用的 | 未使用的 |
| g | 未使用的 | 未使用的 |
| G | 国籍的形容词 | 法国,美国... |
| h | 未使用的 | 未使用的 |
| H | 未使用的 | 未使用的 |
| i | 初始所有单个字母都后跟“.” | “a.”、“w.”和某些单个字母,例如“w”(用于提取个人名称,例如,John W. Doe) |
| I | 未使用的 | 未使用的 |
| j | 未使用的 | 未使用的 |
| J | 未使用的 | 未使用的 |
| k | 未使用的 | 未使用的 |
| K | 未使用的 | 未使用的 |
| l | 未使用的 | 未使用的 |
| L | 未使用的 | 未使用的 |
| m | 名词或未知 | 狗,IBM |
| M | 未使用的 | 未使用的 |
| n | 名词 | 狗 |
| N | 一些专有名词 | ibm |
| o | 并列词 | “和”,“&” |
| O | 未使用的 | 未使用的 |
| p | 过去分词 | 已放弃的,已补充的... |
| P | 未使用的 | 未使用的 |
| q | 未使用的 | 未使用的 |
| Q | 限定词 | 昂贵的,小的,好的,... |
| r | 扩展的介词 | ...的,在...之间,针对,从... |
| R | 未使用的 | 未使用的 |
| s | 停用词 | 我们不想抽取的任何单词 |
| S | 未使用的 | 未使用的 |
| t | 头衔 | 夫人,太太,队长,准将,... |
| T | 未使用的 | 未使用的 |
| u | 未知定义,不在字典中 | |
| U | 未使用的 | 未使用的 |
| v | 动词 | eat,eats,ate,eating,... |
| V | 不定式动词 | eat,... |
| w | 未使用的 | 未使用的 |
| W | 未使用的 | 未使用的 |
| x | 助动词 | be |
| X | 未使用的 | 未使用的 |
| y | 小品词 | 冯,迪,德,... (用于提取个人名称:约翰·冯·多伊) |
| Y | 未使用的 | 未使用的 |
| z | 未使用的 | 未使用的 |
| Z | 未使用的 | 未使用的 |
| 0 | 意见副词 | 仅在意见中使用。请参阅。 |
| 1 | 意见中的“to” | 请参阅 |
| 2 | 未使用的 | 未使用的 |
| 3 | 未使用的 | 未使用的 |
| 4 | 未使用的 | 未使用的 |
| 5 | 未使用的 | 未使用的 |
| 6 | 未使用的 | 未使用的 |
| 7 | 未使用的 | 未使用的 |
| 8 | 未使用的 | 未使用的 |
| 9 | 未使用的 | 未使用的 |