概念模型:“设置”选项卡
“设置”选项卡用于定义新输入数据的文本字段值(如果需要)。 您也可以在其中为自己的输出定义数据模型(评分方式)。
注: 仅当将模型块放置到画布上时,才会显示此选项卡。 当您在“模型”选用板中访问此对话框时,该选项卡不存在。
评分方式:概念作为记录
通过此评分方式,将为每个 concept/document 对创建新记录。 通常,输出中的记录数量多于输入中的记录数量。
除输入字段之外,会向数据添加以下新字段。
| 字段 | 描述 |
|---|---|
Concept |
包含文本数据字段中找到的已抽取的概念名称。 |
Type |
将概念的类型存储为完整的类型名称,例如,位置或人员。 类型是概念的语义分组。 请参阅主题 类型字典 以获取更多信息。 |
Count |
显示此概念(及其底层术语)在文本主体(记录/文档)中出现的次数。 |
选中该选项时,将禁用除调整标点错误以外的所有选项。
评分方式:概念作为字段
在概念模型中,对于每条输入记录,会为给定文档中找到的每个概念创建一条新记录。 从而使输出记录数量与输入中的记录数量相同。 但是,每条记录(每个行)现在针对“模型”选项卡上使用复选标记选中的每个概念包含一个新字段(一个列)。 每个概念字段的值取决于您在此选项卡上选择标记还是计数作为字段值。
注: 如果使用非常大的数据集 (例如,用于 Db2 数据库) ,那么使用 概念作为字段 可能会由于数据量而迂到处理问题。 在此情况下,我们建议改为使用概念作为记录。
字段值。 选择每个概念的新字段是否将包含计数或标记值。
- 标志。 此选项用于获取输出中具有两个不同值的标记,例如,Yes/No、True/False、T/F 或 1 和 2。 将自动设置存储类型以反映所选值。 例如,如果针对标记输入数字值,那么将自动将这些数字值作为整数值来处理。 标记的存储类型可以是字符串、整数、实数或日期/时间。 输入 True 和 False 的标记值。
- 计数。 用于获取在给定记录中概念发生的次数的计数。
字段名称扩展。 指定字段名称的扩展。 字段名称是使用概念名称加上此扩展来生成的。
- 添加为。 指定在字段名称中添加扩展的位置。 选择前缀以将扩展添加到字符串开头。 选择后缀以将扩展添加到字符串末尾。
调整标点错误。 此选项可在抽取期间临时标准化包含标点错误的文本(例如,不正确使用),以改善概念的可抽取性。 当文本很短且质量不佳(例如,在开放式调查响应、电子邮件和 CRM 数据中)时,或文本包含很多缩略词时,此选项非常有用。