添加文本提取器

您可以在代理工作流程中添加文本提取器,以便从文档中提取文本。 当代理工作流程运行时,文本提取器无需手动输入数据,从而缩短了文件处理时间。 您可以从文档中提取文本,并将这些文本作为输入提供给代理式工作流中的下游节点,例如用于格式化的逻辑块、用于分析关键词的生成式提示,以及其他操作。

注意: 文本提取器仅支持将 Microsoft Excel (.xlsx) 文件作为输入,用于提取文本内容。 您无法使用这些文件进行键值对(KVP)提取。 该系统仅支持 Microsoft.xlsx 格式,不支持旧版的.xls 格式。

此外,其他工作流节点(例如文档提取器和文档分类器)也不支持.xlsx 文件。

当您配置文本提取器从文档中提取语义键值对(KVP) 时,可从可用模型列表中选择一个模型。 您还可以通过AI网关添加自己的自定义模型。 有关更多信息,请参阅通过 AI 网关添加 AI 模型

例如,代理工作流使用文本提取器节点分析文档中的反馈信息。 当代理工作流程在聊天中运行时,代理可以提示用户上传文档。 然后,代理工作流从文档中提取文本,其他节点可以处理提取的文本,生成预期的输出,如要点或摘要。

在代理工作流程中添加文本提取器:

  1. 在工作流构建器中打开代理工作流。

  2. 点击“添加流程项”图标 添加图标

  3. 选择 “流程节点 ”选项卡。

  4. 文本提取器拖入代理工作流程。

  5. 选择所需属性:

    • 检测手写内容 :从上传的文件中提取手写笔记。

    • 保持文档布局 :保留文档的原始格式。

    • 启用文本提示 :利用上下文提示提升识别准确率。

    • 以对象形式输出 :选择输出变量的格式:

      • 禁用:提取器生成一个名为 document_ref的输出变量,该变量是 URL ,指向包含提取文本和键值对的文件。

      • 启用:提取器生成一个名为 text的输出变量,该变量是一个包含完整提取结果的 JSON 字符串对象,包括纯文本和文档结构元数据。

选择输出格式后,即可使用输出变量进行数据映射,详见《 数据映射》。

  • 提取键值对 :识别文档中的语义键值对。 有关更多信息,请阅从文档中提取语义键值对(KVP)。

或者,要添加文本提取器,请单击起始节点与结束节点之间的连接线,然后选择 “添加流程活动”>“文本提取器 ”。

从文件中提取语义键值对(KVP)

您可以配置文本提取器,从文档中提取语义键值对(KVP)。 语义 KVP 提取可以通过关注提取数据的键值配对来适应格式和布局等文档变化。

从文档中提取键值对:

  1. 在代理工作流程中选择文本提取器节点。

  2. 提取键值对开关设置为开启。

  3. 单击添加模式

  4. 使用有效的 JSON 模式指定要从文档中提取的字段和表格。 下面是一个 JSON 示例。

[
    {
        "document_type": "Invoice",
        "document_description": "An invoice is a standard document issued by a seller to a buyer, outlining products or services provided, quantities, prices, and payment terms.",
        "fields": {
            "invoice_number": {
                "description": "A unique identifier assigned by the vendor for this invoice.",
                "example": "2023-AUS-987654"
            },
            "document_date": {
                "description": "Date of the document.",
                "example": "2025-07-05"
            },
            "vendor_name": {
                "description": "Legal or trade name of the company issuing the invoice. Usually located in the header or footer, near the logo, or billing details.",
                "example": "ABC Supply Company Ltd"
            },
            "vendor_number": {
                "description": "Internal identifier used by the buyer's system to refer to the vendor.",
                "example": "VEND-1023"
            }
        }
    }
]
}
  1. 模型列表中选择文本提取器要使用的模型。

  2. 输入 KVP力模式名称。

要编辑现有模式,请在代理工作流程中选择文本提取器节点,然后单击编辑模式

语义KVP提取中kvp_model_name值的差异

本地

注:

kvp_model_name 值的差异仅适用于本地部署。

当流程工具使用默认值 kvp_model_name 或API调用方在运行时指定值时,理解传递 kvp_model_name 的值之间的细微差异至关重要,以确保获得预期结果。

配置了内部基础模型的模型

当您使用 IBM watsonx.ai 配置模型时,传入的值对于 kvp_model_nameSaaS 和本地部署而言是相同的。

例如,请考虑 kvp_model_name 中的这个 watsonx/mistralai/mistral-small-3-1-24b-instruct-2503值。

此处,

  • watsonx 是供应商ID

  • mistralai/mistral-small-3-1-24b-instruct-2503 是模型卡

由于提供商 ID 为 watsonx,因此您可以在 SaaS 和本地部署中使用相同的 watsonx/mistralai/mistral-small-3-1-24b-instruct-2503 值。

注:

如果提供商 ID 为 watsonx ,则表示 IBM watsonx.ai 的配置。 在 SaaS 和本地部署中,同一 kvp_model_name 均可用于语义KVP提取。

配置了外部 AI 网关的模型

若要在本地部署中使用 AI Gateway 配置外部模型,请参阅《 通过 AI Gateway 注册外部模型 》。

当您使用外部 AI Gateway 配置模型时,由于模型是导入的,因此在 SaaS 和本地部署中传递的值会 kvp_model_name 有所不同。

例如,请考虑 kvp_model_name 中的这个 groq/openai/gpt-oss-120b值。

此处,

  • groq 是供应商ID

  • openai/gpt-oss-120b 是模型卡

更多详情请参阅服务提供商 ID

由于提供商ID并非 watsonx,请在值前添加前缀 virtual-model。 也就是说,你必须将值作为 kvp_model_name 参数传递 virtual-model/groq/openai/gpt-oss-120b

注:

如果提供商 ID 与 watsonx 不一致,则表明该配置使用了外部 AI 网关。 在这种情况下,您必须在值前添加前缀“virtual-model”,以便在本地部署中进行语义键值对(KVP)提取。

请参考下表中的示例以获得更清晰的说明:

表 1. 表1。 SaaS 和本地部署中传递的kvp_model_name值存在差异

模型名称

值的表示方式 kvp_model_name

提供者标识

传递给 SaaS 的值

本地环境中传递的值

mistral-small-3-1-24b-instruct-2503

watsonx/mistralai/mistral-small-3-1-24b-instruct-2503

watsonx

watsonx/mistralai/mistral-medium-3-1-24b-instruct-2503

watsonx/mistralai/mistral-small-3-1-24b-instruct-2503

gpt-oss-120b

groq/openai/gpt-oss-120b

Groq

groq/openai/gpt-oss-120b

virtual-model/groq/openai/gpt-oss-120b

将数据映射到输入

默认情况下,自动映射已启用。 不过,您可以将数值映射到输入。

要将数值映射到输入,请完成以下步骤:

  1. 选择文本提取器节点,然后单击编辑数据映射

  2. 指定数据映射的输入值。 有关数据映射的更多信息,请参阅映射数据

文本提取器的限制和约束

文本提取器有以下限制和约束。

区域

描述

最大文件大小

10 MB

上传文件的最大数量

5 档案

接受的文件类型

.doc,.docx,.jpe,.jpeg.jpg,.pdf,.png,.ppt,.pptx,.tif,.tiff

最大页数

600 页

最大图像数量

无限制

每页最大图像数

无限制