Adição de extratores de texto

Editar online

Você pode adicionar um extrator de texto em um fluxo de trabalho autêntico para extrair texto de um documento. Um extrator de texto elimina a necessidade de entradas manuais de dados quando um fluxo de trabalho autêntico é executado, reduzindo assim o tempo de processamento do documento. Você pode extrair texto de documentos e fornecê-los como entradas para nós a jusante em um fluxo de trabalho de agente, como blocos lógicos para formatação, prompts generativos para análise de palavras-chave e outras atividades.

Observação: O extrator de texto aceita arquivos do Microsoft Excel (.xlsx) como entrada apenas para extrair o conteúdo de texto. Não é possível usar esses arquivos para a extração de pares chave-valor (KVP). O sistema suporta apenas o formato.xlsx da Microsoft e não aceita o formato.xls mais antigo.

Além disso, outros nós do fluxo de trabalho, como o extrator de documentos e o classificador de documentos, não são compatíveis com arquivos.xlsx.

Ao configurar um extrator de texto para extrair pares de valores-chave semânticos (KVP) de documentos, você pode escolher um modelo da lista de modelos disponíveis. Você também pode adicionar seu próprio modelo personalizado por meio do AI Gateway. Para obter mais informações, consulte Adicionando modelos de IA personalizados.

Um exemplo de caso de uso é um fluxo de trabalho agêntico que usa um nó extrator de texto para analisar o feedback em um documento. Quando o fluxo de trabalho agêntico é executado em um chat, o agente pode solicitar que o usuário faça o upload do documento. O fluxo de trabalho autêntico extrai o texto do documento e os outros nós podem processar o texto extraído para gerar o resultado esperado, como pontos-chave ou resumo.

Para adicionar um extrator de texto a um fluxo de trabalho autêntico:

Abra o fluxo de trabalho agênico no criador de fluxos de trabalho.
Clique no ícone “Adicionar itens de fluxo”.
Selecione a guia Nós de fluxo.
Arraste o extrator de texto para o fluxo de trabalho autêntico.
Selecione as propriedades necessárias:
- Detectar escrita à mão : extrair notas manuscritas de arquivos enviados.
- Manter o layout do documento : Preserve a formatação original do documento.
- Ativar sugestão de texto : Melhore o reconhecimento usando sugestões contextuais.
- Saída como objeto : escolha como a variável de saída será formatada:
  - Desativado: O extrator produz uma variável de saída chamada document_ref, que é o URL para o arquivo que contém o texto extraído e os pares chave-valor.
  - Ativado: O extrator produz uma variável de saída chamada text, que é um objeto de string JSON contendo todo o resultado da extração, incluindo texto simples e metadados da estrutura do documento.
  Depois de escolher como a saída será formatada, você pode usar a variável de saída para mapear dados. Consulte Mapeamento de dados.

Extrair pares chave-valor : Identificar pares chave-valor semânticos em documentos. Para obter mais informações, consulte Extraindo pares semânticos de chave-valor (KVP) de documentos.

Como alternativa, para adicionar um extrator de texto, clique na linha de conexão entre os nós inicial e final e selecione Adicionar uma atividade de fluxo > Extrator de texto.

Extração de pares de valores-chave semânticos (KVP) de documentos

Você pode configurar um extrator de texto para extrair pares de valores-chave semânticos (KVP) de documentos. A extração semântica de KVP pode se adaptar a variações de documentos, como formato e layouts, concentrando-se nos pares de valores-chave para extrair dados.

Para extrair os pares de valores-chave dos documentos:

Selecione o nó do extrator de texto no fluxo de trabalho autêntico.
Defina a chave Extract key-value pairs (Extrair pares de valores-chave ) como ativada.
Clique em Add schema (Adicionar esquema ).

Especifique os campos e as tabelas que você deseja extrair dos documentos usando um esquema JSON válido. Aqui está um exemplo de JSON.

[
    {
        "document_type": "Invoice",
        "document_description": "An invoice is a standard document issued by a seller to a buyer, outlining products or services provided, quantities, prices, and payment terms.",
        "fields": {
            "invoice_number": {
                "description": "A unique identifier assigned by the vendor for this invoice.",
                "example": "2023-AUS-987654"
            },
            "document_date": {
                "description": "Date of the document.",
                "example": "2025-07-05"
            },
            "vendor_name": {
                "description": "Legal or trade name of the company issuing the invoice. Usually located in the header or footer, near the logo, or billing details.",
                "example": "ABC Supply Company Ltd"
            },
            "vendor_number": {
                "description": "Internal identifier used by the buyer's system to refer to the vendor.",
                "example": "VEND-1023"
            }
        }
    }
]
}

Selecione um modelo a ser usado pelo extrator de texto.
Na lista Modelos, selecione um modelo ou clique em Exibir todos os modelos de fundação para abrir a caixa de diálogo de seleção de modelos, que lista todos os modelos disponíveis. Você pode pesquisar um modelo ou escolher um da lista. Depois de selecionar um modelo, clique em Salvar. São exibidos todos os avisos associados ao modelo selecionado, tais como avisos de descontinuação ou requisitos de licença de terceiros.

Alguns modelos incluem uma etiqueta de status na caixa de diálogo para indicar estados como “Recomendado ” ou “De terceiros ”. Um ícone de aviso indica que um modelo pode ser retirado ou descontinuado em uma versão posterior.
Insira o nome do esquema de força KVP.

Para editar um esquema existente, selecione o nó do extrator de texto no fluxo de trabalho autêntico e clique em Editar esquema.

Variação nos valores de kvp_model_name para extração semântica de KVP

No local

Nota:

A variação nos valores de kvp_model_name aplica-se apenas a implantações locais.

Quando uma ferramenta de fluxo usa um padrão kvp_model_name ou o chamador da API especifica um em tempo de execução, é importante entender as diferenças sutis entre os valores kvp_model_name passados para garantir os resultados esperados.

Modelos configurados com modelos de base internos

Ao configurar seus modelos usando IBM watsonx.ai, o valor passado kvp_model_name é o mesmo tanto para implantações no SaaS quanto para impl antações locais.

Por exemplo, considere este valor em kvp_model_name watsonx/mistralai/mistral-small-3-1-24b-instruct-2503.

Aqui,

watsonx é o ID do provedor
mistralai/mistral-small-3-1-24b-instruct-2503 é o cartão modelo

Como o ID do provedor é watsonx, você pode usar o mesmo valor tanto para implantações no SaaSwatsonx/mistralai/mistral-small-3-1-24b-instruct-2503 quanto para implantações locais.

Nota:

Se o ID do provedor for watsonx, isso indica uma configuração do tipo IBM watsonx.ai. O mesmo kvp_model_name funciona para a extração semântica de KVP tanto em implantações no SaaS quanto em implantações locais.

Modelos configurados com gateway de IA externo

Para configurar os modelos externos usando o AI Gateway em uma implantação local, consulte o artigo “Registrando modelos externos por meio do AI Gateway ”.

Ao configurar seus modelos usando o AI Gateway externo, o valor passado kvp_model_name difere entre as implantações no SaaS e as locais, uma vez que os modelos são importados.

Por exemplo, considere este valor em kvp_model_name groq/openai/gpt-oss-120b.

Aqui,

groq é o ID do provedor
openai/gpt-oss-120b é o cartão modelo

Consulte o ID do provedor para obter mais detalhes.

Como o ID do provedor é diferente de watsonx, coloque o prefixo virtual-modelno valor. Ou seja, você deve passar o valor em kvp_model_name como virtual-model/groq/openai/gpt-oss-120b.

Nota:

Se o ID do provedor for diferente de watsonx, isso indica que a configuração utiliza um AI Gateway externo. Nesses casos, é necessário antepor o prefixo “virtual-model” ao valor para permitir a extração semântica de pares chave-valor em implantações locais.

Consulte a tabela a seguir com exemplos para maior clareza:

Tabela 1. Tabela 1. Diferenças nos valores de `kvp_model_name` passados no ` SaaS ` e no ambiente local
Nome do modelo	Valor em `kvp_model_name`	ID do Provedor	Valor a ser passado em SaaS	Valor a ser passado no ambiente local
mistral-small-3-1-24b-instruct-2503	watsonx/mistralai/mistral-small-3-1-24b-instruct-2503	watsonx	watsonx/mistralai/mistral-medium-3-1-24b-instruct-2503	watsonx/mistralai/mistral-small-3-1-24b-instruct-2503
gpt-oss-120b	groq/openai/gpt-oss-120b	Groq	groq/openai/gpt-oss-120b	virtual-model/groq/openai/gpt-oss-120b

Mapeamento de dados para entradas

Por padrão, o mapeamento automático está ativado. No entanto, você pode mapear valores para as entradas.

Para mapear valores para entradas, conclua as etapas a seguir:

Selecione o nó do extrator de texto e clique em Editar mapeamento de dados.
Especifique os valores de entrada para o mapeamento de dados. Para obter mais informações sobre o mapeamento de dados, consulte Mapeamento de dados.

Limites e restrições do extrator de texto

Os extratores de texto têm os seguintes limites e restrições.


Área	Descrição
Tamanho máximo do arquivo	10 MB (exceto arquivos do Microsoft Excel) Observação: O tamanho máximo dos arquivos do Microsoft Excel é de 0.1 MB.
Número máximo de arquivos carregados	5 arquivos
Tipos de arquivos aceitos	.doc,.docx,.jpg,.jpeg,.png,.ppt,.pptx,.tif,.tiff e.xlsx
número máximo de páginas	600 páginas
Número máximo de imagens	Sem limites
Número máximo de imagens por página	Sem limites