Adição de extratores de texto
Você pode adicionar um extrator de texto em um fluxo de trabalho autêntico para extrair texto de um documento. Um extrator de texto elimina a necessidade de entradas manuais de dados quando um fluxo de trabalho autêntico é executado, reduzindo assim o tempo de processamento do documento. Você pode extrair texto de documentos e fornecê-los como entradas para nós a jusante em um fluxo de trabalho de agente, como blocos lógicos para formatação, prompts generativos para análise de palavras-chave e outras atividades.
Além disso, outros nós do fluxo de trabalho, como o extrator de documentos e o classificador de documentos, não são compatíveis com arquivos.xlsx.
Um exemplo de caso de uso é um fluxo de trabalho agêntico que usa um nó extrator de texto para analisar o feedback em um documento. Quando o fluxo de trabalho agêntico é executado em um chat, o agente pode solicitar que o usuário faça o upload do documento. O fluxo de trabalho autêntico extrai o texto do documento e os outros nós podem processar o texto extraído para gerar o resultado esperado, como pontos-chave ou resumo.
Para adicionar um extrator de texto a um fluxo de trabalho autêntico:
Abra o fluxo de trabalho agênico no criador de fluxos de trabalho.
Clique no ícone “Adicionar itens de fluxo”.Selecione a guia Nós de fluxo.
Arraste o extrator de texto para o fluxo de trabalho autêntico.
Selecione as propriedades necessárias:
Detectar escrita à mão : extrair notas manuscritas de arquivos enviados.
Manter o layout do documento : Preserve a formatação original do documento.
Ativar sugestão de texto : Melhore o reconhecimento usando sugestões contextuais.
Saída como objeto : escolha como a variável de saída será formatada:
Desativado: O extrator produz uma variável de saída chamada
document_ref, que é o URL para o arquivo que contém o texto extraído e os pares chave-valor.Ativado: O extrator produz uma variável de saída chamada
text, que é um objeto de string JSON contendo todo o resultado da extração, incluindo texto simples e metadados da estrutura do documento.
Depois de escolher como a saída será formatada, você pode usar a variável de saída para mapear dados. Consulte Mapeamento de dados.
Extrair pares chave-valor : Identificar pares chave-valor semânticos em documentos. Para obter mais informações, consulte Extraindo pares semânticos de chave-valor (KVP) de documentos.
Como alternativa, para adicionar um extrator de texto, clique na linha de conexão entre os nós inicial e final e selecione Adicionar uma atividade de fluxo > Extrator de texto.
Extração de pares de valores-chave semânticos (KVP) de documentos
Você pode configurar um extrator de texto para extrair pares de valores-chave semânticos (KVP) de documentos. A extração semântica de KVP pode se adaptar a variações de documentos, como formato e layouts, concentrando-se nos pares de valores-chave para extrair dados.
Para extrair os pares de valores-chave dos documentos:
Selecione o nó do extrator de texto no fluxo de trabalho autêntico.
Defina a chave Extract key-value pairs (Extrair pares de valores-chave ) como ativada.
Clique em Add schema (Adicionar esquema ).
- Especifique os campos e as tabelas que você deseja extrair dos documentos usando um esquema JSON válido. Aqui está um exemplo de JSON.
[ { "document_type": "Invoice", "document_description": "An invoice is a standard document issued by a seller to a buyer, outlining products or services provided, quantities, prices, and payment terms.", "fields": { "invoice_number": { "description": "A unique identifier assigned by the vendor for this invoice.", "example": "2023-AUS-987654" }, "document_date": { "description": "Date of the document.", "example": "2025-07-05" }, "vendor_name": { "description": "Legal or trade name of the company issuing the invoice. Usually located in the header or footer, near the logo, or billing details.", "example": "ABC Supply Company Ltd" }, "vendor_number": { "description": "Internal identifier used by the buyer's system to refer to the vendor.", "example": "VEND-1023" } } } ] } - Selecione um modelo a ser usado pelo extrator de texto.
Na lista Modelos, selecione um modelo ou clique em Exibir todos os modelos de fundação para abrir a caixa de diálogo de seleção de modelos, que lista todos os modelos disponíveis. Você pode pesquisar um modelo ou escolher um da lista. Depois de selecionar um modelo, clique em Salvar. São exibidos todos os avisos associados ao modelo selecionado, tais como avisos de descontinuação ou requisitos de licença de terceiros.
Alguns modelos incluem uma etiqueta de status na caixa de diálogo para indicar estados como “Recomendado ” ou “De terceiros ”. Um ícone de aviso indica que um modelo pode ser retirado ou descontinuado em uma versão posterior.
Insira o nome do esquema de força KVP.
Para editar um esquema existente, selecione o nó do extrator de texto no fluxo de trabalho autêntico e clique em Editar esquema.
Variação nos valores de kvp_model_name para extração semântica de KVP
No local
A variação nos valores de kvp_model_name aplica-se apenas a implantações locais.
Quando uma ferramenta de fluxo usa um padrão kvp_model_name ou o chamador da API especifica um em tempo de execução, é importante entender as diferenças sutis entre os valores kvp_model_name passados para garantir os resultados esperados.
Modelos configurados com modelos de base internos
Ao configurar seus modelos usando IBM watsonx.ai, o valor passado kvp_model_name é o mesmo tanto para implantações no SaaS quanto para impl antações locais.
Por exemplo, considere este valor em kvp_model_name watsonx/mistralai/mistral-small-3-1-24b-instruct-2503.
Aqui,
watsonxé o ID do provedormistralai/mistral-small-3-1-24b-instruct-2503é o cartão modelo
Como o ID do provedor é watsonx, você pode usar o mesmo valor tanto para implantações no SaaSwatsonx/mistralai/mistral-small-3-1-24b-instruct-2503 quanto para implantações locais.
Se o ID do provedor for watsonx, isso indica uma configuração do tipo IBM watsonx.ai. O mesmo kvp_model_name funciona para a extração semântica de KVP tanto em implantações no SaaS quanto em implantações locais.
Modelos configurados com gateway de IA externo
Para configurar os modelos externos usando o AI Gateway em uma implantação local, consulte o artigo “Registrando modelos externos por meio do AI Gateway ”.
Ao configurar seus modelos usando o AI Gateway externo, o valor passado kvp_model_name difere entre as implantações no SaaS e as locais, uma vez que os modelos são importados.
Por exemplo, considere este valor em kvp_model_name groq/openai/gpt-oss-120b.
Aqui,
groqé o ID do provedoropenai/gpt-oss-120bé o cartão modelo
Consulte o ID do provedor para obter mais detalhes.
Como o ID do provedor é diferente de watsonx, coloque o prefixo virtual-modelno valor. Ou seja, você deve passar o valor em kvp_model_name como virtual-model/groq/openai/gpt-oss-120b.
Se o ID do provedor for diferente de watsonx, isso indica que a configuração utiliza um AI Gateway externo. Nesses casos, é necessário antepor o prefixo “virtual-model” ao valor para permitir a extração semântica de pares chave-valor em implantações locais.
Consulte a tabela a seguir com exemplos para maior clareza:
Nome do modelo |
Valor em |
ID do Provedor |
Valor a ser passado em SaaS |
Valor a ser passado no ambiente local |
|---|---|---|---|---|
mistral-small-3-1-24b-instruct-2503 |
watsonx/mistralai/mistral-small-3-1-24b-instruct-2503 |
watsonx |
watsonx/mistralai/mistral-medium-3-1-24b-instruct-2503 |
watsonx/mistralai/mistral-small-3-1-24b-instruct-2503 |
gpt-oss-120b |
groq/openai/gpt-oss-120b |
Groq |
groq/openai/gpt-oss-120b |
virtual-model/groq/openai/gpt-oss-120b |
Mapeamento de dados para entradas
Por padrão, o mapeamento automático está ativado. No entanto, você pode mapear valores para as entradas.
Para mapear valores para entradas, conclua as etapas a seguir:
Selecione o nó do extrator de texto e clique em Editar mapeamento de dados.
Especifique os valores de entrada para o mapeamento de dados. Para obter mais informações sobre o mapeamento de dados, consulte Mapeamento de dados.
Limites e restrições do extrator de texto
Os extratores de texto têm os seguintes limites e restrições.
Área |
Descrição |
|---|---|
Tamanho máximo do arquivo |
10 MB (exceto arquivos do Microsoft Excel) Observação: O tamanho máximo dos arquivos do Microsoft Excel é de 0.1 MB.
|
Número máximo de arquivos carregados |
5 arquivos |
Tipos de arquivos aceitos |
.doc,.docx,.jpg,.jpeg,.png,.ppt,.pptx,.tif,.tiff e.xlsx |
número máximo de páginas |
600 páginas |
Número máximo de imagens |
Sem limites |
Número máximo de imagens por página |
Sem limites |