Añadir extractores de texto
Puede añadir un extractor de texto en un flujo de trabajo agentic para extraer texto de un documento. Un extractor de texto elimina la necesidad de introducir datos manualmente cuando se ejecuta un flujo de trabajo agéntico, lo que reduce el tiempo de procesamiento de los documentos. Puede extraer texto de documentos y proporcionarlo como entrada a nodos posteriores en un flujo de trabajo de agentes, como bloques lógicos para formatear, indicaciones generativas para analizar palabras clave y otras actividades.
Además, otros nodos del flujo de trabajo, como el extractor de documentos y el clasificador de documentos, no admiten archivos.xlsx.
Un ejemplo de caso de uso es un flujo de trabajo agéntico que utiliza un nodo extractor de texto para analizar los comentarios en un documento. Cuando el flujo de trabajo agéntico se ejecuta en un chat, el agente puede pedir al usuario que cargue el documento. A continuación, el flujo de trabajo agéntico extrae texto del documento y los demás nodos pueden procesar el texto extraído para generar el resultado esperado, como puntos clave o resumen.
Para añadir un extractor de texto a un flujo de trabajo agentic:
Abre el flujo de trabajo «agentico» en el generador de flujos de trabajo.
Haz clic en el icono «Añadir elementos
de flujo».Seleccione la pestaña Nodos de flujo.
Arrastre el extractor de texto al flujo de trabajo agentic.
Seleccione las propiedades requeridas:
Detectar escritura a mano : extraer notas escritas a mano de los archivos cargados.
Mantener el diseño del documento : Conservar el formato original del documento.
Habilitar sugerencias de texto : mejora el reconocimiento utilizando sugerencias contextuales.
Salida como objeto : Elija cómo se formatea la variable de salida:
Desactivado: El extractor produce una variable de salida denominada
document_ref, que es el identificador de archivo ( URL ) del archivo que contiene el texto extraído y los pares clave-valor.Habilitado: El extractor produce una variable de salida denominada
text, que es un objeto de cadena JSON que contiene el resultado completo de la extracción, incluido el texto sin formato y los metadatos de la estructura del documento.
Después de elegir el formato de salida, puede utilizar la variable de salida para asignar datos. Consulte Asignación de datos.
Extraer pares clave-valor : Identificar pares clave-valor semánticos en documentos. Para obtener más información, consulte Extracción de pares clave-valor semánticos (KVP) de documentos.
Como alternativa, para añadir un extractor de texto, haga clic en la línea de conexión entre los nodos inicial y final y, a continuación, seleccione Añadir una actividad de flujo > Extractor de texto.
Extracción de pares semánticos clave-valor (KVP) de documentos
Puede configurar un extractor de texto para extraer pares clave-valor (KVP) semánticos de los documentos. La extracción semántica de KVP puede adaptarse a las variaciones de los documentos, como el formato y la maquetación, centrándose en los emparejamientos clave-valor para extraer los datos.
Para extraer los pares clave-valor de los documentos:
Seleccione el nodo extractor de texto en el flujo de trabajo agentic.
Active la opción Extraer pares clave-valor.
Haga clic en Añadir esquema.
Especifique los campos y tablas que desea extraer de los documentos utilizando un esquema JSON válido. He aquí un ejemplo JSON.
[
{
"document_type": "Invoice",
"document_description": "An invoice is a standard document issued by a seller to a buyer, outlining products or services provided, quantities, prices, and payment terms.",
"fields": {
"invoice_number": {
"description": "A unique identifier assigned by the vendor for this invoice.",
"example": "2023-AUS-987654"
},
"document_date": {
"description": "Date of the document.",
"example": "2025-07-05"
},
"vendor_name": {
"description": "Legal or trade name of the company issuing the invoice. Usually located in the header or footer, near the logo, or billing details.",
"example": "ABC Supply Company Ltd"
},
"vendor_number": {
"description": "Internal identifier used by the buyer's system to refer to the vendor.",
"example": "VEND-1023"
}
}
}
]
}
Seleccione en la lista Modelo el modelo que desea utilizar para el extractor de texto.
Introduzca el nombre del esquema de fuerza KVP.
Para editar un esquema existente, seleccione el nodo del extractor de texto en el flujo de trabajo agéntico y haga clic en Editar esquema.
Variación en los valores de kvp_model_name para la extracción semántica de KVP
En las instalaciones
La variación en los valores de «kvp_model_name» solo es aplicable a las implementaciones locales.
Cuando una herramienta de flujo utiliza un valor predeterminado kvp_model_name o el usuario de la API especifica uno en tiempo de ejecución, es importante comprender las sutiles diferencias entre los valores kvp_model_name pasados para garantizar los resultados esperados.
Modelos configurados con modelos de base internos
Cuando configures tus modelos mediante IBM watsonx.ai, el valor que se pasa es el mismo tanto para las kvp_model_name implementaciones en SaaS como para las locales.
Por ejemplo, considere este valor en kvp_model_name watsonx/mistralai/mistral-small-3-1-24b-instruct-2503.
Donde:
watsonxes el ID del proveedormistralai/mistral-small-3-1-24b-instruct-2503es la tarjeta modelo
Dado que el ID del proveedor es watsonx, puede utilizar el mismo valor tanto para las implementaciones de watsonx/mistralai/mistral-small-3-1-24b-instruct-2503 « SaaS » como para las locales.
Si el ID del proveedor es watsonx, esto indica una configuración de IBM watsonx.ai. El mismo nombre de modelo kvp_model_name sirve para la extracción semántica de KVP tanto en las implementaciones de SaaS como en las locales.
Modelos configurados con una pasarela de IA externa
Para configurar los modelos externos mediante AI Gateway en una implementación local, consulte «Registro de modelos externos a través de AI Gateway».
Cuando configuras tus modelos utilizando una puerta de enlace de IA externa, el valor que se pasa es diferente en las kvp_model_name implementaciones de « SaaS » y las locales, ya que los modelos se importan.
Por ejemplo, considere este valor en kvp_model_name groq/openai/gpt-oss-120b.
Donde:
groqes el ID del proveedoropenai/gpt-oss-120bes la tarjeta modelo
Consulte el ID del proveedor para obtener más información.
Dado que el ID del proveedor es distinto de watsonx, anteponga el valor con virtual-model. Es decir, debes pasar el valor en kvp_model_name como virtual-model/groq/openai/gpt-oss-120b.
Si el ID del proveedor no es watsonx, significa que la configuración utiliza una pasarela de IA externa. En tales casos, debes anteponer el prefijo «virtual-model» al valor para permitir la extracción semántica de pares clave-valor en las implementaciones locales.
Consulte la siguiente tabla con ejemplos para mayor claridad:
Nombre de modelo |
Valor |
ID del proveedor |
Valor que se debe pasar en SaaS |
Valor que se debe pasar en el entorno local |
|---|---|---|---|---|
mistral-small-3-1-24b-instruct-2503 |
watsonx/mistralai/mistral-small-3-1-24b-instruct-2503 |
watsonx |
watsonx/mistralai/mistral-medium-3-1-24b-instruct-2503 |
watsonx/mistralai/mistral-small-3-1-24b-instruct-2503 |
gpt-oss-120b |
groq/openai/gpt-oss-120b |
Groq |
groq/openai/gpt-oss-120b |
virtual-model/groq/openai/gpt-oss-120b |
Asignación de datos a entradas
Por defecto, la asignación automática está activada. Sin embargo, puede asignar valores a las entradas.
Para asignar valores a entradas, siga estos pasos:
Seleccione el nodo del extractor de texto y haga clic en Editar asignación de datos.
Especifique los valores de entrada para la asignación de datos. Para obtener más información sobre la asignación de datos, consulte Asignación de datos.
Límites y restricciones del extractor de texto
Los extractores de texto tienen los siguientes límites y restricciones.
Área |
Descripción |
|---|---|
Tamaño máximo de archivo |
10 MB |
Número máximo de archivos cargados |
5 expedientes |
Tipos de archivo aceptados |
.doc,.docx,.jpe,.jpeg.jpg,.pdf,.png,.ppt,.pptx,.tif,.tiff |
número máximo de páginas |
600 páginas |
Número máximo de imágenes |
Sin límites |
Número máximo de imágenes por página |
Sin límites |