Ajout d'extracteurs de texte

Vous pouvez ajouter un extracteur de texte dans un flux de travail agentique pour extraire du texte d'un document. Un extracteur de texte élimine la nécessité de saisir manuellement des données lors de l'exécution d'un flux de travail agentique, réduisant ainsi le temps de traitement des documents. Vous pouvez extraire du texte à partir de documents et le fournir comme entrée à des nœuds en aval dans un flux de travail agentique, tels que des blocs logiques pour le formatage, des invites génératives pour l'analyse de mots-clés et d'autres activités.

Remarque : l'extracteur de texte accepte uniquement les fichiers Microsoft Excel (.xlsx) comme données d'entrée afin d'en extraire le contenu textuel. Vous ne pouvez pas utiliser ces fichiers pour l'extraction de paires clé-valeur (KVP). Le système prend uniquement en charge le format.xlsx de Microsoft et n'accepte pas l'ancien format.xls.

De plus, d'autres nœuds du flux de travail, tels que l'extracteur de documents et le classificateur de documents, ne prennent pas en charge les fichiers.xlsx.

Lorsque vous configurez un extracteur de texte pour extraire des paires clé-valeur sémantiques (KVP) à partir de documents, vous pouvez choisir un modèle dans la liste des modèles disponibles. Vous pouvez également ajouter votre propre modèle personnalisé via AI Gateway. Pour plus d'informations, consultez la section Ajout de modèles d'IA via AI Gateway.

Un exemple de cas d'utilisation est un flux de travail agentique qui utilise un nœud d'extraction de texte pour analyser le retour d'information dans un document. Lorsque le flux de travail de l'agent s'exécute dans un chat, l'agent peut inviter l'utilisateur à télécharger le document. Le flux de travail agentique extrait ensuite le texte du document et les autres nœuds peuvent traiter le texte extrait pour générer les résultats attendus, tels que des points clés ou un résumé.

Pour ajouter un extracteur de texte à un flux de travail agentique :

  1. Ouvrez le workflow agentique dans le générateur de workflows.

  2. Cliquez sur l'icône « Ajouter des éléments icône Ajouter de flux ».

  3. Sélectionnez l'onglet Nœuds de flux.

  4. Faites glisser l' extracteur de texte vers le flux de travail agentique.

  5. Sélectionnez les propriétés requises :

    • Détecter l'écriture manuscrite : extraire les notes manuscrites des fichiers téléchargés.

    • Conserver la mise en page du document : conserver la mise en forme d'origine du document.

    • Activer l'aide textuelle : améliorer la reconnaissance à l'aide d'indices contextuels.

    • Sortie sous forme d'objet : choisissez le format de la variable de sortie :

      • Désactivé : l'extracteur produit une variable de sortie appelée document_ref, qui est l' URL e vers le fichier contenant le texte extrait et les paires clé-valeur.

      • Activé : l'extracteur génère une variable de sortie appelée text, qui est un objet chaîne JSON contenant l'intégralité du résultat de l'extraction, y compris le texte brut et les métadonnées de structure du document.

Après avoir choisi le format de sortie, vous pouvez utiliser la variable de sortie pour mapper les données. Voir Mappage des données.

Sinon, pour ajouter un extracteur de texte, cliquez sur la ligne de connexion entre les nœuds de début et de fin, puis sélectionnez Ajouter une activité de flux > Extracteur de texte.

Extraction de paires clé-valeur sémantiques (KVP) à partir de documents

Vous pouvez configurer un extracteur de texte pour extraire des paires clé-valeur sémantiques (KVP) à partir de documents. L'extraction sémantique de KVP peut s'adapter aux variations des documents telles que le format et la mise en page en se concentrant sur les paires clé-valeur pour l'extraction des données.

Pour extraire les paires clé-valeur des documents :

  1. Sélectionnez le nœud de l'extracteur de texte dans le flux de travail agentique.

  2. Activez l'option Extraire les paires clé-valeur.

  3. Cliquez sur Ajouter un schéma.

  4. Spécifiez les champs et les tables que vous souhaitez extraire des documents en utilisant un schéma JSON valide. Voici un exemple de JSON.

[
    {
        "document_type": "Invoice",
        "document_description": "An invoice is a standard document issued by a seller to a buyer, outlining products or services provided, quantities, prices, and payment terms.",
        "fields": {
            "invoice_number": {
                "description": "A unique identifier assigned by the vendor for this invoice.",
                "example": "2023-AUS-987654"
            },
            "document_date": {
                "description": "Date of the document.",
                "example": "2025-07-05"
            },
            "vendor_name": {
                "description": "Legal or trade name of the company issuing the invoice. Usually located in the header or footer, near the logo, or billing details.",
                "example": "ABC Supply Company Ltd"
            },
            "vendor_number": {
                "description": "Internal identifier used by the buyer's system to refer to the vendor.",
                "example": "VEND-1023"
            }
        }
    }
]
}
  1. Sélectionnez un modèle à utiliser pour l'extracteur de texte dans la liste Modèle.

  2. Entrez le nom du schéma de force KVP.

Pour modifier un schéma existant, sélectionnez le nœud de l'extracteur de texte dans le flux de travail agentique, puis cliquez sur Modifier le schéma.

Variance des valeurs kvp_model_name pour l'extraction sémantique KVP

Sur site

Remarque :

La variation des valeurs de « kvp_model_name » ne s'applique qu'aux déploiements sur site.

Lorsqu'un outil de flux utilise une valeur par défaut kvp_model_name ou que l'appelant de l'API en spécifie une au moment de l'exécution, il est important de comprendre les différences subtiles entre les valeurs kvp_model_name transmises afin de garantir les résultats escomptés.

Modèles configurés à l'aide de modèles de base internes

Lorsque vous configurez vos modèles via IBMwatsonx.ai, la valeur transmise kvp_model_name est la même pour les déploiements SaaS et sur site.

Par exemple, considérez cette valeur dans kvp_model_name watsonx/mistralai/mistral-small-3-1-24b-instruct-2503.

Ici,

  • watsonx est l'identifiant du fournisseur

  • mistralai/mistral-small-3-1-24b-instruct-2503 est la carte modèle

Étant donné que l'identifiant du fournisseur est watsonx, vous pouvez utiliser la même valeur watsonx/mistralai/mistral-small-3-1-24b-instruct-2503 pour les déploiements à la fois sur SaaS et sur site.

Remarque :

Si l'identifiant du fournisseur est watsonx, cela indique une configuration de type IBM watsonx.ai. Le même kvp_model_name fonctionne pour l'extraction sémantique KVP aussi bien dans les déploiements sur SaaS que sur site.

Modèles configurés avec une passerelle IA externe

Pour configurer les modèles externes à l'aide d'AI Gateway dans un déploiement sur site, consultez la section « Enregistrement de modèles externes via AI Gateway ».

Lorsque vous configurez vos modèles à l'aide d'une passerelle IA externe, la valeur transmise kvp_model_name diffère selon qu'il s'agit d'un déploiement sur SaaS ou sur site, car les modèles sont importés.

Par exemple, considérez cette valeur dans kvp_model_name groq/openai/gpt-oss-120b.

Ici,

  • groq est l'identifiant du fournisseur

  • openai/gpt-oss-120b est la carte modèle

Pour plus d'informations, consultez l'identifiant du prestataire.

Étant donné que l'ID du fournisseur est différent de watsonx, ajoutez le préfixe à la valeur virtual-model. Autrement dit, vous devez passer la valeur dans kvp_model_name comme virtual-model/groq/openai/gpt-oss-120b.

Remarque :

Si l'identifiant du fournisseur diffère de watsonx, cela signifie que la configuration utilise une passerelle IA externe. Dans ce cas, vous devez faire précéder la valeur de « virtual-model » pour permettre l'extraction sémantique des paires clé-valeur dans les déploiements sur site.

Pour plus de clarté, consultez le tableau suivant qui contient des exemples :

Tableau 1. Tableau 1. Différence entre les valeurs de « kvp_model_name » transmises dans « SaaS » et sur le serveur local

Nom du modèle

Valeur en kvp_model_name

ID fournisseur

Valeur à transmettre dans l' SaaS

Valeur à transmettre sur site

mistral-small-3-1-24b-instruct-2503

watsonx/mistralai/mistral-small-3-1-24b-instruct-2503

watsonx

watsonx/mistralai/mistral-medium-3-1-24b-instruct-2503

watsonx/mistralai/mistral-small-3-1-24b-instruct-2503

gpt-oss-120b

groq/openai/gpt-oss-120b

Groq

groq/openai/gpt-oss-120b

virtual-model/groq/openai/gpt-oss-120b

Mise en correspondance des données et des entrées

Par défaut, la cartographie automatique est activée. Toutefois, vous pouvez associer des valeurs aux entrées.

Pour associer des valeurs à des entrées, procédez comme suit :

  1. Sélectionnez le nœud de l'extracteur de texte, puis cliquez sur Modifier le mappage des données.

  2. Spécifiez les valeurs d'entrée pour le mappage des données. Pour plus d'informations sur le mappage des données, voir Mappage des données.

Limites et restrictions de l'extracteur de texte

Les extracteurs de texte ont les limites et les restrictions suivantes.

Zone

Description

Taille de fichier maximale

10 Mo

Nombre maximum de fichiers téléchargés

5 dossiers

Types de fichiers acceptés

.doc,.docx,.jpeg.jpg,.pdf,.png,.ppt,.pptx,.tif,.tiff

nombre maximum de pages

600 pages

Nombre maximum d'images

Aucune limite

Nombre maximum d'images par page

Aucune limite