Comprendre les documents dans watsonx.ai
Convertissez des documents commerciaux de haute qualité dans un format de fichier plus simple pouvant être utilisé par des modèles d'IA grâce à plusieurs API de traitement de texte dans la bibliothèque de compréhension des documents. Traiter le texte des documents pour trouver et isoler les éléments d'information clés de documents tels que les contrats.
Simplifier vos documents commerciaux en les convertissant dans un format textuel est particulièrement utile pour les tâches de génération augmentée par extraction, lorsque vous souhaitez trouver des informations pertinentes par rapport à une requête d'utilisateur et les inclure dans les données d'entrée d'un modèle de fondation. L'inclusion d'informations contextuelles précises dans les données d'entrée du modèle permet au modèle de fondation d'intégrer des informations factuelles et actualisées dans les données de sortie du modèle.
Capacités
Vous pouvez utiliser une combinaison de plusieurs API de la bibliothèque de compréhension des documents pour analyser vos documents. L'API de classification vous permet de classer votre document dans l'un des nombreux types de documents courants pris en charge sans avoir à exécuter une tâche d'extraction plus longue. Vous pouvez ensuite utiliser les résultats de l'étape de prétraitement pour extraire efficacement des données non structurées ainsi que des données structurées limitées au type de document classifié à l'aide de l'API d'extraction.
Vous pouvez utiliser les API de traitement de texte avec des documents présentant différentes caractéristiques, telles que
- Documents dont le contenu est rédigé en plusieurs langues. Voir Langues prises en charge.
- Des documents dans différents types de fichiers qui sont stockés dans différents types de stockage. Pour plus de détails, voir :
La technologie de compréhension des documents utilise les capacités suivantes pour numériser et traiter votre document :
- Reconnaissance optique des caractères
- La reconnaissance optique de caractères (OCR) détecte le texte à partir d'images, de documents numérisés et de tableaux. Elle est utile pour préserver les informations représentées dans des images, des diagrammes ou du texte intégré dans des fichiers tels que des PDF numérisés. Bien que l'OCR puisse extraire du texte à partir d'images bruitées, la qualité des fichiers d'image doit répondre à l'exigence minimale de 80 DPI (points par pouce).
- Identification de la structure du document
- Les API traitent le contenu des documents à partir de diverses structures de données, notamment des tableaux, des titres de section, des listes à puces, des paragraphes et des notes de bas de page. L'API identifie et supprime également les contenus couramment utilisés, tels que les en-têtes et les pieds de page.
- Classification et extraction de paires clé-valeur
- Utilisez l'extraction de paires clé-valeur pour traiter des documents contenant des données structurées génériques ou spécifiques à un domaine, comme les factures, les factures de services publics, etc. Le mode d'extraction permet de classer les documents en fonction de leur type. Le texte extrait est stocké dans une structure de données appelée schéma, où chaque donnée (la valeur) est associée à un identifiant unique (la clé). Le mode utilise un schéma prédéfini ou un schéma personnalisé que vous définissez. Les paires clé-valeur sont extraites à l'aide de grands modèles de langage (LLM) et d'un traitement vision-langage avancé.
Vous pouvez configurer les différentes capacités de compréhension des documents en utilisant des paramètres communs aux API de classification et d'extraction de texte. Pour plus de détails, voir Paramètres communs de traitement de texte.
Restrictions
- L'API de classification des textes ne peut être utilisée qu'avec des documents en langue anglaise.
- L'extraction de paires clé-valeur n'est possible que pour les documents en langue anglaise.
Façons de travailler
Vous pouvez traiter les documents stockés dans votre projet watsonx.ai de manière programmatique à l'aide des méthodes REST API de traitement de texte suivantes :
- Classification de texte : Utilisez l'API de classification de texte pour déterminer si un document peut être classé dans un schéma prédéfini pris en charge pour un type de document courant.
- Extraction de texte : Utilisez l'API d'extraction de texte pour extraire des entités ou des types d'informations spécifiques sur la base de la structure du document.
Flux de travaux
Vous pouvez utiliser les étapes de haut niveau suivantes pour traiter vos documents avec la bibliothèque de compréhension des documents :
Stockez votre document d'entrée dans un type de stockage pris en charge et définissez une connexion au type de stockage pour accéder à votre document dans un projet watsonx.ai.
Facultatif : Classez votre document à l'aide de l'API de classification de texte watsonx.ai dans l'un des types de documents communs pris en charge ou dans un type de document personnalisé. Voir Classification du texte dans les documents
Extrayez divers types d'informations de votre document grâce à l'API d'extraction de texte watsonx.ai. Dans votre demande d'extraction de texte, indiquez le type de stockage dans votre projet où les résultats extraits doivent être stockés. Voir Extraction de texte à partir de documents.
Le cas échéant, utilisez les résultats de la classification pour configurer avec précision votre requête d'extraction de texte afin d'extraire efficacement les données structurées de votre document.
Utiliser les résultats du processus d'extraction de texte dans une solution RAG. Voir Ajouter un texte extrait à votre solution RAG.