Temps de lecture
L’extraction d’informations (EI) est le processus automatisé qui consiste à extraire des informations structurées à partir de données textuelles semi-structurées ou non structurées, en transformant les sources de texte en langage humain comme les PDF en format organisé, consultable et lisible par la machine. Le traitement automatique du langage naturel (NLP) repose sur l’extraction d’informations pour identifier les données importantes dans le texte d’entrée.
Les algorithmes d’extraction d’informations peuvent identifier des entités, y compris des noms, des relations, des événements, des sentiments et plus encore, puis les classer et les stocker dans une base de données en vue d’une utilisation ultérieure. Les informations structurées qui en résultent se présentent dans un format standardisé et sont généralement stockées dans des lignes et des colonnes qui identifient leurs attributs. Le stockage standardisé est le principal facteur de différenciation entre les données structurées et les données non structurées.
Toutes les valeurs de données d’une même base de données adhèrent au même format structuré et aux mêmes attributs définis. Les attributs relationnels sont également mis en évidence pour connecter les bases de données en fonction d’attributs partagés.
L’extraction d’informations permet aux entreprises de transformer des documents en jeux de données exploitables et de générer des informations précieuses à partir de ces derniers. Le marché du traitement intelligent des documents, soutenu par l’extraction d’informations, devrait connaître un taux de croissance annuel composé (TCAC) de 33,1 % d’ici 2030, sa valeur étant de 2,3 milliards de dollars en 2024.1
Les systèmes d’extraction d’informations plantent le décor pour la recherche d’information automatique : l’utilisation d’algorithmes d’intelligence artificielle (IA) pour trouver et récupérer automatiquement des données pertinentes dans des bases de connaissances. La recherche d’information est une composante essentielle de la génération augmentée de récupération (RAG), un processus qui permet aux grands modèles de langage (LLM) d’accéder à davantage de données, leur conférant une grande précision dans les cas d’utilisation propres à un domaine.
La RAG peut améliorer la précision des chatbots LLM lorsqu’elle est appliquée à des tâches de réponse aux questions, car le LLM peut s’appuyer sur d’autres connaissances absentes de ses données d’entraînement pour générer de meilleures réponses.
Les dirigeants d’entreprise peuvent utiliser les informations extraites pour faciliter la prise de décision fondée sur les données en temps réel. L’EI est une étape préliminaire dans le cycle plus large du traitement de l’information, où les informations sont acquises, organisées, stockées, manipulées et mises à disposition pour l’utilisation.
Les pipelines de données fournissent des informations à l’échelle de l’entreprise, en connectant les points d’entrée (les commandes en ligne, par exemple) à des bases de données. À partir de là, des outils de visualisation s’appuient sur ces données pour créer des tableaux et des graphiques en temps réel, révélant ainsi des informations exploitables orientant la prise de décision stratégique.
Les grands jeux de données structurées produits en sortie par les systèmes d’EI peuvent être utilisés pour créer des rapports et des résumés. Les algorithmes de machine learning pour l’EI peuvent également effectuer des résumés de texte pour condenser les documents détaillés en éléments de liste plus digestes avec des annotations permettant de s’y référer rapidement.
Par exemple, dans le domaine de la santé, l’EI peut compiler automatiquement un rapport sur un patient à partir de plusieurs fichiers, facilitant potentiellement le diagnostic et la prescription de traitements pour les médecins. Les professionnels de la finance peuvent générer des prévisions plus précises grâce aux informations extraites à partir de plusieurs rapports, articles de presse et autres sources.
Les tâches d’extraction d’informations sont classées en fonction du type d’informations identifiées et étiquetées. Les systèmes d’EI peuvent gérer les tâches suivantes :
La reconnaissance d’entités nommées est la tâche d’extraction d’informations consistant à identifier les entités nommées dans des données non structurées. Les entités nommées sont des objets du monde réel qui peuvent être identifiés de manière unique. Fondamentalement, il s’agit des noms propres des données. Les entités nommées comprennent les personnes, les dates, les entreprises, les lieux et les produits, et elles peuvent être physiques ou abstraites.
Dans la phrase « En janvier 2025, Arvind Krishna est le PDG d’IBM », les entités nommées incluent janvier 2025, Arvind Krishna, PDG et IBM.
La mise en relation d’entités est le processus consistant à déterminer si plusieurs entités font référence au même objet du monde réel. Lors de l’extraction d’informations sur un article mentionnant « Arvind Krishna », « Krishna » et « PDG d’IBM », une sous-tâche de mise en relation d’entités identifierait ces trois entités comme des références à la même personne. La mise en relation d’entités est également appelée résolution de la coréférence.
L’extraction de relations est la tâche d’extraction d’informations consistant à identifier et à catégoriser les relations entre les entités dans une source de données. La découverte de relations entre les entités peut révéler des informations qui pourraient autrement passer inaperçues.
Dans la phrase que nous avons prise en exemple au début de cette section, le processus d’extraction de relations établirait un lien du type « travaille chez » entre « Arvind Krishna » et « IBM » avec le titre de « PDG ».
Les termes extraction de relations et extraction de relations humaines ou sociales sont souvent utilisés de manière interchangeable, mais certains data scientists y trouvent une distinction subtile. Alors que l’extraction de relations humaines ou sociales couvre toute tentative visant à discerner les relations entre des entités, l’extraction de relations est plus souvent utilisée dans le contexte de l’application de modèles de machine learning pour accomplir cette tâche.
L’extraction d’événements correspond à la manière dont les systèmes d’extraction d’informations reconnaissent les événements distincts dans le corps d’un texte d’entrée. Des mots tels que « rendez-vous » ou « réunion » peuvent déclencher une séquence d’extraction d’événements, tout comme les dates. L’extraction d’événements couvre l’événement lui-même, l’heure et la date auxquelles il a eu lieu et tous les participants mentionnés.
Dans l’exemple de phrase, « Arvind Krishna a assisté à la conférence en janvier 2025 », un algorithme d’extraction d’événements identifierait qu’une conférence a eu lieu en janvier 2025 et que l’un des participants était Arvind Krishna, PDG d’IBM.
L’analyse des sentiments détermine le sentiment communiqué par un texte. Il s’agit d’un outil précieux pour réaliser des études de marché et comprendre le comportement des clients.
Si on lui donne un jeu de données composé d’avis clients, un algorithme d’extraction d’informations peut fournir des informations sémantiques révélant les pourcentages de consommateurs ayant un avis positif, négatif ou neutre sur un produit. Les chefs de produit peuvent ensuite s’appuyer sur ces informations pour modifier le produit et le rendre plus attrayant pour une plus grande partie de ses utilisateurs actuels et potentiels.
L’extraction d’informations analyse les sources de données non structurées à l’aide d’algorithmes de machine learning afin d’identifier les données pertinentes. Il étiquette les entités de données découvertes et les stocke dans une base de données organisée et interrogeable pour une récupération efficace.
Il existe différentes techniques d’extraction d’informations :
Ces méthodes ne sont pas incompatibles entre elles : les progrès de l’extraction d’informations ont conduit à des modèles hybrides qui combinent plusieurs méthodes pour obtenir de meilleurs résultats.
L’extraction d’informations basée sur des règles analyse les documents pour identifier les entités en fonction de « règles » établies, c’est-à-dire des schémas et des définitions prédéfinis qui sont connus à propos des entités du texte. L’EI basée sur des règles est le plus souvent appliquée à des sources de données semi-structurées, c’est-à-dire à des données qui ne sont pas entièrement structurées, mais qui possèdent tout de même certaines caractéristiques permettant de les identifier, comme des balises ou des métadonnées.
L’extraction d’informations basée sur des règles en mode descendant implique le traitement des cas en allant du général au particulier, tandis que la méthode ascendante fonctionne à l’inverse.
L’EI basée sur la classification est un processus en deux étapes qui aborde l’extraction d’informations comme une tâche de classification par apprentissage supervisé. Tout d’abord, les modèles de machine learning sont entraînés sur des jeux de données étiquetés afin d’apprendre les relations entre les entités et les attributs correspondants. Les modèles prédisent ensuite des étiquettes pour les entités qu’ils identifient dans les nouvelles données non structurées.
L’étiquetage de séquences est la pierre angulaire du NLP. Il utilise des modèles d’apprentissage profond pour identifier et étiqueter les composants d’une séquence en entrée, par exemple les mots composant le prompt d’un chatbot. L’étiquetage des séquences est une étape de prétraitement critique du NLP, qui permet de s’assurer que les réseaux de neurones savent exactement comment interpréter les données d’entrée.
En plus d’identifier les entités dans les données, l’étiquetage de séquences capture les dépendances entre les parties d’une séquence d’entrée. Les dépendances sont un type spécial de relation dans laquelle une partie de la séquence d’entrée s’appuie sur une autre partie pour être correctement interprétée. Les modèles Transformer tels que les technologies à usage général (GPT) excellent dans la capture des dépendances. C’est d’ailleurs pourquoi ils peuvent maintenir la compréhension contextuelle sur de longues séquences d’entrée.
IBM Granite est notre famille de modèles d’IA ouverts, performants et fiables, conçus pour les entreprises et optimisés pour dimensionner vos applications d’IA. Explorez les options de langage, de code, de séries temporelles et de garde-fous.
Découvrez comment le traitement automatique du langage naturel peut vous aider à interagir de manière plus naturelle avec les ordinateurs.
Nous avons interrogé 2 000 entreprises à propos de leurs initiatives d’IA pour découvrir ce qui fonctionne, ce qui ne fonctionne pas et comment progresser.
Explorez le site web IBM Developer pour accéder à des blogs, des articles et des newsletters et pour en savoir plus sur l’IA intégrable d’IBM.
Apprenez des concepts fondamentaux et développez vos compétences grâce à des ateliers pratiques, à des cours, à des projets guidés, à des essais et à d’autres ressources.
Concevez facilement des assistants et des agents IA évolutifs, automatisez les tâches répétitives et simplifiez les processus complexes avec IBM watsonx Orchestrate.
Accélérez la valeur métier de l’intelligence artificielle grâce à un portefeuille puissant et flexible de bibliothèques, de services et d’applications.
Réinventez les workflows et les opérations critiques en ajoutant l’IA pour optimiser les expériences, la prise de décision et la valeur métier en temps réel.