Qu’est-ce que l’extraction d’informations ?

17 février 2025

Temps de lecture

Auteurs

Ivan Belcic

Staff writer

Cole Stryker

Editorial Lead, AI Models

Gather

Qu’est-ce que l’extraction d’informations ?

L’extraction d’informations (EI) est le processus automatisé qui consiste à extraire des informations structurées à partir de données textuelles semi-structurées ou non structurées, en transformant les sources de texte en langage humain comme les PDF en format organisé, consultable et lisible par la machine. Le traitement automatique du langage naturel (NLP) repose sur l’extraction d’informations pour identifier les données importantes dans le texte d’entrée.

Les algorithmes d’extraction d’informations peuvent identifier des entités, y compris des noms, des relations, des événements, des sentiments et plus encore, puis les classer et les stocker dans une base de données en vue d’une utilisation ultérieure. Les informations structurées qui en résultent se présentent dans un format standardisé et sont généralement stockées dans des lignes et des colonnes qui identifient leurs attributs. Le stockage standardisé est le principal facteur de différenciation entre les données structurées et les données non structurées.

Toutes les valeurs de données d’une même base de données adhèrent au même format structuré et aux mêmes attributs définis. Les attributs relationnels sont également mis en évidence pour connecter les bases de données en fonction d’attributs partagés.

Design 3D de balles roulant sur une piste

Les dernières actualités et informations en matière d’IA 


La newsletter hebdomadaire Think vous apporte toute l’actualité sur l’IA, le cloud et bien d’autres sujets.

Pourquoi l’extraction d’informations est-elle importante ?

L’extraction d’informations permet aux entreprises de transformer des documents en jeux de données exploitables et de générer des informations précieuses à partir de ces derniers. Le marché du traitement intelligent des documents, soutenu par l’extraction d’informations, devrait connaître un taux de croissance annuel composé (TCAC) de 33,1 % d’ici 2030, sa valeur étant de 2,3 milliards de dollars en 2024.1

Recherche d’information

Les systèmes d’extraction d’informations plantent le décor pour la recherche d’information automatique : l’utilisation d’algorithmes d’intelligence artificielle (IA) pour trouver et récupérer automatiquement des données pertinentes dans des bases de connaissances. La recherche d’information est une composante essentielle de la génération augmentée de récupération (RAG), un processus qui permet aux grands modèles de langage (LLM) d’accéder à davantage de données, leur conférant une grande précision dans les cas d’utilisation propres à un domaine. 

La RAG peut améliorer la précision des chatbots LLM lorsqu’elle est appliquée à des tâches de réponse aux questions, car le LLM peut s’appuyer sur d’autres connaissances absentes de ses données d’entraînement pour générer de meilleures réponses.

Des décisions basées sur les données

Les dirigeants d’entreprise peuvent utiliser les informations extraites pour faciliter la prise de décision fondée sur les données en temps réel. L’EI est une étape préliminaire dans le cycle plus large du traitement de l’information, où les informations sont acquises, organisées, stockées, manipulées et mises à disposition pour l’utilisation. 

Les pipelines de données fournissent des informations à l’échelle de l’entreprise, en connectant les points d’entrée (les commandes en ligne, par exemple) à des bases de données. À partir de là, des outils de visualisation s’appuient sur ces données pour créer des tableaux et des graphiques en temps réel, révélant ainsi des informations exploitables orientant la prise de décision stratégique. 

Les grands jeux de données structurées produits en sortie par les systèmes d’EI peuvent être utilisés pour créer des rapports et des résumés. Les algorithmes de machine learning pour l’EI peuvent également effectuer des résumés de texte pour condenser les documents détaillés en éléments de liste plus digestes avec des annotations permettant de s’y référer rapidement. 

Par exemple, dans le domaine de la santé, l’EI peut compiler automatiquement un rapport sur un patient à partir de plusieurs fichiers, facilitant potentiellement le diagnostic et la prescription de traitements pour les médecins. Les professionnels de la finance peuvent générer des prévisions plus précises grâce aux informations extraites à partir de plusieurs rapports, articles de presse et autres sources.

Groupe d’experts | Podcast

Décryptage de l’IA : Tour d’horizon hebdomadaire

Rejoignez notre panel d’ingénieurs, de chercheurs, de chefs de produits et autres spécialistes de premier plan pour connaître l’essentiel de l'actualité et des dernières tendances dans le domaine de l’IA.

Types d’extraction d’informations

Les tâches d’extraction d’informations sont classées en fonction du type d’informations identifiées et étiquetées. Les systèmes d’EI peuvent gérer les tâches suivantes : 

  • Reconnaissance d’entités nommées (NER) 
  • Extraction de relations
  • Extraction d’événements 
  • Analyse des sentiments

Reconnaissance d’entités nommées (NER) 

La reconnaissance d’entités nommées est la tâche d’extraction d’informations consistant à identifier les entités nommées dans des données non structurées. Les entités nommées sont des objets du monde réel qui peuvent être identifiés de manière unique. Fondamentalement, il s’agit des noms propres des données. Les entités nommées comprennent les personnes, les dates, les entreprises, les lieux et les produits, et elles peuvent être physiques ou abstraites. 

Dans la phrase « En janvier 2025, Arvind Krishna est le PDG d’IBM », les entités nommées incluent janvier 2025, Arvind Krishna, PDG et IBM

Mise en relation des entités

La mise en relation d’entités est le processus consistant à déterminer si plusieurs entités font référence au même objet du monde réel. Lors de l’extraction d’informations sur un article mentionnant « Arvind Krishna », « Krishna » et « PDG d’IBM », une sous-tâche de mise en relation d’entités identifierait ces trois entités comme des références à la même personne. La mise en relation d’entités est également appelée résolution de la coréférence.

Extraction de relations (RE)

L’extraction de relations est la tâche d’extraction d’informations consistant à identifier et à catégoriser les relations entre les entités dans une source de données. La découverte de relations entre les entités peut révéler des informations qui pourraient autrement passer inaperçues. 

Dans la phrase que nous avons prise en exemple au début de cette section, le processus d’extraction de relations établirait un lien du type « travaille chez » entre « Arvind Krishna » et « IBM » avec le titre de « PDG ».

Extraction de relations et extraction de relations humaines ou sociales

Les termes extraction de relations et extraction de relations humaines ou sociales sont souvent utilisés de manière interchangeable, mais certains data scientists y trouvent une distinction subtile. Alors que l’extraction de relations humaines ou sociales couvre toute tentative visant à discerner les relations entre des entités, l’extraction de relations est plus souvent utilisée dans le contexte de l’application de modèles de machine learning pour accomplir cette tâche.

Extraction d’événements

L’extraction d’événements correspond à la manière dont les systèmes d’extraction d’informations reconnaissent les événements distincts dans le corps d’un texte d’entrée. Des mots tels que « rendez-vous » ou « réunion » peuvent déclencher une séquence d’extraction d’événements, tout comme les dates. L’extraction d’événements couvre l’événement lui-même, l’heure et la date auxquelles il a eu lieu et tous les participants mentionnés. 

Dans l’exemple de phrase, « Arvind Krishna a assisté à la conférence en janvier 2025 », un algorithme d’extraction d’événements identifierait qu’une conférence a eu lieu en janvier 2025 et que l’un des participants était Arvind Krishna, PDG d’IBM.

Analyse des sentiments

L’analyse des sentiments détermine le sentiment communiqué par un texte. Il s’agit d’un outil précieux pour réaliser des études de marché et comprendre le comportement des clients. 

Si on lui donne un jeu de données composé d’avis clients, un algorithme d’extraction d’informations peut fournir des informations sémantiques révélant les pourcentages de consommateurs ayant un avis positif, négatif ou neutre sur un produit. Les chefs de produit peuvent ensuite s’appuyer sur ces informations pour modifier le produit et le rendre plus attrayant pour une plus grande partie de ses utilisateurs actuels et potentiels.

Comment fonctionne l’extraction d’informations ?

L’extraction d’informations analyse les sources de données non structurées à l’aide d’algorithmes de machine learning afin d’identifier les données pertinentes. Il étiquette les entités de données découvertes et les stocke dans une base de données organisée et interrogeable pour une récupération efficace. 

Il existe différentes techniques d’extraction d’informations : 

  • Basée sur des règles
  • Classification (machine learning)
  • Étiquetage de séquences

Ces méthodes ne sont pas incompatibles entre elles : les progrès de l’extraction d’informations ont conduit à des modèles hybrides qui combinent plusieurs méthodes pour obtenir de meilleurs résultats.

Extraction d’informations basée sur des règles

L’extraction d’informations basée sur des règles analyse les documents pour identifier les entités en fonction de « règles » établies, c’est-à-dire des schémas et des définitions prédéfinis qui sont connus à propos des entités du texte. L’EI basée sur des règles est le plus souvent appliquée à des sources de données semi-structurées, c’est-à-dire à des données qui ne sont pas entièrement structurées, mais qui possèdent tout de même certaines caractéristiques permettant de les identifier, comme des balises ou des métadonnées. 

L’extraction d’informations basée sur des règles en mode descendant implique le traitement des cas en allant du général au particulier, tandis que la méthode ascendante fonctionne à l’inverse.

Extraction d’informations basée sur la classification

L’EI basée sur la classification est un processus en deux étapes qui aborde l’extraction d’informations comme une tâche de classification par apprentissage supervisé. Tout d’abord, les modèles de machine learning sont entraînés sur des jeux de données étiquetés afin d’apprendre les relations entre les entités et les attributs correspondants. Les modèles prédisent ensuite des étiquettes pour les entités qu’ils identifient dans les nouvelles données non structurées. 

Étiquetage de séquences

L’étiquetage de séquences est la pierre angulaire du NLP. Il utilise des modèles d’apprentissage profond pour identifier et étiqueter les composants d’une séquence en entrée, par exemple les mots composant le prompt d’un chatbot. L’étiquetage des séquences est une étape de prétraitement critique du NLP, qui permet de s’assurer que les réseaux de neurones savent exactement comment interpréter les données d’entrée. 

En plus d’identifier les entités dans les données, l’étiquetage de séquences capture les dépendances entre les parties d’une séquence d’entrée. Les dépendances sont un type spécial de relation dans laquelle une partie de la séquence d’entrée s’appuie sur une autre partie pour être correctement interprétée. Les modèles Transformer tels que les technologies à usage général (GPT) excellent dans la capture des dépendances. C’est d’ailleurs pourquoi ils peuvent maintenir la compréhension contextuelle sur de longues séquences d’entrée.

Solutions connexes
IBM watsonx Orchestrate

Concevez facilement des assistants et des agents IA évolutifs, automatisez les tâches répétitives et simplifiez les processus complexes avec IBM watsonx Orchestrate.

Découvrir watsonx Orchestrate
Outils et API de traitement automatique du langage naturel

Accélérez la valeur métier de l’intelligence artificielle grâce à un portefeuille puissant et flexible de bibliothèques, de services et d’applications.

Découvrir les solutions NLP
Conseils et services en matière d’IA

Réinventez les workflows et les opérations critiques en ajoutant l’IA pour optimiser les expériences, la prise de décision et la valeur métier en temps réel.

Découvrir les services d’IA
Passez à l’étape suivante

Concevez facilement des assistants et des agents IA évolutifs, automatisez les tâches répétitives et simplifiez les processus complexes avec IBM watsonx Orchestrate.

Découvrir watsonx Orchestrate Découvrir les solutions NLP