Qu'est-ce que la fouille de texte ?
fond bleu et noir
La fouille de texte

Découvrez la fouille de texte, qui consiste à analyser de vastes fonds de documents textuels afin de capturer des concepts et tendances clés, ainsi que des relations cachées.

Produits à la une

IBM Watson Natural Language Understanding

IBM Watson Discovery

Qu'est-ce que la fouille de texte ?

La fouille de texte, également également connue sous le nom de fouille de données, consiste à transformer un texte non structuré en un format structuré pour identifier des modèles significatifs et de nouvelles perspectives. En appliquant techniques analytiques avancées, telles que Naïf Bayes, Support Vector Machines (SVM) et d'autres algorithmes d'apprentissage en profondeur, les entreprises sont en mesure d'explorer et de découvrir des relations cachées au sein de leurs données non structurées.

Le texte est l'un des types de données les plus communs dans les bases de données. Selon la base de données, ces données peuvent être organisées de plusieurs manières:

  • Données structurées: ces données sont standardisées dans un format tabulaire avec de nombreuses lignes et colonnes, ce qui facilite le stockage et le traitement des algorithmes d'analyse et d'apprentissage automatique. Les données structurées peuvent inclure des entrées telles que des noms, des adresses et des numéros de téléphone.
  • Données non structurées: ces données n'ont pas de format de données prédéfini. Elles peuvet inclure du texte provenant de sources, comme les réseaux sociaux ou des avis sur des produits, ou alors des formats média riches comme des fichiers audio et vidéo.
  • Données semi-structurées: comme leur nom l'indique, ces données sont un mélange entre les formats de données structurés et les non structurés. Bien qu'elles disposent d'une certaine organisation, la structure n'est pas assez importante pour répondre aux exigences d'une base de données relationnelle. Les exemples de données semi-structurées les fichiers XML, JSON et HTML.

Comme 80 % des données dans le monde existent dans un format non structuré, la fouille de texte est une pratique extrêmement précieuse au sein des entreprises. Les outils de fouille de texte et les techniques de traitement automatique du langage naturel (NPL), comme l'extraction informations (PDF - Program Development Facility, 131 Ko) (lien disponible hors IBM), nous permettent de transformer des documents non structurés en un format structuré pour permettre l'analyse et la génération d'insights de haute qualité. Ceci, par conséquent, améliore la prise de décision des organisations, menant à de meilleurs résultats commerciaux.

Fouille de texte vs analyse de texte

Les termes fouille de texte et analyse de texte sont largement synonymes dans la conversation, mais ils peuvent avoir une signification plus nuancée.  La fouille de texte et l'analyse de texte identifient les modèles et les tendances textuels au sein des données non structurées grâce à l'utilisation de l'apprentissage automatique, des statistiques et de la linguistique. En transformant les données en un format plus structuré grâce à la fouille de texte et à l'analyse de texte, on peut obtenir un plus grand nombre d'insights via l'analyse de texte. Les techniques de visualisation de données peuvent ensuite être exploitées pour communiquer les résultats à un public plus large.

Techniques de fouille texte

Le processus de la fouille de texte comprend plusieurs activités qui permettent de déduire des informations à partir de données texte non structurées. Avant de pouvoir appliquer différentes techniques de fouille de texte, vous devez commencer par un prétraitement, qui consiste à nettoyer et à transformer des données texte en un format utilisable. Cette pratique est l'un aspect centraux du traitement automatique du langage naturel (NLP) et elle implique généralement l'utilisation de techniques telles que l'identification de la langue, la tokenisation, l'étiquetage des parties du discours, la granularisation et l'analyse syntaxique pour mettre en forme les données de manière appropriée pour l'analyse. Lorsque le prétraitement du texte est terminé, vous pouvez appliquer la fouille de texte pour extraire des insights depuis les données. Certaines de ces techniques de fouille de texte commune incluent :

La récupération d'informations

La récupération informations (IR) renvoie des informations pertinentes ou basée sur des documents à un ensemble prédéfini de requêtes ou de phrases. Les systèmes d'IR utilisent des algorithmes pour suivre les comportements des utilisateurs et identifier des données pertinentes. La récupération d'informations est couramment utilisée dans les systèmes de catalogues des bibliothèques et les moteurs de recherche comme Google. Certaines sous-tâches IR incluent :

  • La tokenisation (ou segmentation en unités): il s'agit du processus qui consiste à découper un texte long en phrases et mots appelés « tokens » (zones de texte). Ceux-ci sont ensuite utilisés dans les modèles, comme des sacs de mots, pour les tâches de groupement et d'association des documents. 
  • L'extraction de la racine: il s'agit du processus qui consiste à séparer les préfixes et les suffixes des mots pour extraire le mot principal et sa signification. Cette technique améliore la récupération des informations en réduisant la taille des fichiers d'indexation.

Le traitement automatique du langage naturel (NLP)

Le traitement automatique du langage naturel, qui a évolué depuis la linguistique computationnelle, utilise des méthodes provenant de disciplines variées, telles que l'informatique, l'intelligence artificielle, la linguistique et la science des données, pour permettre aux ordinateurs de comprendre la langue humaine sous ses formes écrites et verbales. En analysant la structure et la grammaire de la phrase, les sous-tâches NLP permettent aux ordinateurs de « lire ». Les sous-tâches fréquentes comprennent :

  • La récapitulation: cette technique fournit un synopsis des longs morceaux de texte pour créer un récapitulatif concis et cohérent des principaux points d'un document.
  • Le marquage des parties du discours (PoS): cette technique attribue une étiquette à chaque composante d'un document en fonction de sa partie du discours — c'est-à-dire désignant des noms, des verbes, des adjectifs, etc. Cet incrément permet une analyse sémantique sur texte non structuré.
  • La catégorisation du texte: cette tâche, qui est également également connue comme classification de texte, a pour but d'analyser les documents textuels et de les classer en fonction de thèmes ou de catégories prédéfinies. Cette sous-tâche est particulièrement utile lors de la catégorisation des synonymes et des abréviations.
  • L'analyse des sentiments: cette tâche détecte les sentiments négatifs et positifs à partir de sources de données internes ou externes, ce qui vous permet de suivre les changements d'attitude des clients dans le temps. Elle est couramment utilisée pour fournir des informations à propos de la perception des marques, des produits et des services. Ces informations peuvent inciter les entreprises à se connecter avec les clients et à améliorer les processus et les expériences utilisateur.

L'extraction d'informations

L'extraction informations (IE) fait apparaître les données pertinentes lors de la recherche de divers documents. Elle se concentre également sur l'extraction d'information structurées de texte libre et le stockage de ces entités, attributs et informations relationnelles dans une base de données. Les sous-tâches d'extraction informations comprennent:

  • La sélection de fonctionnalités, ou la sélection de caractéristiques, est le processus de sélection des caractéristiques importantes (dimensions) pour contribuer le plus à l'obtention d'un modèle analytique prédictif.
  • L'extraction de caractéristiques est le processus de sélection d'un sous-ensemble de caractéristiques dans le but d'améliorer l'exactitude d'une tâche de classification. Ceci est particulièrement important pour la réduction de la dimensionnalité.
  • La reconnaissance d'entités nommées (NER), également connue sous le nom d'identification d'entités ou d'extraction d'entités, vise à rechercher et à classer des entités spécifiques dans le texte, telles que des noms ou des lieux. Par exemple, la NER identifie « Californie » comme un lieu et « Marie » comme un nom de femme.

La fouille de données

La fouille données est le processus qui consiste à identifier des modèles et à extraire des informations utiles à partir d'ensembles de mégadonnées. Cette pratiquer évalue les données non structurées pour identifier de nouvelles informations, et est aussi couramment utilisée pour analyser les comportements des consommateurs au sein des services de marketing et des ventes. La fouille de texte est essentiellement un sous-domaine de la fouille de données, car elle se concentre sur l'apport d'une structure à des données non structurées et sur leur analyse pour générer nouvelles informations. Les techniques mentionnées ci-dessus sont des formes de fouille de données mais relèvent du périmètre de l'analyse de données textuelles.

Les applications de la fouille de texte

Le logiciel d'analyse de texte a eu un impact sur la façon dont de nombreuses industries travaillent, leur permettant d'améliorer les produits utilisateurs tout en prenant de meilleures décisions commerciales, plus rapidement. Les cas d'utilisation les plus courants sont les suivants:

  • Client service: il existe des manières variées de solliciter les avis de nos utilisateurs. Lorsqu'ils sont associés aux outils d'analyse de texte, les systèmes de commentaires, comme les chatbots, les enquêtes client, les NPS, les avis en ligne, les tickets de prise en charge et les profils sur les réseaux sociaux permettent aux entreprises d'améliorer leur expérience client avec rapidité. La fouille de texte et l'analyse des sentiments peuvent fournir un mécanisme pour les entreprises visant à classer par ordre de priorité les points de frustration clés pour leurs clients, ce qui permet aux entreprises de répondre aux questions urgentes en temps réel et d'accroître la satisfaction des clients. Découvrez comment Verizon utilise l'analyse de texte dans son centre de support.
  • Gestion des risques: la fouille de texte dispose également d'applications dans la gestion des risques, où elle peut fournir des informations sur les tendances industrielles et les marchés financiers en surveillant les changements de sentiments et en extrayant des informations de rapports et de livres blancs d'analystes. Cela est particulièrement utile pour les institutions bancaires, car ces données fournissent une plus grande confiance au regard des investissements commerciaux dans des secteurs variés. Découvrez comment CIBC et EquBot utilisent l'analyse de texte dans le cadre de l'atténuation des risques.
  • Maintenance: la fouille de texte fournit une image riche et complète de l'exploitation et de la fonctionnalité des produits et des machines. Au fil du temps, la fouille de texte automatise la prise de décision en révélant des modèles qui correspondent aux problèmes et aux procédures de maintenance préventives et réactives. L'analyse de texte aide les professionnels de la maintenance à déterminer plus rapidement la cause première des défis et des défaillances. Découvrez comment Korean Airlines utilise l'analyse de texte pour la maintenance.
  • Soins de santé: les techniques de fouille de texte sont de plus en plus précieuses pour les chercheurs dans le secteur biomédical, en particulier pour les groupements d'informations. L'examen manuel de recherches médicales peut être coûteux et prendre du temps ; la fouille de texte fournit une méthode d'automatisation pour extraire des informations précieuses d'articles médicaux.
  • Filtrage des spams: les spams servent souvent de point d'entrée aux pirates pour infecter les systèmes informatiques avec un logiciel malveillant. La fouille de texte peut fournir une méthode pour filtrer et exclure ces e-mails des boîtes de réception, améliorant ainsi l'expérience utilisateur globale et minimisant le risque de cyber-attaques pour les utilisateurs finaux.
Fouille de texte et IBM Watson

Trouvez les tendances avec IBM Watson Discovery pour que votre entreprise puisse prendre de meilleures décisions, éclairées par des données. L'analyse textuelle explore vos données en temps réel pour révéler les modèles, les tendances et les relations cachés entre les différents éléments de contenu. Utilisez l'analyse de texte pour comprendre le client et le comportement utilisateur, analyser les tendances des réseaux sociaux et du commerce électronique, rechercher les causes premières des problèmes et bien plus. Il existe une valeur métier inexploitée dans vos insights cachés. Découvrez IBM Watson Discovery dès aujourd'hui.

Permettez à vos data scientists d'exceller en les équipant d'un puissant kit d'outils de fouille de données. Natural Language Understanding Watson d'IBM peut aider vos équipes à apprendre à analyser le texte pour en révéler la structure et la signification. Vos équipes peuvent extraire des métadonnées de contenus tels que des concepts, des entités, des mots-clés, des catégories, des sentiments, des émotions, des relations et des rôles sémantiques grâce à la compréhension du langage naturel. Découvrez IBM Watson Natural Language Understanding dès aujourd'hui.

Vous pouvez également en apprendre plus sur la manière dont le traitement linguistique et le traitement du langage naturel fonctionnent sur le Cloud Pak d'IBM pour la palteforme de données, ou cliquer ici pour vous créer un compte IBM Cloud gratuit.

Solutions connexes
IBM Watson Discovery

IBM Watson Discovery est une technologie de recherche primée basée sur l'IA qui élimine les silos de données et récupère les informations enfouies dans les données de l'entreprise.

Explorer Watson Discovery
Compréhension du langage naturel

Watson Natural Language Understanding est un produit cloud natif qui utilise l'apprentissage en profondeur pour extraire les métadonnées des textes : mots-clés, émotions et syntaxe.

Explorer la compréhension du langage naturel
Traitement automatique du langage naturel

Le NPL, ou traitement du langage naturel, c'est l'IA qui parle la langue de votre entreprise. Construisez des solutions qui génèrent 383 % de retour sur investissement sur trois ans avec IBM Watson Discovery.

Explorer le traitement du langage naturel