A propos de Text Mining

De nos jours, de plus en plus d'informations sont stockées dans des formats non structurés et partiellement structurés (messages électroniques de clients, notes de centre d'appel, réponses ouvertes à des enquêtes, actualités, formulaires Web, etc.). Ce flot d'informations pose problème à de nombreuses organisations qui souhaitent trouver la méthode leur permettant de collecter, d'étudier et d'exploiter ces informations.

Le processus de Text Mining consiste à analyser des ensembles de documents textuels afin de capturer les concepts et thèmes-clés, et de découvrir les relations et les tendances cachées. Il ne nécessite pas que vous connaissiez les mots ou les termes précis utilisés par les auteurs pour exprimer ces concepts. Bien qu'il s'agisse de processus très différents, l'exploration de texte est parfois confondue avec la récupération d'informations. Si l'extraction et le stockage précis des informations représentent un défi considérable, l'extraction et la gestion efficaces du contenu, de la terminologie et des relations compris dans ces informations jouent un rôle vital.

Text Mining et Data Mining

Pour chaque élément du texte, le système de Text Mining linguistique renvoie un index de concepts, ainsi que des informations à propos de ces concepts. Ces informations simplifiées et structurées peuvent être combinées à d'autres sources de données afin de répondre aux questions du type :

Quels concepts sont associés ?
A quel autre élément sont-ils liés ?
Quelles sont les catégories de niveau supérieur pouvant découler des informations extraites ?
Quels résultats les catégories ou les concepts permettent-ils de prédire ?
De quelle façon les catégories ou les concepts prédisent-ils les comportements ?

Par une utilisation conjointe de Text Mining et de Data mining, vous obtenez des résultats plus probants que sur la base des données structurées ou non structurées seules. Ce processus comprend généralement les étapes suivantes :

Identification du texte à explorer. Préparation du texte avant exploration. Si le texte apparaît dans plusieurs fichiers, enregistrez-les tous au même endroit. Dans le cas de bases de données, déterminez le champ contenant le texte.
Analyse et extraction des données structurées. Appliquez les algorithmes de Text Mining au texte source.
Génération de modèles de concept et de catégorie. Identifiez les principaux concepts et/ou créez des catégories. Généralement, le système renvoie de nombreux concepts à partir de données non structurées. Identifiez les meilleurs concepts et catégories en vue du scoring des catégories.
Analyse des données structurées. Utilisez les techniques standard du Data mining (comme le clustering, la classification et la modélisation prédictive) pour connaître les relations unissant les concepts. Fusionnez les concepts extraits avec d'autres données structurées afin de prévoir le comportement sur la base des concepts.

Analyse de texte et catégorisation

L'analyse de texte, sorte d'analyse qualitative, est l'extraction d'informations utiles d'un texte, de manière à regrouper les principaux concepts ou idées qui figurent dans ce texte dans un nombre approprié de catégories. Vous pouvez effectuer une analyse de texte sur tout type et toute longueur de texte, bien que l'approche analytique varie quelque peu.

Etant donné que les enregistrements ou les documents courts sont moins complexes et contiennent généralement moins de mots et de réponses ambigus, leur catégorisation est plus simple. Par exemple, si nous posons des questions ouvertes et courtes au cours d'une enquête sur les trois activités préférées des personnes interrogées lorsqu'elles sont en vacances, leurs réponses seront pour la plupart courtes : aller à la plage, visiter des parcs nationaux ou ne rien faire. Des réponses ouvertes plus longues risquent, par contre, d'être plutôt complexes et démesurées, en particulier si les personnes interrogées sont instruites, motivées et qu'elles disposent de suffisamment de temps pour remplir un questionnaire. Si nous interrogeons des personnes sur leurs opinions politiques dans le cadre d'une enquête ou si nous mettons au point un flux de blogue concernant la politique, nous nous attendons à recevoir de très longs commentaires sur une grande variété de problèmes et de prises de position.

La possibilité d'extraire les principaux concepts et de créer des catégories avec pertinence à partir de ces longues sources textuelles en très peu de temps est un avantage-clé de l'utilisation d'IBM® SPSS Modeler Text Analytics. Pour obtenir les résultats les plus fiables à chacune des étapes du processus d'analyse de texte, des techniques statistiques et linguistiques automatiques sont associées.

Traitement linguistique et traitement du langage naturel

Le principal problème lié à la gestion de ces données textuelles non structurées est l'absence de règles standard de rédaction permettant aux ordinateurs de comprendre les textes. La langue, et par conséquent le sens des mots, varie d'un document à l'autre et même au sein d'un même document. Pour pouvoir récupérer et organiser efficacement ces données non structurées, vous devez analyser la langue et découvrir la signification du texte. Il existe plusieurs méthodes automatisées permettant l'extraction des concepts d'informations non structurées. Ces méthodes peuvent être réparties en deux types : linguistiques et non linguistiques.

Certaines entreprises ont tenté d'employer des solutions non linguistiques automatisées basées sur des statistiques et des réseaux de neurones. Grâce aux technologies informatiques, ces solutions permettent d'analyser et de catégoriser les principaux concepts plus rapidement qu'un être humain. Le degré d'exactitude de ces solutions est malheureusement relativement faible. La plupart des systèmes basés sur les statistiques comptent simplement le nombre d'occurrences des mots et calculent leur proximité statistiques vis-à-vis des concepts associés. Ils produisent un grand nombre de résultats non pertinents (« bruit ») et passent à côté de ceux qu'ils doivent trouver. On parle alors de « silence ».

Pour compenser leur exactitude limitée, certaines solutions intègrent des règles non linguistiques complexes permettant de distinguer les résultats pertinents des résultats non pertinents. Cette technique est appelée Text Mining basé sur des règles.

La technique du Text Mining basé sur la linguistique associe les principes de traitement du langage naturel (analyse assistée par ordinateur des langues humaines) et l'analyse des mots, des phrases, de la syntaxe et de la structure du texte. Les systèmes dotés du traitement du langage naturel extraient les concepts de manière intelligente, y compris les expressions composées. En outre, grâce à la maîtrise du langage sous-jacent, ils classent les concepts en groupes d'informations similaires (produits, organisations ou personnes, par exemple), s'aidant du sens et du contexte.

Le Text Mining basé sur la linguistique détermine la signification d'un texte à la manière d'une personne humaine, en reconnaissant un certain nombre de formes de mots comme ayant une signification semblable et en analysant la structure de la phrase de manière à fournir un canevas permettant de comprendre le texte. Tout en garantissant la rapidité et la rentabilité des systèmes statistiques, cette méthode offre un degré d'exactitude nettement supérieur et exige une intervention considérablement moindre de l'utilisateur.

Pour illustrer la différence entre la méthode statistiques et la méthode linguistique pendant le processus d'extraction, examinons le mode d'action de chacune de ces méthodes dans le cadre d'une requête concernant l'expression reproduction de documents. La solution statistiques et la solution linguistique doivent toutes les deux étendre le mot reproduction à ses synonymes (copie et duplication, par exemple). Sinon, des informations pertinentes risquent d'être ignorées. Toutefois, si une solution statistiques tente d'effectuer une recherche sur les synonymes et donc, sur des termes ayant la même signification, elle peut également inclure le terme naissance, générant ainsi un certain nombre de résultats non pertinents. Comme la compréhension de la langue permet de lever toute ambiguïté dans le texte, l'exploration de texte linguistique reste par définition la méthode la plus fiable.

Si vous comprenez le fonctionnement du processus d'extraction, vous êtes plus à même de prendre les décisions-clés lorsque vous affinez vos ressources linguistiques (bibliothèques, types, synonymes, etc.). Les principales étapes du processus d'extraction sont les suivantes :

Conversion des données source en un format standard
Identification des termes susceptibles d'être extraits
Identification des classes d'équivalence et intégration des synonymes
Affectation d'un type
Indexation et, si nécessaire, mise en correspondance de motifs avec un deuxième analyseur

Etape 1. Conversion des données source en un format standard

Au cours de cette première étape, les données que vous importez sont converties dans un format uniforme pouvant être utilisé pour effectuer d'autres analyses. Cette conversion, qui s'effectue en interne, ne modifie pas les données d'origine.

Etape 2. Identification des termes susceptibles d'être extraits

Il est important de comprendre le rôle des ressources linguistiques dans l'identification des termes susceptibles d'être extraits lors de l'extraction linguistique. Les ressources linguistiques sont utilisées lors de chaque exécution d'une extraction. Elles se présentent sous la forme de ressources compilées, de bibliothèques et de modèles. Les bibliothèques comportent des listes de mots, des relations et des informations complémentaires qui permettent de spécifier ou d'affiner l'extraction. Vous ne pouvez pas afficher ni éditer les ressources compilées. Toutefois, les autres ressources peuvent être modifiées dans l'Editeur de modèle ou, si vous êtes dans une session de plan de travail interactif, dans l'Editeur de ressources.

Les ressources compilées sont des composants internes essentiels du moteur du programme d'extraction d' IBM SPSS Modeler Text Analytics . Ces ressources comportent un dictionnaire général qui répertorie les formes de base avec un code concernant la catégorie grammaticale (nom, verbe, adjectif, etc.).

Outre ces ressources compilées, plusieurs bibliothèques sont fournies avec le produit et peuvent être utilisées pour compléter les types et les définitions de concept figurant dans les ressources compilées, ainsi que pour proposer des synonymes. Ces bibliothèques et celles que vous pouvez créer sont constituées de plusieurs dictionnaires. dictionnaires de types, dictionnaires de synonymes et dictionnaires d'exclusions.

Une fois les données importées et converties, le moteur du programme d'extraction commence à identifier les termes susceptibles d'être extraits. Ces termes sont des mots ou des groupes de mots qui permettent d'identifier des concepts du texte. Pendant le traitement du texte, les mots uniques (unitermes) et les mots composés (multitermes) sont identifiés à l'aide d'extracteurs de motifs de catégorie grammaticale. Par conséquent, les mots-clés de sentiment susceptibles d'être extraits sont identifiés à l'aide de l'analyse des liens du texte de sentiment.

Remarque : Les termes du dictionnaire général compilé susmentionné représentent une liste de tous les mots susceptibles d'être insignifiants ou linguistiquement ambigus en tant qu'unitermes. Ces mots sont exclus de l'extraction lorsque vous identifiez les unitermes. Ils font toutefois l'objet d'une réévaluation lorsque vous déterminez les catégories grammaticales ou que vous recherchez des mots composés (expressions multitermes) plus longs, susceptibles d'être extraits.

Etape 3. Identification des classes d'équivalence et intégration des synonymes

Une fois les expressions unitermes et multitermes susceptibles d'être extraites identifiées, le logiciel utilise un dictionnaire de normalisation afin d'identifier des classes d'équivalence. Une classe d'équivalence désigne la forme de base d'une expression ou la forme unique de deux variantes d'une même expression.L'affectation d'expressions à des classes d'équivalence a pour objectif de veiller à ce que, par exemple, effet secondaire et 副作用 ne soient pas traités comme des concepts distincts. Pour déterminer quel concept utiliser pour la classe d'équivalence c'est-à-dire si effect secondaire ou 副作用 est utilisé en tant que terme principal, le moteur d'extraction applique, dans l'ordre, les règles suivantes :

Forme définie par l'utilisateur dans une bibliothèque.
La forme la plus fréquente, comme définie par les ressources précompilées.

Etape 4. Affectation d'un type

Des types sont ensuite affectés aux concepts extraits. Un type correspond à un regroupement sémantique de concepts. Les ressources compilées et les bibliothèques sont utilisées au cours de cette étape. Les types comprennent des éléments tels que des concepts de niveau supérieur, des mots positifs et négatifs, des prénoms, des lieux, des organisations, etc. Pour plus d'informations, voir Dictionnaires de types.

Les systèmes linguistiques sont sensibles à la connaissance. Plus leurs dictionnaires contiennent d'informations, plus la qualité des résultats obtenus est élevée. Modifier le contenu du dictionnaire, les définitions de synonyme par exemple, permet de simplifier les informations obtenues. Souvent itératif, ce processus est nécessaire pour obtenir une extraction précise des concepts. Le traitement du langage naturel est un élément fondamental d'IBM SPSS Modeler Text Analytics.