Algorithmes de classification de texte
Pour entraîner votre modèle de classification de texte, vous devez sélectionner un algorithme de classification de texte approprié. Chaque algorithme se comporte différemment, ce qui peut conduire à des résultats différents lorsqu'ils sont appliqués aux mêmes données.
Voir Planning for classifying text pour en savoir plus sur les concepts et les exigences relatives au modèle de classification de texte d'IBM RPA.
Algorithme Bag-of-Words
Utilisez l'algorithme Bag-of-Words sur le générateur de modèles d'apprentissage automatique pour générer ce modèle.
L'algorithme Bag-of-Words utilise la fréquence des mots. Chaque mot est associé à son nombre d'occurrences dans l'ensemble d'entraînement. Pour classifier le texte, l'algorithme compte chaque mot dans le texte cible et le déduit de son modèle pour voir quel tableau de fréquences est plus pertinent. Il utilise un vocabulaire de mots connus fournis par IBM RPA.
Vous pouvez utiliser ce modèle lorsque vous devez classifier votre texte en fonction de la fréquence de certains mots contenus dans le texte. Par exemple, si vous voulez classer le message "Gagnez 50000 en participant à la loterie". à l'aide de la commande Classer le texte , vous recevez des données de sortie, telles que le meilleur choix et les scores. Voir l'exemple de résultat suivant :
Results for text classification using Bag-of-Words model:
Best choice: not spam
Best choice score: 0.75820382759259
Label and score: not spam, 0.75820382759259, , not spam
spam, 0.24179617240741, , spam
Algorithme N-Gram
Utilisez l'algorithme N-Gram sur le générateur de modèles d'apprentissage automatique pour générer ce modèle.
L'algorithme N-Gram se comporte comme l'algorithme Bag-of-Words, mais il utilise des séquences de 2 caractères. Cette séquence est construite à partir de textes de l'ensemble d'entraînement. Pour classifier un texte, l'algorithme compte chaque séquence de caractères dans le texte cible et le déduit de son modèle pour voir quel tableau de fréquences est plus pertinent.
Vous pouvez utiliser ce modèle lorsque vous devez classifier votre texte en fonction de la séquence de caractères qui apparaît dans un texte. A l'aide de la commande Classifier le texte, vous recevez une sortie similaire à celle expliquée dans l'algorithme Bag-of-Words.
Algorithme Text Classifier
Utilisez l'algorithme Text Classifier sur le générateur de modèles d'apprentissage automatique pour générer ce modèle.
Le modèle Text Classifier représente un ensemble de documents textuels organisés et classés dans des répertoires balisés. Ainsi, chaque document textuel est associé à une balise. L'algorithme Text Classifier combine différents algorithmes pour entraîner le modèle. Il s'agit d'un algorithme IBM RPA propriétaire.
Vous pouvez utiliser ce modèle pour classifier une valeur textuelle selon un ensemble de catégories en fonction d'un sujet spécifique.
A l'aide de la commande Classifier le texte, vous recevez une sortie similaire à celle expliquée dans l'algorithme Bag-of-Words.
Algorithmes fonctionnels
IBM RPA fournit un algorithme fonctionnel pour chaque algorithme d'apprentissage automatique. Bien qu'il fonctionne pour toutes les langues, il effectue un traitement sémantique spécifique pour la langue portugaise (Brésil), en supprimant les mots vides du texte, par exemple.